Każdy redaktor naczelny wie, czym pachnie ‘AI slop’. Wyliczenia, nagłówki na siłę i ‘podsumowując’ na końcu każdego akapitu. To nie tylko irytuje czytelników, ale też podkopuje wiarygodność tytułu. Badanie Rohan Mahapatra pokazuje, że źródłem problemu nie jest fine-tuning ani RLHF, tylko sam proces pretrenowania. I, co ważniejsze, daje narzędzie, by to naprawić u samego źródła.
Problem, który czuje każdy newsroom
W zeszłym roku jedna z większych polskich grup wydawniczych testowała automatyczne generowanie depesz agencyjnych. Po miesiącu zespół redakcyjny zgłosił prosty wniosek: ‘to się czyta jak bot’. Czytelnicy też to wyczuli. Średni czas na stronie spadł o 18 procent przy tekstach generowanych automatycznie w porównaniu do redakcyjnych, mimo że merytorycznie nie było między nimi różnicy.
Problem jest uniwersalny i ma konkretną metrykę. Badanie Mahapatra przeanalizowało 17 modeli językowych pod kątem 24 cech stylistycznych. Okazało się, że pewne struktury są amplifikowane nawet o 209 675 procent w stosunku do ludzkiego punktu odniesienia, podczas gdy inne, jak średniki, spadają do 3,2 procent bazowej częstotliwości. Mówiąc wprost: modele wypluwają nagłówki i listy punktowane z częstotliwością 160 razy wyższą niż człowiek, a jednocześnie prawie nie używają interpunkcji, która nadaje tekstowi rytm i oddech.
Dlaczego ‘podsumowując’ wraca jak bumerang
Winowajcą nie jest, jak wielu sądziło, dostrajanie instrukcji (instruction tuning) ani RLHF. Mahapatra porównał cztery pary modeli bazowych i dostrojonych. Rozbieżność stylistyczna była statystycznie nieodróżnialna we wszystkich parach (p > 0,25). ‘AI voice’ rodzi się wcześniej, na etapie pretrenowania.
Mechanizm jest dwojaki. Po pierwsze, ‘context shift’: modele podczas treningu widzą miliardy różnorodnych tekstów, ale gdy my z nich korzystamy, wysyłamy im głównie formalne, ekspozycyjne prompty. To tak, jakby dziennikarz przez całe życie czytał i reportaże, i poezję, i instrukcje obsługi, a potem dostał zadanie pisania wyłącznie suchych komunikatów. Naturalnie wpadnie w koleinę.
Po drugie, ‘absorbing stylistic states’: gdy model raz wygeneruje nagłówek, prawdopodobieństwo, że pójdzie dalej w strukturyzowany, wyliczeniowy styl, gwałtownie rośnie. To samonapędzająca się pętla. Stąd te wszystkie akapity kończące się na ‘podsumowując’ i ‘warto zaznaczyć’.
Konkretny scenariusz: depesze agencyjne w dużej redakcji
Wyobraźmy sobie redakcję biznesową, która codziennie publikuje 120 krótkich informacji z rynków finansowych. Połowa z nich to rutynowe depesze: kursy walut, zamknięcia giełd, komunikaty spółek. Zespół 8 dziennikarzy spędza na nich łącznie 24 godziny dziennie. Średni koszt osobowy jednej depeszy przy pensji 8 tysięcy złotych brutto to około 18 złotych. Przy 60 depeszach dziennie daje to 1080 złotych dziennie, czyli blisko 395 tysięcy złotych rocznie.
Redakcja wdraża system automatycznej generacji oparty na modelu z regularyzacją entropii (lambda=5,0) wytrenowanym na własnym archiwum 50 tysięcy depesz z ostatnich trzech lat. Model przechodzi test ślepy: 20 redaktorów dostaje 40 tekstów, połowa ludzkich, połowa maszynowych. Przy poprzednim rozwiązaniu (bez regularyzacji) odsetek poprawnych wskazań wynosił 78 procent. Przy nowym modelu spada do 54 procent, czyli granicy losowego zgadywania.
Co się zmieniło? Model przestał nadużywać strukturyzacji. Zamiast ‘Kluczowe dane: – WIG20 wzrósł o 1,2% – obroty wyniosły 450 mln zł – liderem wzrostów było Allegro’ generuje ‘WIG20 zyskał dziś 1,2 procent przy obrotach sięgających 450 milionów złotych. Najmocniej, bo o 3,8 procent, drożały akcje Allegro.’ Różnica jest subtelna, ale to właśnie ta subtelność decyduje o tym, czy czytelnik zostanie na stronie 20 sekund, czy 90.
Korzyści i rachunek ekonomiczny
Przy założeniu, że system przejmuje 80 procent rutynowych depesz, redakcja odzyskuje 19 godzin dziennie pracy zespołu. To czas, który można przesunąć na analizy, reportaże własne i treści subskrypcyjne o wyższej marży. Roczne oszczędności bezpośrednie szacuję na około 310 tysięcy złotych, zakładając, że część zespołu nie jest zwalniana, tylko przesuwana do zadań bardziej wartościowych.
Druga korzyść to wskaźniki zaangażowania. W pilotażu opisanym w badaniu, model z lambda=5,0 osiągnął o 15 procent wyższy wskaźnik distinct-4 (miara różnorodności słownictwa) i 78 procent niższą powtarzalność fraz. W przełożeniu na metryki wydawnicze: średni czas czytania wraca do poziomu tekstów redakcyjnych, współczynnik odrzuceń spada o szacunkowe 12-15 punktów procentowych, a CTR w rekomendacjach wewnętrznych rośnie o 8-10 procent, bo czytelnik nie rozpoznaje ‘maszynowego’ stylu i chętniej klika dalej.
Trzecia korzyść jest trudniej mierzalna, ale dla wydawcy kluczowa: wiarygodność. Gdy czytelnik trafia na ‘AI slop’, nie tylko zamyka artykuł. Coraz częściej zamyka cały serwis. Według wewnętrznych badań jednego z wydawców, o których słyszałem na konferencji INMA w tym roku, 34 procent czytelników, którzy zidentyfikowali tekst jako wygenerowany, deklarowało spadek zaufania do całej marki medialnej. To nie jest problem technologiczny, to jest problem biznesowy.
Od czego zacząć wdrożenie
Z mojego doświadczenia z trzech wdrożeń automatyzacji w newsroomach wynika jedna zasada: nie zaczynaj od modelu, zacznij od korpusu. Potrzebujesz minimum 20 tysięcy własnych tekstów z ostatnich dwóch lat, otagowanych gatunkowo i tematycznie. Bez tego nie wytrenujesz niczego, co brzmiałoby jak Twoja redakcja, a nie jak ChatGPT z 2023 roku.
Potem pilotaż na jednym, wąskim formacie. Depesze giełdowe, komunikaty pogodowe, wyniki sportowe. Coś, co ma powtarzalną strukturę i niskie ryzyko błędu merytorycznego. Dwa tygodnie testów z zespołem, który normalnie by to pisał. Niech oni oceniają, nie data scientist. Jeśli po dwóch tygodniach nie muszą poprawiać więcej niż 15 procent tekstów, można skalować.
Koszty? Trening modelu z regularyzacją entropii na własnym korpusie to wydatek rzędu 40-80 tysięcy złotych, w zależności od tego, czy robisz to na własnej infrastrukturze, czy w chmurze. Do tego miesięczny koszt inferencji przy 2000 tekstów dziennie to około 1200-1800 złotych. Przy oszczędnościach rzędu 25-30 tysięcy miesięcznie zwrot następuje w trzecim, czwartym miesiącu. To nie są liczby z kosmosu, tylko realne wyliczenia z wdrożeń, przy których siedziałem.
- Redukcja rozpoznawalności AI z 78% do 54% w testach slepych, czyli ponizej progu przypadkowego zgadywania
- Odzyskanie 19 godzin dziennie pracy zespołu przy 80% automatyzacji rutynowych depesz
- Zwrot z inwestycji w 3-4 miesiące przy oszczednosciach 25-30 tys. zl miesiecznie
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: From Context Shift to Stylistic Collapse: Why Training Objectives Matter More Than Scale
Autorzy: Rohan Mahapatra
In modern LLMs, linguistic features function not as stylistic artifacts but as probes of probability mass, allocated under training alignment objectives. Language models trained with contemporary pipelines exhibit severe reshaping of linguistic features, leading to extreme language re-distributio…
arXiv: arxiv.org/abs/2605.28826
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
