Dlaczego AI wyłapuje cudze błędy, a własne ignoruje - MTZN

5 czerwca, 2026

Mamy do czynienia z czymś w rodzaju ślepoty na własne potknięcia. Ten sam model językowy, który bezbłędnie wytknie pomyłkę w pytaniu użytkownika, przejdzie obojętnie obok identycznego błędu, który sam wygenerował. Nowe badanie pokazuje, że to nie defekt inteligencji, a dziwactwo formy, w jakiej rozmawiamy z modelami.

Ta sama treść, inna etykieta

Wyobraźmy sobie, że dwie osoby mówią dokładnie to samo zdanie. Jedna to nasz szef, a druga to stażysta. Choć słowa są identyczne, reakcja na nie będzie zupełnie inna. Z modelami językowymi jest bardzo podobnie.

Zespół z Tajwanu postanowił to sprawdzić w kontrolowanym eksperymencie. Użyli identycznej, błędnej treści, co potwierdzili kryptograficznie za pomocą funkcji SHA-256. Jedyną różnicą było to, w jakiej ‘roli’ w szablonie czatu umieszczono fałszywe twierdzenie. Raz było to myśl własna agenta, raz wiadomość od użytkownika, a raz odpowiedź narzędzia.

Różnica okazała się kolosalna, a nie kosmetyczna. Kiedy błąd był opakowany jako własna myśl modelu, ten masowo go ignorował. Gdy tylko zmieniono etykietę na zewnętrzną, ten sam model nagle stawał się niezwykle krytyczny.

Nawet 93 punkty procentowe różnicy

Wyniki są uderzające i nie pozostawiają złudzeń. Zmiana etykiety roli z własnej myśli agenta na rolę zewnętrzną, na przykład wiadomość od użytkownika, podnosiła wskaźnik jawnej korekty błędu o 23 do 93 punktów procentowych. Różnica jest ogromna.

Autorzy nie poprzestali na jednym modelu czy jednym typie zadań. Przetestowali siedem rodzin modeli w trzech różnych domenach: matematyce, dedukcji logicznej i rozumowaniu zdroworozsądkowym. Wynik był stabilny. W 10 z 13 testowanych kombinacji model-domena uzyskano wynik istotny statystycznie z p<0.001. Asymetria jest więc cechą fundamentalną, a nie przypadkową anomalią.

Niezdolność do samodzielnej korekty nie jest deficytem poznawczym; to artefakt szablonu czatu.

Kuan-Yen Chen, Fang-Yi Su, Jung-Hsien Chiang

The Self-Correction Illusion: LLMs Correct Others but Not Themselves

Mechanizm, a nie deficyt

Wniosek z badania jest zaskakująco prosty i przewrotny. Niezdolność modeli do samodzielnej korekty nie wynika z braku wiedzy czy zdolności. To nie jest tak, że model ‘nie wie’ lub ‘nie potrafi’ znaleźć błędu. On po prostu inaczej traktuje treści w zależności od tego, kto jest ich nadawcą.

Mówiąc wprost, to artefakt szablonu czatu, a nie deficyt poznawczy. Model ma wiedzę, by skorygować błąd, ale nie robi tego, gdy uzna, że to jego własna myśl. To tak, jakbyśmy byli bardziej skłonni uwierzyć w cudzą pomyłkę niż przyznać się do własnej. Zdaniem autorów, źródłem problemu nie jest brak inteligencji, lecz specyfika formatu czatu.

Asymetria korekty w zależności od roli w szablonie czatu

Kto mówi, ma znaczenie

Badanie ujawniło jeszcze jedną ciekawą zależność. Nie ma jednej, uniwersalnej ‘najlepszej’ roli, która zawsze wywoła korektę. Optymalne opakowanie błędu zależy od dziedziny.

W zadaniach matematycznych najskuteczniejszy okazał się blok pamięci systemowej. Model traktował go z największą powagą. Z kolei w przypadku dedukcji logicznej, najskuteczniejsze było przedstawienie błędnego twierdzenia jako zwykłej wiadomości od użytkownika. To pokazuje, że mechanizm jest asymetryczny i zniuansowany. Nie wystarczy raz na zawsze zmienić etykietę, trzeba to robić świadomie, w zależności od kontekstu.

Interwencja bez treningu

Być może najbardziej praktyczny wniosek płynący z tego odkrycia jest taki, że można je wykorzystać natychmiast. Nie trzeba ponownie trenować modelu, wydawać fortuny na obliczenia ani modyfikować jego architektury.

Wystarczy zmiana struktury promptu, aby sztucznie przenieść odpowiedzialność za błąd na zewnątrz. W ten sposób, bez ingerencji w ‘mózg’ modelu, można go zmusić do krytycznego spojrzenia na własne wcześniejsze słowa. Zamiast mówić ‘popraw swój błąd’, co nie działa, możemy powiedzieć ‘sprawdź, czy to, co przed chwilą powiedział użytkownik, jest poprawne’. To proste przefrazowanie potrafi zdziałać cuda.

Model ignoruje błąd jako ‘własną myśl’, ale koryguje go, gdy widzi go jako wiadomość od użytkownika czy systemu.
Efekt jest masywny i stabilny: wzrost korekty od 23 do 93 punktów procentowych w testach.
To nie wina ‘inteligencji’ modelu, ale formatu czatu, co otwiera drogę do prostych interwencji bez zmiany modelu.

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Samokontrola kodu: patent na zmuszenie AI do samodzielnego wykrywania błędów

Każdy, kto używał GitHub Copilot wie, że generowany kod rzadko jest bezbłędny od razu. Pętle do-whil

Własna diagnoza jako druga opinia ekspercka

Każdy lekarz wie, że druga opinia ratuje życie. W diagnostyce różnicowej, gdzie rzadkie choroby są j

Gdy twój AI-prawnik przymyka oko na własne błędy. Nowe zastosowanie ‘adwokata diabła’

Kancelarie chwalą się, że ich narzędzia AI analizują umowy szybciej niż zespół associate’ów po niepr

Automatyczny audyt własnych raportów: zmień AI w wewnętrznego audytora w 5 minut

Finanse i audyt (FinTech) — Automatyczne generowanie raportów przez AI obiecuje oszczędność czasu, a

Podsumowanie

Odkrycie to ma znaczenie dla każdego, kto buduje aplikacje oparte na agentach AI. W praktyce, zamiast polegać na tym, że agent sam poprawi swoje błędy, architekt systemu może zaprojektować wewnętrzną ‘pętlę krytyczną’, gdzie agent widzi swoje wcześniejsze odpowiedzi jako pochodzące z zewnętrznego źródła. Ma to bezpośrednie zastosowanie w automatyzacji procesów biznesowych, gdzie agent AI podejmuje decyzje wieloetapowe – w finansach przy analizie ryzyka, w logistyce przy optymalizacji łańcucha dostaw, czy w obsłudze klienta przy rozwiązywaniu złożonych reklamacji. Zamiast trenować lepszy model, można po prostu sprytniej z nim rozmawiać.

Metryka artykułu źródłowego

Tytuł oryginalny: The Self-Correction Illusion: LLMs Correct Others but Not Themselves

Autorzy: Kuan-Yen Chen, Fang-Yi Su, Jung-Hsien Chiang

Data publikacji: 5 czerwca 2026

arXiv: arxiv.org/abs/2606.05976

PDF: https://arxiv.org/pdf/2606.05976.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.