Mądre w teorii, lekkomyślne w praktyce: jak kontekst niszczy ostrożność modeli językowych - MTZN

24 czerwca, 2026

Wyobraź sobie konsultanta, który przy analizie akademickiej powie ‘za mało danych, by wyciągać wnioski’, ale gdy zapytasz go o konkretną rekomendację biznesową, bez wahania przedstawi szczegółowy plan działania – mimo że opiera się na tych samych niepełnych informacjach. Zespół Hiroshiego Okumury udokumentował właśnie taką schizofrenię u czterech najnowszych modeli językowych. Na szczęście jest na to prosty, niemal dziecinny sposób: wystarczy grzecznie poprosić model, by zastanowił się jeszcze raz.

Ostrożność przyczynowa: kiedy ‘nie wiem’ jest mądrą odpowiedzią

Każdy badacz zna to pytanie: ‘Czy X powoduje Y?’ W rzetelnej nauce odpowiedź często brzmi ‘nie da się stwierdzić’, dopóki nie ma eksperymentu z randomizacją. Duże modele językowe, wyszkolone na tekstach pełnych takich zastrzeżeń, wykształciły coś, co Okumura nazywa ‘Causal Caution’ – ostrożność przyczynową. To skłonność do powstrzymania się od ferowania wyroków przyczynowych, gdy twarde dowody są cienkie.

W praktyce wygląda to tak: zapytany o wpływ jakiejś polityki na sprzedaż, model może odpowiedzieć ‘dostępne dane nie pozwalają na jednoznaczne stwierdzenie związku przyczynowego’. To zdrowa reakcja, podobna do lekarza, który nie przepisuje leku na podstawie dwóch przypadków. Problem zaczyna się, gdy tę samą ostrożność zgubimy, bo zmienimy ton rozmowy.

Autor używa do pomiaru tej cechy autorskiej metryki PCH, opartej na hierarchii przyczynowej Judei Pearla. W skrócie sprawdza ona, czy model rozpoznaje, że korelacja to nie przyczynowość, i czy unika wnioskowania wyższego rzędu bez odpowiednich podstaw. To nie jest test wiedzy – to test powściągliwości.

Eksperyment: od akademickich analiz do biznesowych rekomendacji

Zespół przetestował cztery topowe modele (Claude Sonnet 4.6, Claude Opus 4.7, GPT 5.5, Gemini 3.1 Pro) w 480 próbach. Podzielił zadania na dwa typy: akademicki, gdzie model analizował abstrakcyjne scenariusze, i praktyczny, gdzie doradzał w kwestiach biznesowych. Różnica była miażdżąca.

Jak pisze Okumura: ‘Wskaźniki utrzymania ostrożności przyczynowej wynosiły 91,7–100% w kontekstach akademickich, ale spadały do 6,7–18,3% w kontekstach praktycznego doradztwa’. Innymi słowy, w trybie ‘pomocnego asystenta’ modele niemal zawsze przestawały być ostrożne. Gdy poproszono o konkretną rekomendację lub wyjaśnienie, tylko 1 na 200 odpowiedzi zachował zdrowy sceptycyzm.

To nie jest drobny błąd. Mówimy o systemach, które rekomendują działania z przekonaniem, mimo że nie widzą dowodów na ich skuteczność. Wyobraźmy sobie chatbota HR, który na podstawie kilku przykładów doradza zwolnienie konkretnego pracownika. Albo analityka finansowego AI, który z przekonaniem przewiduje wzrost akcji na podstawie przeczucia. To nie science fiction – to obecny stan technologii w trybie ‘doradczym’.

Wskaźniki utrzymania ostrożności przyczynowej wynosiły 91,7–100% w kontekstach akademickich, ale spadały do 6,7–18,3% w kontekstach praktycznego doradztwa.

Hiroshi Okumura

Abstrakt, ‘When Helpfulness Overrides Causal Caution’

Proste przypomnienie, które wszystko zmienia

Najciekawsza część badania dotyczy mechanizmu naprawczego. Wystarczyło dodać do promptu jedno zdanie: ‘Proszę ponownie rozważyć tę ocenę z perspektywy związków przyczynowych’, by modele odzyskały ostrożność. Cytując autora: ‘Krótka instrukcja samokorekty (…) przywracała ekspresję ostrożności przyczynowej do poziomów 71,4–100%’. To ogromny skok, z poziomu jednocyfrowego niemal do perfekcji.

Co to mówi o modelach? Że nie chodzi o brak zdolności, tylko o kontekstowe tłumienie. Wygląda na to, że w trybie pomocniczym modele tak bardzo chcą być użyteczne, że wyłączają wewnętrzny system hamulcowy. To trochę jak doświadczony kierowca, który na autostradzie jeździ bezpiecznie, ale gdy pasażer prosi o szybszą jazdę, zaczyna ryzykować – choć przecież wie, jak się jeździ.

Wracam myślami do tego mechanizmu. Przywrócenie ostrożności tak prostym komunikatem sugeruje, że gdzieś w architekturze sieci neuronowych jest reprezentacja tej ostrożności, ale w konkurencji z sygnałem ‘bądź pomocny’ przegrywa. To nie jest głupi model, to model, który przedkłada uprzejmość nad trzeźwość osądu.

Co to oznacza dla biznesu i zarządzania AI

Okumura nie zostawia nas z problemem bez rozwiązania. Proponuje architektury wieloagentowe, w których osobny moduł pełni rolę audytora przyczynowego. Jeden agent generuje odpowiedzi (może z utratą ostrożności), drugi sprawdza je pod kątem związków przyczynowych i flaguje te, które przekraczają granice dowodów. To trochę jak rozdzielenie roli sprzedawcy i działu compliance, obaj są potrzebni, by firma nie wpadła w tarapaty.

Dla organizacji wdrażających AI w procesy decyzyjne wnioski są jasne: nie wystarczy zaprogramować prompt systemowy ‘bądź ostrożny’. Trzeba aktywnie przypominać o tej ostrożności na każdym krytycznym etapie. Można też zbudować system, który po wygenerowaniu rekomendacji zadaje samemu modelowi pytanie ‘czy jesteś pewien, że to wynika z danych, a nie z twojej chęci pomocy?’ Efekt jest uderzająco skuteczny.

Szczególnie dotyczy to dziedzin, gdzie błędna sugestia ma wysoką cenę: diagnostyki medycznej, rekrutacji, planowania strategicznego czy doradztwa inwestycyjnego. Modele są w tym świetne – pod warunkiem, że przypomnimy im o ich wewnętrznym sceptyku.

W trybie akademickim modele zachowują ostrożność przyczynową w 91,7–100% przypadków
W trybie praktycznego doradztwa ta ostrożność spada do 6,7–18,3%
Prośba o rekomendację obniża ją do 0,5% – jedynie 1 na 200 odpowiedzi unika pochopnych wniosków
Jednozdaniowa instrukcja samokorekty przywraca ostrożność do 71,4–100%
Efekt to kontekstowe tłumienie ekspresji, a nie brak zdolności modeli

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Mądre w teorii, ślepe w praktyce. Dlaczego AI w szpitalu potrzebuje hamulca przyczynowego

W 93 proc. przypadków wspomagana sztuczną inteligencją diagnostyka, nie mając pełnych danych, zamias

Kredyt bez ryzyka: jak prosta autokorekta uczy AI ostrożności w analizie zdolności kredytowej

Wystarczy jeden komunikat, żeby system scoringowy banku przestał sprzedawać złudzenie pewności, a za

Umowa bez wróżbiarstwa: eliminacja fałszywych związków przyczynowych w analizie kontraktów

Przeciętny system LegalTech przeglądający umowę najmu centrum handlowego oznaczy klauzulę force maje

Sprawiedliwa selekcja – jak powstrzymać AI przed budowaniem pseudoprzyczynowych profili kandydatów

Systemy preselekcji CV oparte na AI obiecują szybkość i obiektywizm, ale często dostarczają pracodaw

Podsumowanie

Badanie pokazuje, że LLM-y w roli doradców chętnie zgadują, zamiast przyznać się do niewiedzy – ale wystarczy je o to poprosić, by wróciły do zdrowego sceptycyzmu. W praktyce biznesowej oznacza to, że systemy AI wspomagające rekrutację, analizę inwestycji czy planowanie strategiczne muszą być wyposażone w mechanizm weryfikacji przyczynowej, na przykład jako osobny agent audytujący lub obowiązkowy krok samokorekty. Architektura wieloagentowa z kontrolą przyczynową może zapobiec kosztownym błędom wynikającym nie z głupoty modelu, ale z jego nadgorliwej chęci pomocy.

Metryka artykułu źródłowego

Tytuł oryginalny: When Helpfulness Overrides Causal Caution: Context-Dependent Suppression and Recovery in LLMs

Autorzy: Hiroshi Okumura

Data publikacji: 24 czerwca 2026

arXiv: arxiv.org/abs/2606.24370

PDF: https://arxiv.org/pdf/2606.24370.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.