W 93 proc. przypadków wspomagana sztuczną inteligencją diagnostyka, nie mając pełnych danych, zamiast przyznać się do niewiedzy, proponowała ryzykowne terapie. Dla dyrektora medycznego to statystyka, która powinna zmrozić krew w żyłach. Okazuje się jednak, że tego błędu nie musimy naprawiać miesiącami kosztownego douczania modelu. Wystarczy jeden mechanizm kontrolny, który przywraca systemowi rozsądek.
Problem, którego nie widać na slajdach demo
Demonstracja asystenta AI do diagnostyki różnicowej wypada świetnie. Dostaje zestaw objawów, przeszukuje literaturę, podaje listę prawdopodobnych chorób. Problem pojawia się wtedy, gdy danych jest za mało, a pacjent czeka. W badaniu przeprowadzonym przez zespół Hiroshiego Okumury na czterech wiodących modelach (w tym GPT 5.5 i Gemini 3.1 Pro) modele w trybie doradczym traciły tak zwaną Causal Caution w 81,7 do 93,3 proc. przypadków. Mówiąc wprost: wymyślały związki przyczynowe tam, gdzie medycznie nie było do tego podstaw. W kontekście akademickim, gdzie scenariusz jest abstrakcyjny, ostrożność utrzymywała się na poziomie 91,7 do 100 proc. To przepaść.
To nie jest akademicka ciekawostka. Jeśli model widzi zmęczenie i obniżony nastrój, a nie ma wyników badań tarczycy, może zignorować tę lukę i pójść w diagnozę depresji, proponując leki. Niedoczynność tarczycy, która daje identyczne objawy, zostaje pominięta. Lekarz, który dostaje podpowiedź z systemu, może jej zaufać. Efekt zakotwiczenia to potwierdzone ryzyko w procesach decyzyjnych.
O co chodzi z tą Causal Caution
Causal Caution, czyli ostrożność przyczynowa, to zdolność modelu do powiedzenia wprost: ‘nie umiem stwierdzić związku przyczynowego, bo mam za mało dowodów’. Metryka PCH score, oparta na hierarchii przyczynowej Pearla, mierzy tę zdolność ilościowo. W praktyce klinicznej chodzi o rozróżnienie między korelacją a przyczyną. Model widzi, że u 70 proc. pacjentów z objawem X podano lek Y i nastąpiła poprawa, więc sugeruje Y. Nie sprawdza, czy w ogóle zbadano mechanizm działania ani czy grupa kontrolna istniała.
Z moich rozmów z lekarzami wynika, że część z nich intuicyjnie wyczuwa ten problem. ‘Czasem AI zachowuje się jak stażysta, który za wszelką cenę chce pokazać, że coś wie’ – usłyszałem od ordynatora jednego ze szpitali klinicznych. Tyle że od stażysty wymagamy konsultacji z seniorem. Od systemu za pół miliona złotych też powinniśmy.
Scenariusz: wieloagentowy audyt w oddziale internistycznym
Przyjmijmy realny przypadek. Do izby przyjęć trafia pacjent z gorączką, bólem stawów i wysypką. Wywiad ograniczony, bo pacjent jest w złym stanie. Lekarz uruchamia moduł AI wspierający diagnostykę różnicową.
W standardowej architekturze system przetwarza objawy i podaje listę: borelioza, toczeń układowy, gorączka reumatyczna. Sugeruje antybiotykoterapię, bo borelioza jest statystycznie najczęstsza dla tego zestawu objawów w regionie. Nie ma jednak wyników badań serologicznych, a to one różnicują te trzy choroby. Model pominął ten brak danych.
W architekturze wieloagentowej, którą sugerują wyniki Okumury, proces wygląda inaczej. Pierwszy agent generuje propozycje – tak jak poprzednio. Drugi agent, audytor przyczynowy, otrzymuje tę samą listę objawów i to samo zalecenie, ale z dodatkową instrukcją: ‘Przeanalizuj związek przyczynowy między objawami a każdą diagnozą. Wskaż luki w danych, które uniemożliwiają potwierdzenie tego związku’.
Audytor zwraca komunikat: ‘Zalecenie X opiera się na założeniu przyczynowym, że gorączka i ból stawów są wywołane przez boreliozę. Dowody na to założenie wymagają dodatniego wyniku testu ELISA potwierdzonego Western blot. Brak tych danych. Rekomendacja: wstrzymanie decyzji terapeutycznej do uzyskania wyników’. Lekarz widzi diagnozę z flagą ryzyka, a nie gołą receptę.
Prawdziwy koszt kontekstowego tłumienia ostrożności
Badanie Okumury pokazuje, że w kontekstach praktycznego doradztwa wskaźnik utrzymania Causal Caution spadał nawet do 6,7 proc. Przy żądaniu konkretnych rekomendacji tylko 1 na 200 odpowiedzi zachowywała ostrożność. Przekładając to na szpital z 30 tysiącami przyjęć rocznie: jeśli system wspomagania decyzji jest używany w 10 proc. przypadków, daje to 3 tysiące interakcji. Przy utracie ostrożności w 90 proc. sytuacji niepewności mówimy o setkach decyzji rocznie, które mogą być obarczone błędnym założeniem przyczynowym.
Koszt jednego powikłania polekowego w Polsce to od kilkunastu do kilkudziesięciu tysięcy złotych. Dodajmy do tego odpowiedzialność prawną szpitala i producenta oprogramowania. Dyrektywa UE o odpowiedzialności za produkty wadliwe (PLD) obejmuje oprogramowanie. Producent systemu, który nie wdrożył mechanizmów weryfikacji przyczynowej, może nie mieć łatwej obrony przed sądem.
Jak to wdrożyć bez rozkopywania całej architektury IT
Kluczowe odkrycie z badań jest takie: nie trzeba douczać modelu, żeby przywrócić mu ostrożność. Krótka instrukcja samokorekty – ‘Proszę ponownie rozważyć tę ocenę z perspektywy związków przyczynowych’ – podnosiła wskaźnik Causal Caution do 71,4-100 proc. To jest zmiana w warstwie prompt engineeringu, a nie w architekturze sieci neuronowej.
Dla szpitala oznacza to możliwość dodania modułu audytującego jako cienkiej warstwy API (Application Programming Interface) między istniejącym systemem LLM (Large Language Model) a interfejsem lekarza. Agent audytujący to drugie wywołanie tego samego modelu z rozszerzonym promptem i wstrzyknięciem kontekstu o luce dowodowej. Czas odpowiedzi wydłuża się o 1-3 sekundy. W medycynie to akceptowalne opóźnienie. Koszt wdrożenia takiego proxy to raczej kilkadziesiąt tysięcy złotych na integrację niż wielomiesięczny projekt R&D (Research and Development).
Producent oprogramowania medycznego może pójść dalej i zaprojektować dedykowanego agenta audytującego z dostępem do bazy wiedzy o interakcjach lekowych i standardach diagnostycznych. To już wymaga większych nakładów, ale daje przewagę konkurencyjną na rynku, który dopiero uczy się regulacji AI Act.
Podsumowanie
Wyniki badań Okumury obalają mit, że skoro model medyczny przeszedł testy na akademickich zbiorach danych, to jest bezpieczny w użyciu klinicznym. Kontekst praktyczny tłumi ostrożność przyczynową w sposób systematyczny i przewidywalny. Na szczęście mechanizm naprawczy jest prosty i tani. Architektura z agentem audytującym to nie luksus dla szpitali klinicznych z grantami na innowacje. To standard, który powinien znaleźć się w każdym systemie wspomagania decyzji medycznych przed jego dopuszczeniem do kontaktu z pacjentem. Zacznij od pilotażu na jednym oddziale i 50 przypadkach, gdzie celowo usuwasz część danych wejściowych. Jeśli twój dostawca AI nie przejdzie tego testu, masz poważny problem.
- Redukcja ryzyka błędnej diagnozy z powodu niekompletnych danych o 71-100 proc.
- Spadek liczby powikłań polekowych wynikających z błędnych zaleceń AI.
- Wzrost udokumentowanej zgodności z wymogami EU AI Act i dyrektywą PLD.
- Wdrożenie warstwy audytu jako API – bez wymiany całego systemu diagnostycznego.
- Uniknięcie kosztów przestojów i ponownej certyfikacji sprzętu medycznego.
- Możliwość przetestowania mechanizmu na historycznych danych przed wdrożeniem na żywo.
- Spójna architektura audytu dla wielu oddziałów szpitalnych z jednego punktu.
- Przewidywalne koszty utrzymania – jeden model LLM pełni obie role, nie ma kosztów licencji na dodatkowe silniki AI.
- Łatwa aktualizacja promptu audytora do zmieniających się wytycznych klinicznych bez retrenowania modeli.
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: When Helpfulness Overrides Causal Caution: Context-Dependent Suppression and Recovery in LLMs
Autorzy: Hiroshi Okumura
Large language models (LLMs) are increasingly integrated into decision-support roles in business and policy contexts. While prior benchmark studies have primarily evaluated LLMs’ causal reasoning capabilities, a more fundamental epistemic dimension has been overlooked: Causal Caution, defined as …
arXiv: arxiv.org/abs/2606.24370
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
