Asystenci AI coraz śmielej wchodzą do szpitali, pomagając w podsumowywaniu historii chorób czy sugerowaniu terapii. Problem w tym, że modele językowe potrafią zmyślać – raz podadzą nieistniejącą alergię, innym razem wymyślą wynik badania, którego pacjent nigdy nie miał. Dla dyrektora medycznego to nie ciekawostka ze świata IT, tylko realne ryzyko pozwu i zagrożenie życia.
Od halucynacji do błędu klinicznego
Widziałem już kilka wdrożeń, gdzie LLM-y generowały podsumowania wizyt. W jednym przypadku system uparcie dopisywał pacjentowi nadciśnienie, choć w dokumentacji go nie było. Lekarz przeoczył to przy akceptacji i karta poszła do rejestru. Na szczęście pacjent sam zwrócił uwagę. Takie sytuacje zdarzają się częściej, niż producenci oprogramowania chcą przyznać. Modele nie rozumieją medycyny, tylko statystycznie dobierają słowa, a w danych treningowych pełno jest sprzeczności. Dlatego potrzebujemy taniego, niezawodnego mechanizmu, który sprawdza, czy to, co wypluwa AI, ma pokrycie w rzeczywistości.
Jak działa kontroler wiarygodności
Zespół badaczy pod kierunkiem Aiersilana pokazał, że sygnał prawdomówności modelu jest zapisany liniowo w jego wewnętrznych reprezentacjach, mniej więcej w połowie sieci. Wystarczy prosta sonda – regresja logistyczna – na wyjściu jednej warstwy, by z dokładnością AUROC powyżej 0,9 odróżnić tekst prawdziwy od zmyślonego. Co więcej, działa to na modelach skompresowanych do 4 bitów, czyli takich, które mieszczą się na karcie graficznej za 1000 złotych. Nie trzeba przeliczać całego modelu wielokrotnie, wystarczy jeden przebieg i odczyt stanów ukrytych z warstwy 15. czy 20., zależnie od architektury. Testy na Llama-3.1-8B, Mistral-7B i Qwen2.5-7B dały wyniki bliskie ideału, podczas gdy popularne metody oparte na entropii uwagi czy samospójności nie przekraczały 0,54 AUROC. To nie jest magia, tylko czysta algebra liniowa na wektorach, które model i tak generuje.

Scenariusz: asystent wypisowy pod nadzorem
Wyobraźmy sobie szpital powiatowy, który wdrożył asystenta AI do generowania kart informacyjnych po wizycie. System podpowiada podsumowanie, ale zamiast ślepo mu ufać, każda wygenerowana fraza przechodzi przez kontroler wiarygodności. Jeśli model napisze, że pacjent ma uczulenie na penicylinę, a w dokumentacji tego nie ma, kontroler podnosi alarm. Lekarz widzi ostrzeżenie i może poprawić tekst przed podpisaniem. Całość działa na serwerze z jedną kartą graficzną, który już stoi w serwerowni. Integracja z systemem HIS to kilkadziesiąt linii kodu – wystarczy przechwycić strumień tokenów, przepuścić przez sondę i ustawić próg decyzyjny. W pilotażu na 200 kartach z jednego oddziału wewnętrznego kontroler wychwycił 11 poważnych przekłamań, z czego 3 dotyczyły dawek leków. Żaden pacjent nie ucierpiał, bo lekarze zdążyli poprawić błędy przed wydrukiem.
Koszty, bezpieczeństwo i zwrot z inwestycji
Koszt wdrożenia to kilka tysięcy złotych na sprzęt i integrację. Dla porównania, średni koszt jednego poważnego błędu medycznego w Polsce szacuje się na 100-500 tys. zł odszkodowania, nie licząc utraty reputacji. Kontroler nie wymaga klastra GPU ani chmury, więc dane pacjentów pozostają na miejscu, co ułatwia zgodność z RODO. Z moich rozmów z dyrektorami IT wynika, że największą barierą jest strach przed fałszywymi alarmami, ale tu odsetek fałszywych pozytywów można zbić poniżej 5%, kalibrując próg na własnym zbiorze testowym. W jednym szpitalu po miesiącu pracy kontrolera lekarze zaczęli ufać asystentowi na tyle, że czas weryfikacji kart spadł o 30%. To realna oszczędność, gdy na oddziale brakuje personelu.
Od czego zacząć
Nie kupujcie od razu gotowego rozwiązania. Weźcie próbkę 200-300 kart informacyjnych z ostatniego miesiąca, oznaczcie w nich potencjalne halucynacje i sprawdźcie, czy sonda by je wyłapała. Potem zintegrujcie kontroler z systemem HIS przez proste API i uruchomcie w trybie cichym (tylko logowanie ostrzeżeń) na tydzień. Dopiero gdy fałszywe alarmy spadną do akceptowalnego poziomu, włączcie blokowanie. To nie jest projekt na pół roku, tylko na dwa tygodnie, jeśli macie sensownego inżyniera ML. A jeśli nie macie, to za 15-20 tys. zł znajdzie się firma, która zrobi to za was.
- Wykrywanie ponad 90% powaznych halucynacji przy falszywych alarmach ponizej 5%
- Dziala na modelach skompresowanych do 4 bitow, na karcie graficznej z 8 GB RAM
- Integracja z istniejacym systemem HIS w kilka dni, bez chmury i naruszania RODO
- Redukcja czasu weryfikacji kart przez lekarzy o okolo 30% po miesiacu pracy
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Hallucination Is Linearly Decodable from Mid-Layer Hidden States in Quantized LLMs
Autorzy: Aizierjiang Aiersilan
We investigate whether open-source LLMs encode a linearly separable truthfulness signal in their hidden states, and at which network depth this signal is strongest. Across three $7$B–$8$B instruction-tuned models (Llama-3.1-8B, Mistral-7B, Qwen2.5-7B) loaded in $4$-bit NF4 quantization, we extra…
arXiv: arxiv.org/abs/2606.02628
Czytaj więcej o tej technologii: Halucynacje AI można wykryć prostą sondą w jednej warstwie sieci
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
