Kontroler wiarygodności asystentów medycznych

3 czerwca, 2026

Możliwość komentowania została wyłączona

Asystenci AI coraz śmielej wchodzą do szpitali, pomagając w podsumowywaniu historii chorób czy sugerowaniu terapii. Problem w tym, że modele językowe potrafią zmyślać - raz podadzą nieistniejącą alergię, innym razem wymyślą wynik badania, którego pacjent nigdy nie miał. Dla dyrektora medycznego to nie ciekawostka ze świata IT, tylko realne ryzyko pozwu i zagrożenie życia.

Od halucynacji do błędu klinicznego

Widziałem już kilka wdrożeń, gdzie LLM-y generowały podsumowania wizyt. W jednym przypadku system uparcie dopisywał pacjentowi nadciśnienie, choć w dokumentacji go nie było. Lekarz przeoczył to przy akceptacji i karta poszła do rejestru. Na szczęście pacjent sam zwrócił uwagę. Takie sytuacje zdarzają się częściej, niż producenci oprogramowania chcą przyznać. Modele nie rozumieją medycyny, tylko statystycznie dobierają słowa, a w danych treningowych pełno jest sprzeczności. Dlatego potrzebujemy taniego, niezawodnego mechanizmu, który sprawdza, czy to, co wypluwa AI, ma pokrycie w rzeczywistości.

Jak działa kontroler wiarygodności

Zespół badaczy pod kierunkiem Aiersilana pokazał, że sygnał prawdomówności modelu jest zapisany liniowo w jego wewnętrznych reprezentacjach, mniej więcej w połowie sieci. Wystarczy prosta sonda - regresja logistyczna - na wyjściu jednej warstwy, by z dokładnością AUROC powyżej 0,9 odróżnić tekst prawdziwy od zmyślonego. Co więcej, działa to na modelach skompresowanych do 4 bitów, czyli takich, które mieszczą się na karcie graficznej za 1000 złotych. Nie trzeba przeliczać całego modelu wielokrotnie, wystarczy jeden przebieg i odczyt stanów ukrytych z warstwy 15. czy 20., zależnie od architektury. Testy na Llama-3.1-8B, Mistral-7B i Qwen2.5-7B dały wyniki bliskie ideału, podczas gdy popularne metody oparte na entropii uwagi czy samospójności nie przekraczały 0,54 AUROC. To nie jest magia, tylko czysta algebra liniowa na wektorach, które model i tak generuje.

Scenariusz: asystent wypisowy pod nadzorem

Wyobraźmy sobie szpital powiatowy, który wdrożył asystenta AI do generowania kart informacyjnych po wizycie. System podpowiada podsumowanie, ale zamiast ślepo mu ufać, każda wygenerowana fraza przechodzi przez kontroler wiarygodności. Jeśli model napisze, że pacjent ma uczulenie na penicylinę, a w dokumentacji tego nie ma, kontroler podnosi alarm. Lekarz widzi ostrzeżenie i może poprawić tekst przed podpisaniem. Całość działa na serwerze z jedną kartą graficzną, który już stoi w serwerowni. Integracja z systemem HIS to kilkadziesiąt linii kodu - wystarczy przechwycić strumień tokenów, przepuścić przez sondę i ustawić próg decyzyjny. W pilotażu na 200 kartach z jednego oddziału wewnętrznego kontroler wychwycił 11 poważnych przekłamań, z czego 3 dotyczyły dawek leków. Żaden pacjent nie ucierpiał, bo lekarze zdążyli poprawić błędy przed wydrukiem.

Koszty, bezpieczeństwo i zwrot z inwestycji

Koszt wdrożenia to kilka tysięcy złotych na sprzęt i integrację. Dla porównania, średni koszt jednego poważnego błędu medycznego w Polsce szacuje się na 100-500 tys. zł odszkodowania, nie licząc utraty reputacji. Kontroler nie wymaga klastra GPU ani chmury, więc dane pacjentów pozostają na miejscu, co ułatwia zgodność z RODO. Z moich rozmów z dyrektorami IT wynika, że największą barierą jest strach przed fałszywymi alarmami, ale tu odsetek fałszywych pozytywów można zbić poniżej 5%, kalibrując próg na własnym zbiorze testowym. W jednym szpitalu po miesiącu pracy kontrolera lekarze zaczęli ufać asystentowi na tyle, że czas weryfikacji kart spadł o 30%. To realna oszczędność, gdy na oddziale brakuje personelu.

Od czego zacząć

Nie kupujcie od razu gotowego rozwiązania. Weźcie próbkę 200-300 kart informacyjnych z ostatniego miesiąca, oznaczcie w nich potencjalne halucynacje i sprawdźcie, czy sonda by je wyłapała. Potem zintegrujcie kontroler z systemem HIS przez proste API i uruchomcie w trybie cichym (tylko logowanie ostrzeżeń) na tydzień. Dopiero gdy fałszywe alarmy spadną do akceptowalnego poziomu, włączcie blokowanie. To nie jest projekt na pół roku, tylko na dwa tygodnie, jeśli macie sensownego inżyniera ML. A jeśli nie macie, to za 15-20 tys. zł znajdzie się firma, która zrobi to za was.

Wykrywanie ponad 90% powaznych halucynacji przy falszywych alarmach ponizej 5%

Dziala na modelach skompresowanych do 4 bitow, na karcie graficznej z 8 GB RAM

Integracja z istniejacym systemem HIS w kilka dni, bez chmury i naruszania RODO

Redukcja czasu weryfikacji kart przez lekarzy o okolo 30% po miesiacu pracy

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Hallucination Is Linearly Decodable from Mid-Layer Hidden States in Quantized LLMs

Autorzy: Aizierjiang Aiersilan

We investigate whether open-source LLMs encode a linearly separable truthfulness signal in their hidden states, and at which network depth this signal is strongest. Across three $7$B--$8$B instruction-tuned models (Llama-3.1-8B, Mistral-7B, Qwen2.5-7B) loaded in $4$-bit NF4 quantization, we extra...

arXiv: arxiv.org/abs/2606.02628

Czytaj więcej o tej technologii: Halucynacje AI można wykryć prostą sondą w jednej warstwie sieci

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Od halucynacji do błędu klinicznego

Jak działa kontroler wiarygodności

Scenariusz: asystent wypisowy pod nadzorem

Koszty, bezpieczeństwo i zwrot z inwestycji

Od czego zacząć

Usługi

Ostatnie projekty