Audytor AI dla szpitali: Jak nie wpuścić halucynującego chatbota do systemu

21 maja, 2026

Możliwość komentowania została wyłączona

Szpitale i sieci kliniczne coraz chętniej sięgają po medyczne chatboty, ale rynek jest pełen rozwiązań, które generują błędne porady. Z badania 1500 MedGPTów wynika, że nawet co czwarty chatbot notuje niską dokładność, a popularność nie ma nic wspólnego z bezpieczeństwem. Dla dyrektorów IT to realne ryzyko kliniczne i prawne - audytor AI pozwala je wyeliminować jeszcze przed integracją z systemem szpitalnym.

Popularność nie leczy - problem z wyborem chatbota medycznego

W sklepie OpenAI dostępnych jest ponad 6 tysięcy MedGPTów - od prostych poradników objawowych po zaawansowanych asystentów diagnostycznych. Tylko że 25-30% z nich osiąga wynik G-Eval poniżej 0,8, co oznacza podwyższone ryzyko halucynacji klinicznych. Te modele potrafią płynnie opisać zawał jako niestrawność, a dawkę leku podać dwa razy wyższą niż trzeba.

Co gorsza, użytkownicy nie widzą tych błędów. Korelacja między ocenami gwiazdkowymi a faktyczną dokładnością odpowiedzi jest bliska zeru (mniej niż 0,06). W efekcie najpopularniejsze chatboty - z setkami tysięcy konwersacji - mogą być tymi najbardziej ryzykownymi. 54,3% modeli z pierwszej tysiąca przekracza próg nadużyć projektowych, a 57,06% tych z włączoną funkcją Actions nie udostępnia żadnej polityki prywatności. Dla CIO kupującego chatbota na podstawie rankingu popularności to loteria z pacjentem w roli zakładnika.

Technologia audytu wzięta prosto z badań

Autorzy artykułu 'Do No Harm?' opracowali framework MedGPT-HEval - zestaw metryk, który da się przenieść do narzędzia audytorskiego dla szpitali. Proces jest prosty: kandydacki model jest pięciokrotnie odpytywany tym samym pytaniem diagnostycznym z benchmarku MedQA (np. '52-letni mężczyzna z bólem w klatce piersiowej i dusznością - jakie kroki?'). Odpowiedzi są oceniane przez cztery wskaźniki: G-Eval mierzy ogólną wierność faktom, BARTScore sprawdza prawdopodobieństwo generowanego tekstu, entropia semantyczna wychwytuje niestabilność odpowiedzi, a podobieństwo kosinusowe (BioBERT) bada spójność semantyczną.

Audyt nie kończy się na dokładności. Drugi krok to skanowanie nadużyć na poziomie projektu - sztuczna inteligencja sprawdza nazwę, opis i startery rozmów chatbota pod kątem wprowadzania w błąd (np. sugerowania, że model ma uprawnienia lekarskie). Trzeci etap to weryfikacja polityki prywatności, szczególnie jeśli model łączy się z zewnętrznymi API - z badań wynika, że blisko 70% istniejących polityk nie spełnia podstawowych wymogów zgodności. Całość można zamknąć w raporcie ryzyka dla każdego dostawcy.

Scenariusz: sieć klinik testuje trzech dostawców

Weźmy dyrektora IT w sieci 15 przychodni, który rozważa integrację chatbota do triażu pacjentów. Na stole leżą trzy oferty: popularny MedAssist Pro (50 000 konwersacji, 4,8 gwiazdki), średni ClinicBot (2 500 konwersacji, 4,2 gwiazdki) i niszowy SafeMed (300 konwersacji, 3,9 gwiazdki). Uruchamiany jest audytor AI: każdy model odpowiada na 200 pytań z zakresu kardiologii, onkologii i pediatrii.

Wyniki zaskakują. MedAssist Pro w 18% przypadków schodzi poniżej progu G-Eval 0,8, a jego entropia semantyczna sięga 2,1 - odpowiedzi są niestabilne, zmieniają się przy każdym zapytaniu. SafeMed wypada dobrze pod względem dokładności, ale nie ma polityki prywatności dla Actions, co przy integracji z systemem rejestracji pacjentów stwarza ryzyko RODO. ClinicBot jako jedyny utrzymuje G-Eval powyżej 0,9 we wszystkich rundach, ma niską entropię (1,4) i komplet dokumentów zgodności. Szpital wybiera ClinicBota, unikając modelu, który pacjenci oceniliby najwyżej, a który w rzeczywistości mógłby wygenerować błędną diagnozę.

Ile to warte? Ryzyko, pozwy i spokój prawny

Koszt jednorazowego audytu trzech dostawców to wydatek rzędu 10-20 tys. zł - zależnie od liczby pytań i głębokości analizy prawnej. Dla porównania, średnie odszkodowanie za błędną poradę medyczną w Polsce to ok. 200 tys. zł, a w przypadku trwałego uszczerbku na zdrowiu kwoty idą w miliony. Do tego dochodzą kary RODO: do 20 mln euro lub 4% rocznego obrotu za wyciek danych pacjentów przez nieaudytowany interfejs API.

Badania pokazują, że nawet 30% komercyjnych MedGPTów wypada poniżej progu bezpieczeństwa. Odrzucenie ich na etapie audytu to bezpośrednia redukcja ryzyka klinicznego o tę samą wartość. A ponieważ metryki nie starzeją się dobrze - modele są aktualizowane, zmieniają się ich parametry - audyt warto powtarzać co kwartał. Inaczej dziś bezpieczny chatbot za trzy miesiące może zacząć halucynować przy pytaniach o nowe wytyczne terapeutyczne.

Sprawdzaj, zanim pacjent zapyta

Nie ma bezpiecznego chatbota medycznego bez testów. Ani popularność, ani opinie użytkowników nie powiedzą CIO, czy model pomyli morfinę z ibuprofenem. Dlatego przed każdą integracją z systemem szpitalnym warto przejść trzy proste kroki: wytypować 2-3 modele, odpytaj je zestawem 100-200 pytań klinicznych i zmierz ich dokładność, stabilność oraz zgodność z przepisami. Audytor AI oparty o publikowane metryki robi to automatycznie w kilka godzin. Mały test na starcie może oszczędzić lat procesów sądowych - i uratować zdrowie pacjentów.

Eliminacja nawet 25-30% chatbotów z wysokim ryzykiem halucynacji klinicznych
Ograniczenie ryzyka prawnego dzięki weryfikacji polityk prywatności i zgodności
Ochrona pacjentów przed błędnymi poradami medycznymi

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

Autorzy: Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood

Medical large language models (LLMs), including custom medical GPTs (MedGPTs) and open-source models, are increasingly deployed on web platforms to provide clinical guidance. However, they pose risks of hallucination, policy noncompliance, and unsafe design. We conduct a large-scale assessment of...

arXiv: arxiv.org/abs/2605.20591

Czytaj więcej o tej technologii: Medyczne chatboty w sklepie OpenAI: połowa łamie zasady, a użytkownicy nie widzą błędów

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Popularność nie leczy - problem z wyborem chatbota medycznego

Technologia audytu wzięta prosto z badań

Scenariusz: sieć klinik testuje trzech dostawców

Ile to warte? Ryzyko, pozwy i spokój prawny

Sprawdzaj, zanim pacjent zapyta

Usługi

Ostatnie projekty