Szpitale i sieci kliniczne coraz chętniej sięgają po medyczne chatboty, ale rynek jest pełen rozwiązań, które generują błędne porady. Z badania 1500 MedGPTów wynika, że nawet co czwarty chatbot notuje niską dokładność, a popularność nie ma nic wspólnego z bezpieczeństwem. Dla dyrektorów IT to realne ryzyko kliniczne i prawne – audytor AI pozwala je wyeliminować jeszcze przed integracją z systemem szpitalnym.
Popularność nie leczy – problem z wyborem chatbota medycznego
W sklepie OpenAI dostępnych jest ponad 6 tysięcy MedGPTów – od prostych poradników objawowych po zaawansowanych asystentów diagnostycznych. Tylko że 25–30% z nich osiąga wynik G-Eval poniżej 0,8, co oznacza podwyższone ryzyko halucynacji klinicznych. Te modele potrafią płynnie opisać zawał jako niestrawność, a dawkę leku podać dwa razy wyższą niż trzeba.
Co gorsza, użytkownicy nie widzą tych błędów. Korelacja między ocenami gwiazdkowymi a faktyczną dokładnością odpowiedzi jest bliska zeru (mniej niż 0,06). W efekcie najpopularniejsze chatboty – z setkami tysięcy konwersacji – mogą być tymi najbardziej ryzykownymi. 54,3% modeli z pierwszej tysiąca przekracza próg nadużyć projektowych, a 57,06% tych z włączoną funkcją Actions nie udostępnia żadnej polityki prywatności. Dla CIO kupującego chatbota na podstawie rankingu popularności to loteria z pacjentem w roli zakładnika.
Technologia audytu wzięta prosto z badań
Autorzy artykułu ‘Do No Harm?’ opracowali framework MedGPT-HEval – zestaw metryk, który da się przenieść do narzędzia audytorskiego dla szpitali. Proces jest prosty: kandydacki model jest pięciokrotnie odpytywany tym samym pytaniem diagnostycznym z benchmarku MedQA (np. ’52-letni mężczyzna z bólem w klatce piersiowej i dusznością – jakie kroki?’). Odpowiedzi są oceniane przez cztery wskaźniki: G-Eval mierzy ogólną wierność faktom, BARTScore sprawdza prawdopodobieństwo generowanego tekstu, entropia semantyczna wychwytuje niestabilność odpowiedzi, a podobieństwo kosinusowe (BioBERT) bada spójność semantyczną.
Audyt nie kończy się na dokładności. Drugi krok to skanowanie nadużyć na poziomie projektu – sztuczna inteligencja sprawdza nazwę, opis i startery rozmów chatbota pod kątem wprowadzania w błąd (np. sugerowania, że model ma uprawnienia lekarskie). Trzeci etap to weryfikacja polityki prywatności, szczególnie jeśli model łączy się z zewnętrznymi API – z badań wynika, że blisko 70% istniejących polityk nie spełnia podstawowych wymogów zgodności. Całość można zamknąć w raporcie ryzyka dla każdego dostawcy.
Scenariusz: sieć klinik testuje trzech dostawców
Weźmy dyrektora IT w sieci 15 przychodni, który rozważa integrację chatbota do triażu pacjentów. Na stole leżą trzy oferty: popularny MedAssist Pro (50 000 konwersacji, 4,8 gwiazdki), średni ClinicBot (2 500 konwersacji, 4,2 gwiazdki) i niszowy SafeMed (300 konwersacji, 3,9 gwiazdki). Uruchamiany jest audytor AI: każdy model odpowiada na 200 pytań z zakresu kardiologii, onkologii i pediatrii.
Wyniki zaskakują. MedAssist Pro w 18% przypadków schodzi poniżej progu G-Eval 0,8, a jego entropia semantyczna sięga 2,1 – odpowiedzi są niestabilne, zmieniają się przy każdym zapytaniu. SafeMed wypada dobrze pod względem dokładności, ale nie ma polityki prywatności dla Actions, co przy integracji z systemem rejestracji pacjentów stwarza ryzyko RODO. ClinicBot jako jedyny utrzymuje G-Eval powyżej 0,9 we wszystkich rundach, ma niską entropię (1,4) i komplet dokumentów zgodności. Szpital wybiera ClinicBota, unikając modelu, który pacjenci oceniliby najwyżej, a który w rzeczywistości mógłby wygenerować błędną diagnozę.
Ile to warte? Ryzyko, pozwy i spokój prawny
Koszt jednorazowego audytu trzech dostawców to wydatek rzędu 10–20 tys. zł – zależnie od liczby pytań i głębokości analizy prawnej. Dla porównania, średnie odszkodowanie za błędną poradę medyczną w Polsce to ok. 200 tys. zł, a w przypadku trwałego uszczerbku na zdrowiu kwoty idą w miliony. Do tego dochodzą kary RODO: do 20 mln euro lub 4% rocznego obrotu za wyciek danych pacjentów przez nieaudytowany interfejs API.
Badania pokazują, że nawet 30% komercyjnych MedGPTów wypada poniżej progu bezpieczeństwa. Odrzucenie ich na etapie audytu to bezpośrednia redukcja ryzyka klinicznego o tę samą wartość. A ponieważ metryki nie starzeją się dobrze – modele są aktualizowane, zmieniają się ich parametry – audyt warto powtarzać co kwartał. Inaczej dziś bezpieczny chatbot za trzy miesiące może zacząć halucynować przy pytaniach o nowe wytyczne terapeutyczne.
Sprawdzaj, zanim pacjent zapyta
Nie ma bezpiecznego chatbota medycznego bez testów. Ani popularność, ani opinie użytkowników nie powiedzą CIO, czy model pomyli morfinę z ibuprofenem. Dlatego przed każdą integracją z systemem szpitalnym warto przejść trzy proste kroki: wytypować 2-3 modele, odpytaj je zestawem 100–200 pytań klinicznych i zmierz ich dokładność, stabilność oraz zgodność z przepisami. Audytor AI oparty o publikowane metryki robi to automatycznie w kilka godzin. Mały test na starcie może oszczędzić lat procesów sądowych – i uratować zdrowie pacjentów.
- Eliminacja nawet 25-30% chatbotów z wysokim ryzykiem halucynacji klinicznych
- Ograniczenie ryzyka prawnego dzięki weryfikacji polityk prywatności i zgodności
- Ochrona pacjentów przed błędnymi poradami medycznymi
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models
Autorzy: Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood
Medical large language models (LLMs), including custom medical GPTs (MedGPTs) and open-source models, are increasingly deployed on web platforms to provide clinical guidance. However, they pose risks of hallucination, policy noncompliance, and unsafe design. We conduct a large-scale assessment of…
arXiv: arxiv.org/abs/2605.20591
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
