Ile kosztuje błąd chatbota? Skoring ryzyka AI w underwritingu polis dla telemedycyny

Na platformach telemedycznych działa dziś tysiące MedGPTów – specjalistycznych chatbotów, które diagnozują, doradzają i prowadzą wywiad. Tylko w sklepie OpenAI naliczono ich ponad 6 tysięcy. Problem polega na tym, że użytkownik nie odróżnia trafnej odpowiedzi od halucynacji, a ani popularność modelu, ani liczba konwersacji nie dają żadnej gwarancji bezpieczeństwa. Dla towarzystw ubezpieczeniowych oznacza to lukę w ocenie ryzyka odpowiedzialności cywilnej – i szansę na nowy, twardy parametr w kalkulacji składki.

Problem: niewidoczne błędy, realne roszczenia

Platformy telemedyczne integrują dziesiątki, czasem setki własnych MedGPTów – od triażu objawów po przypominanie o lekach. Każdy z tych komponentów może generować odpowiedzi błędne klinicznie, a mimo to brzmieć wiarygodnie. Badanie 1 500 modeli ze sklepu OpenAI wykazało, że 25–30% z nich osiąga w teście G-Eval wynik poniżej 0,8 (gdzie 1 to pełna poprawność). Jednocześnie liczba konwersacji danego chatbota nie ma żadnego związku z jego dokładnością – korelacja jest bliska zeru. To znaczy, że popularny ‘doradca objawów’ z setkami tysięcy sesji może mylić się równie często, co niszowy prototyp.

Ubezpieczyciel, który wystawia polisę OC dla takiej platformy, ponosi ryzyko wypłat za szkody wynikłe z błędnej diagnozy, pominięcia objawu alarmowego czy złamania zasad prywatności. Bez twardych metryk trudno dziś to ryzyko wycenić inaczej niż przez ogólny obrót i historię szkodowości – a ta w przypadku nowych podmiotów nie istnieje.

Technologia: metryki, które mierzą chaos

Opublikowany w lutym 2025 roku framework MedGPT-HEval pokazał, że ryzyko można skwantyfikować za pomocą czterech parametrów: G-Eval (ocena poprawności faktów przez duży model językowy), BARTScore (prawdopodobieństwo wygenerowanego tekstu względem pytania), podobieństwo kosinusowe do odpowiedzi referencyjnych oraz entropia semantyczna. Ta ostatnia – wyrażona wzorem SE(x) = -∑ p_i log p_i – mówi, jak bardzo model jest niepewny swoich słów. Im wyższa wartość, tym większe ryzyko, że różne uruchomienia tego samego GPT dadzą rozbieżne odpowiedzi na identyczne pytanie.

Badanie ujawniło, że medyczne chatboty ze sklepu OpenAI mają średnią entropię 1,93 (w porównaniu do 1,61 w modelach open-source), a aż 49,8% wszystkich przebadanych modeli przekracza próg ryzyka nadużyć na poziomie projektu – to znaczy celowo podszywa się pod lekarza, omija ograniczenia etyczne albo nie udostępnia wymaganej polityki prywatności. Te liczby przestają być ciekawostką dla badaczy, a stają się danymi wejściowymi dla aktuariusza.

Scenariusz: skoring GPT przed wystawieniem polisy

Weźmy platformę MedConsult, która właśnie uruchomiła 150 własnych MedGPTów i wnioskuje o ubezpieczenie OC z sumą gwarancyjną 5 mln zł. Zamiast bazować wyłącznie na przychodach i opisie procedur, ubezpieczyciel zleca automatyczny skaning całej floty modeli. Narzędzie, wzorowane na MedGPT-HEval, odpytuje każdy chatbot pięciokrotnie tym samym pytaniem z bazy MedQA, po czym liczy zestaw wskaźników. Wynik każdego GPT jest kolorowany na zielono, żółto lub czerwono zgodnie z progiem G-Eval (0,8) i entropii (2,0). Równolegle skaner sprawdza, czy twórca użył funkcji Actions i czy udostępnił politykę prywatności – bo brak tego dokumentu (57% przypadków w badaniu) podnosi ryzyko kar RODO.

Wynik agreguje się do Platform Risk Score – liczby od 0 do 100, gdzie waga 60% przypada na wskaźniki halucynacji, 30% na naruszenia polityk, a 10% na audyt prywatności. Jeśli MedConsult uzyska 73 punkty (skala: im wyższy wynik, tym gorzej), składka będzie wyższa o ok. 40% w porównaniu do platformy z wynikiem poniżej 50. Gdy czerwone GPT stanowią więcej niż 15% floty, ubezpieczyciel może zażądać ich wyłączenia przed podpisaniem umowy.

Cały proces trwa 2 godziny i kosztuje kilkaset złotych – w przeciwieństwie do tradycyjnego audytu zewnętrznego, który w branży medycznej rzadko schodzi poniżej 5 000 zł za samą opinię.

Korzyści i rachunek ekonomiczny

Wdrożenie skoringu opartego na metrykach halucynacji i entropii daje ubezpieczycielowi trzy konkretne przewagi.

Po pierwsze, różnicowanie stawek – zamiast jednej taryfy dla wszystkich platform telemedycznych, można stworzyć 3–4 klasy ryzyka. Z danych benchmarku MedGPT-HEval wynika, że dolna ćwiartka modeli odpowiada za większość potencjalnych zdarzeń szkodowych; przypisanie platformie wyższej składki za każdy dodatkowy czerwony GPT pozwala precyzyjnie wycenić ekspozycję.

Po drugie, selekcja ryzyka – odrzucenie wniosków z platformami, gdzie ponad 30% GPT-ów ma G-Eval <0,7, eliminuje przypadki skrajne. W badaniu 25–30% wszystkich modeli znalazło się w tej strefie, więc filtr statystycznie wycina co czwarty wniosek o najwyższym prawdopodobieństwie szkody.

Po trzecie, zmniejszenie rezerwy szkodowej. Jeśli przyjąć, że przeciętna szkoda z tytułu błędu medycznego chatbota kosztuje 80 000 zł (odszkodowanie + koszty obsługi), a bez skoringu ubezpieczyciel notuje 12 takich spraw rocznie na 100 ubezpieczonych platform, to samo odrzucenie 25% najsłabszych podmiotów redukuje liczbę roszczeń o około 3–4 przypadki. Daje to oszczędność 240–320 tys. zł rocznie, przy koszcie skaningu rzędu 30–40 tys. zł (zakładając 1 000 audytowanych wniosków). Zwrot z wdrożenia pojawia się już w pierwszym roku, nie licząc efektu prewencyjnego – platformy, które dostaną informację zwrotną, mogą poprawić swoje GPT, by w kolejnym okresie ubezpieczenia zapłacić niższą składkę.

Podsumowanie: od opinii do liczby

Rynek ubezpieczeń dla cyfrowej medycyny potrzebuje twardych danych, a nie deklaracji producentów. Metryki halucynacji, entropii i naruszeń polityk dają podstawę do zbudowania taryfy opartej na realnym, mierzalnym ryzyku. Wdrożenie nie wymaga dostępu do kodu źródłowego – wystarczy API do odpytania modeli i automatyczny pipeline oceny. Zaczyna się od audytu jednej platformy na próbkę 20 GPT-ów; już ten pierwszy raport może pokazać, czy warto rozszerzyć skoring na cały portfel.

  • Różnicowanie stawek na podstawie udziału GPTów wysokiego ryzyka
  • Automatyczne odrzucanie platform z >30% modeli poniżej progu G-Eval
  • Oszczędność rzędu 240-320 tys. zł rocznie dzięki redukcji roszczeń

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

Autorzy: Sunday Oyinlola Ogundoyin, Muhammad Ikram, Rahat Masood

Medical large language models (LLMs), including custom medical GPTs (MedGPTs) and open-source models, are increasingly deployed on web platforms to provide clinical guidance. However, they pose risks of hallucination, policy noncompliance, and unsafe design. We conduct a large-scale assessment of…

arXiv: arxiv.org/abs/2605.20591

Czytaj więcej o tej technologii: Medyczne chatboty w sklepie OpenAI: połowa łamie zasady, a użytkownicy nie widzą błędów

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *