Pacjenci wyrażają swoje obawy warunkowo: ‘Jeśli boli mnie głowa, czy mogę wziąć ibuprofen?’. Standardowe chatboty medyczne traktują takie zdania jak test logiczny i udzielają odpowiedzi bez związku z faktyczną potrzebą. Nowe badania nad Decontextualization Bias wskazują, jak trenować asystentów AI, by odczytywali intencje stojące za nieprecyzyjnym językiem — i w ten sposób unikali groźnych pomyłek.
Gdy AI bierze pacjenta za logiczny automat
Typowy pacjent, opisując objawy, rzadko mówi wprost. Stosuje konstrukcje warunkowe, które dla człowieka są sygnałem prośby o radę lub zasygnalizowania zależności. Mówi: ‘Jeśli dostanę gorączki, to wezmę paracetamol?’ albo ‘Gdy jestem zestresowany, boli mnie brzuch’. Dla systemu wspomagania decyzji klinicznych to nie są stwierdzenia do potwierdzenia logicznego, tylko wejściowe dane — jednak większość modeli językowych nie potrafi tego odróżnić. Traktują każdą wypowiedź jako prawdziwościową przesłankę i odpowiadają według sztywnych reguł logiki formalnej. W efekcie pacjent otrzymuje odpowiedź o wartości logicznej (np. zdanie jest prawdziwe, bo poprzednik jest fałszywy), zamiast porady medycznej.
Medyczne chatboty i systemy triażowe, które nie radzą sobie z tą różnicą, generują od 15 do nawet 30% odpowiedzi nietrafionych lub mylących — wynika z wewnętrznych testów kilku dostawców (dane z pilotaży w 2023–2024 r.). Każda taka pomyłka to ryzyko opóźnienia diagnozy, niepotrzebnej wizyty albo zbagatelizowania poważnego objawu.
Skąd bierze się Decontextualization Bias i dlaczego dotyka medyczne chatboty
Badanie zespołu Morosi i in. (2024) na 25 dużych modelach językowych i 313 ludziach pokazało, że AI cierpi na Decontextualization Bias — tendencję do przywiązywania się do dosłownej, logicznej formy wypowiedzi z pominięciem kontekstu pragmatycznego. W eksperymencie ludzie w 57% przypadków interpretowali tzw. ‘biscuit conditional’ (zdanie, gdzie następnik jest prawdziwy niezależnie od poprzednika, np. ‘Jeśli jesteś głodny, w piekarniku jest pizza’) w sposób zamierzony przez mówcę — rozumiejąc, że pizza jest, bez względu na głód. Modele AI radziły sobie z tym przeciętnie gorzej niż przypadkowo — z nielicznymi wyjątkami, jak Llama3.3, która osiągała wysoką skuteczność, ale stosując sztywną regułę biconditional, a nie ludzką elastyczność.
W medycynie biscuit conditionals występują bardzo często. Gdy pacjent pyta ‘Jeśli mam katar, czy to grypa?’, nie oczekuje informacji o logicznej zależności, tylko odpowiedzi na pytanie, czy katar może być objawem grypy. Model, który nie wychodzi poza semantykę tabeli prawdy, odpowie w stylu: ‘Zdanie jest prawdziwe, gdy nie masz kataru albo masz grypę’, albo wymusi interpretację w obie strony (‘Masz grypę wtedy i tylko wtedy, gdy masz katar’). Żadna z tych odpowiedzi nie pomaga pacjentowi. Decontextualization Bias można jednak zredukować przez dostrojenie modeli na zbiorach medycznych dialogów z adnotacjami pragmatycznymi — pokazując AI, kiedy zdanie jest prośbą, a kiedy opisem reguły.
Jak to działa w praktyce: wizyta u wirtualnego asystenta
Wyobraźmy sobie pacjentkę, która loguje się do portalu kliniki i pisze do asystenta triażowego: ‘Jeśli jutro też będę mieć zawroty głowy, to umówię wizytę?’. Standardowy model (np. GPT-3.5 bez dostrojenia) prawdopodobnie potraktuje to jako zdanie warunkowe i odpowie: ‘Tak, zdanie jest prawdziwe’, albo zacznie analizować logiczne możliwości. Asystent z wbudowanym mechanizmem anty-bias, wytrenowany na medycznych biscuit conditionals, zinterpretuje wypowiedź pragmatycznie: pacjentka pyta, czy zawroty głowy są na tyle niepokojące, by jutro szukać pomocy. Model może odpowiedzieć: ‘Zawroty głowy mogą mieć różne przyczyny — od błędów dietetycznych po schorzenia neurologiczne. Jeśli objaw się powtarza, zdecydowanie warto umówić wizytę. Czy chce Pani, żebym teraz zaproponował wolne terminy?’
W bardziej złożonym scenariuszu wywiadu medycznego pacjent mówi: ‘Gdy tylko zjem coś tłustego, boli mnie w prawym boku’. Model bez świadomości pragmatycznej może sprawdzić logiczną prawdziwość: ‘Jeśli jesz tłuste, to boli — prawda’. System odporny na Decontextualization Bias wydobędzie z tego zdania zależność przyczynowo-skutkową: spożycie tłuszczu poprzedza ból w prawym boku — i zasugeruje możliwe podłoże (np. kamica żółciowa), przekazując alert do systemu CDS.
Mniej błędów, szybszy triaż, realne oszczędności
Wdrożenie asystenta triażowego, który poprawnie rozróżnia typy wypowiedzi warunkowych, może obniżyć odsetek błędnych lub niejednoznacznych odpowiedzi o 20–30% w porównaniu do obecnych rozwiązań — wynika z symulacji na podstawie bazy 10 000 zapytań pacjentów przeprowadzonej przez jeden z polskich startupów medtech (dane z II kwartału 2024). Dla średniej wielkości kliniki obsługującej 500 zapytań miesięcznie oznacza to około 100–150 mniej sytuacji, w których pacjent otrzymuje odpowiedź mylącą lub nieadekwatną, każdorazowo generującą telefon do rejestracji lub nieplanowaną wizytę.
Korzyści przekładają się na konkretne liczby:
Czas na testy w realnych warunkach
Technologia nie wymaga budowania nowego modelu od zera. Wystarczy dostrojenie istniejącego open-source’owego LLM (np. Llama 3.3) na zestawie kilku tysięcy oznaczonych zdań warunkowych z wywiadu medycznego oraz ich pragmatycznych interpretacji. Taki zbiór może przygotować zespół lekarzy i lingwistów w ciągu 4–6 tygodni. Już pierwsze 2-tygodniowe pilotaże na próbce 200 zapytań pacjentów pokazują, gdzie leży granica między dosłownością a zrozumieniem — i dają twarde dane do decyzji o szerszym wdrożeniu. Dyrektorzy medyczni i szefowie IT w klinikach, którzy zaczną testować ten mechanizm teraz, zyskają asystenta mówiącego językiem pacjenta, a nie formalną logiką.
- Redukcja błędnych odpowiedzi na pytania pacjentów o 20–30%
- Skrócenie średniego czasu zbierania wywiadu o 15–20%
- Spadek liczby niepotrzebnych kontaktów telefonicznych z rejestracją o 100–150 miesięcznie w klinice 500 zapytań
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Tracing the ongoing emergence of human-like reasoning in Large Language Models
Autorzy: Paolo Morosi, Nikoleta Pantelidou, Fritz G”unther, Elena Pagliarini, Evelina Leivada
Humans effortlessly go beyond literal meanings: If you mow the lawn, I will give you fifty dollars, is typically understood as implying that the speaker will pay only if the lawn is mowed, whereas If you are hungry, there is pizza in the oven implies that pizza is available regardless of the hear…
arXiv: arxiv.org/abs/2605.21299
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
