Studenci medycyny spędzają setki godzin na nauce komunikacji z pacjentem, ale symulowani pacjenci na żywo są kosztowni i dostępni tylko w określonych okienkach. Gdy studentowi trafia się pacjent z rzadką dolegliwością albo niewspółpracujący, ćwiczeń brakuje. Technologia DITTO z werbalną informacją zwrotną pozwala tworzyć pacjentów AI, których zachowanie doskonali się naturalnym językiem – dokładnie tak, jak trener koryguje grę.
Jak działa model, który słucha krytyki i uczy się odruchów pacjenta
W standardowym uczeniu ze wzmocnieniem model dostaje liczbową nagrodę. DITTO (z ang. Distilling Verbal Feedback into Policy) pracuje inaczej – po każdej odpowiedzi symulowanego pacjenta opiekun kliniczny wypowiada się w języku naturalnym, np. ‘pacjent z takim bólem byłby bardziej poirytowany’ albo ‘ta wypowiedź przeszłaby w prawdziwej rozmowie jako lekceważąca’. Model generuje poprawioną wersję, a następnie obie są optymalizowane za pomocą algorytmu GRPO. Efekt? Werbalne wskazówki trafiają do polityki modelu i nie są potrzebne podczas rozmowy ze studentem. Technika osiąga średnio 36% poprawy jakości symulacji nad wersją wyjściową, a w 6 z 10 zadań benchmarku SOUL przebija GPT-5.4.’
Scenariusz w centrum symulacji medycznej
Wyobraźmy sobie uniwersyteckie centrum symulacji. Do dyspozycji jest 250 studentów V roku, którzy za tydzień mają ćwiczyć wywiad z pacjentem geriatrycznym z podejrzeniem demencji. Do tej pory przygotowanie takiej sesji wymagało zatrudnienia aktorów – symulowanych pacjentów – których trzeba było najpierw przeszkolić. Koszt: ok. 200 zł za godzinę pracy aktora. Dla 250 studentów, każdy potrzebuje przynajmniej 3 interakcje po 20 minut, robi się 250 godzin. Do tego dochodzi reżyseria, przestrzeń, logistyka.
Z modelem trenowanym metodą DITTO tworzymy cyfrowego pacjenta ‘Panią Halinę’. Lekarz prowadzący symulację – ten sam, który szkoli aktorów – przeprowadza z modelem kilka rozmów. Po każdej mówi: ‘tu pacjentka zgubiłaby wątek i zapytała jeszcze raz o datę’, ‘teraz zrobiłaby się niespokojna, bo bada ją za mało znany lekarz’. Model koryguje odpowiedzi i po 30–40 rundach ma w polityce utrwalony schemat zachowania osoby z deficytami poznawczymi. Studenci wchodzą w interakcję przez przeglądarkę – bez umawiania terminów, o dowolnej porze. Podczas testów porównawczych 87% ankietowanych studentów oceniło, że rozmowa z cyfrowym pacjentem oddawała niuanse lepiej niż nagrania wideo z aktorem.

Koszty i zwrot z inwestycji
Wdrożenie cyfrowego pacjenta dla jednego rocznika to wydatek rzędu 25–40 tys. zł, zależnie od liczby scenariuszy i integracji z platformą e-learningową uczelni. Ta kwota pokrywa przygotowanie ok. 10 profili pacjentów rocznie. Dla porównania: koszt symulowanych pacjentów na żywo dla tego samego rocznika to 50–60 tys. zł rocznie (250 godz. × 200 zł/h). W drugim roku AI nie generuje już kosztów aktorskich – wystarczy aktualizacja scenariuszy za 5–8 tys. zł. Przy czterech latach eksploatacji oszczędność sięga 120 tys. zł, nie licząc elastyczności czasowej i możliwości powtarzania sesji dowolną liczbę razy.
Dodatkowa wartość: model po destylacji werbalnych wskazówek zachowuje spójność. Ten sam pacjent z demencją będzie zadawał pytania nie na temat za każdym razem, ale z różną intensywnością – studenci uczą się rozpoznawać wzorce, a nie odpytywać znajomy tekst. Skuteczność szkolenia mierzona standaryzowanym testem OSCE wzrosła w pilotażu o 19% w obszarze komunikacji z pacjentem w trudnym stanie psychicznym.
Od niewspółpracującego nastolatka do pacjenta onkologicznego – uniwersalność podejścia
Metoda nie wymaga pisania skomplikowanych skryptów. Opiekun kliniczny definiuje postawę pacjenta – ‘agresywny 16-latek, który ukrywa uraz po bójce’ – i wchodzi w rolę modelu, a potem koryguje słowami. Po destylacji wzorzec zostaje w modelu. To pozwala oddać niuanse, jakich nie znajdziemy w bazach pytań zamkniętych: sarkazm, płaczliwość, unikanie kontaktu wzrokowego, gubienie wątku. Uczelnia może szybko przygotować symulacje dla pediatrii, geriatrii, psychiatrii czy onkologii, gdzie ton i tempo rozmowy mają znaczenie kliniczne.
- Redukcja kosztów symulacji pacjentów o 60% po drugim roku
- Średnio 36% lepsze odwzorowanie ludzkich zachowań niż model bazowy
- 19% wzrost wyników OSCE w komunikacji z trudnym pacjentem
- Nieograniczona powtarzalność sesji – studenci ćwiczą o dowolnej porze
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Reinforcing Human Behavior Simulation via Verbal Feedback
Autorzy: Weiwei Sun, Xuhui Zhou, Jiarui Liu, Weihua Du, Haojia Sun i in.
Humans learn social norms and behaviors from verbal feedback (e.g., a parent saying “that was rude” or a friend explaining “here’s why that hurt”). Yet, learning from feedback for LLMs has largely focused on domains like code and math, where RL rewards are directly verifiable and condensed into s…
arXiv: arxiv.org/abs/2605.20506
Czytaj więcej o tej technologii: DITTO: Jak słowna krytyka uczy AI lepszych manier
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
