Początkujący terapeuci potrzebują setek godzin praktyki, zanim zaczną samodzielnie prowadzić pacjentów. Tymczasem każdy błąd w diagnozie czy rozmowie z osobą w kryzysie może mieć realne konsekwencje. Jak zapewnić studentom psychologii bezpieczne i różnorodne środowisko do ćwiczeń, nie narażając prawdziwych pacjentów na niepotrzebny stres?
Słowna krytyka jako narzędzie uczenia się modelu
Model DITTO, opisany przez zespół Weiwei Sun, wykorzystuje werbalną informację zwrotną – taką samą, jakiej używa się w codziennej komunikacji – do trenowania symulacji ludzkich zachowań. Zamiast skalarnych nagród typowych dla uczenia ze wzmocnieniem, system otrzymuje uwagi w języku naturalnym: ‘to było niegrzeczne’ albo ‘teraz zabrakło oznak wycofania charakterystycznych dla depresji’. Na podstawie takiej krytyki generuje poprawioną odpowiedź, a proces optymalizacji GRPO porównuje obie wersje, pozwalając modelowi internalizować zasady na przyszłość. W efekcie DITTO nie potrzebuje już komentarzy w czasie testu – odtwarza wyuczone zachowania samodzielnie.
Wirtualny pacjent na warsztatach terapeutycznych
W jednym z ośrodków szkoleniowych dla psychoterapeutów poznawczo-behawioralnych grupa 12 adeptów przez dwa tygodnie ćwiczyła prowadzenie sesji z wirtualnym pacjentem symulującym epizod dużej depresji z myślami samobójczymi. Pierwsze odpowiedzi modelu były sztywne i pozbawione oznak psychoruchowego spowolnienia. Doświadczony superwizor na bieżąco wpisywał krótkie uwagi: ‘pacjent z depresją odpowiadałby wolniej, unikał kontaktu wzrokowego, częściej milkł’. DITTO w ciągu kilku minut dostosowywał się, a podczas kolejnego podejścia ten sam scenariusz brzmiał już znacznie bardziej autentycznie. Studenci mogli wielokrotnie wracać do tego samego wywiadu, za każdym razem mierząc się z subtelniejszymi niuansami – od budowania przymierza terapeutycznego po ocenę ryzyka samobójczego.

Koszty i zwrot z inwestycji
Tradycyjne symulacje z aktorem kosztują średnio 400–600 zł za godzinę. Dla grupy 30 studentów realizującej 10 godzin warsztatów rocznie daje to wydatek rzędu 150 tys. zł. Roczna subskrypcja narzędzia opartego na DITTO to około 24 tys. zł, przy czym raz wytrenowany profil pacjenta może być wykorzystywany setki razy bez dodatkowych opłat. Oszczędność sięga 50–70%. Dodatkowo model eliminuje koszty dojazdów aktorów, harmonogramowania i powtórnych nagrań. Inwestycja zwraca się już po pierwszym semestrze intensywnego użytkowania – a to tylko bezpośrednie wydatki. Wartość dodana to szybsze osiąganie gotowości do pracy klinicznej i mniejsza rotacja stażystów wypalonych stresem.
Podsumowanie
DITTO pokazuje, że słowna krytyka – dziś dostępna niemal wyłącznie na superwizjach indywidualnych – może w kilka minut ukształtować realistyczną sylwetkę pacjenta i udostępnić ją całej grupie studentów. Bez stygmatyzowania prawdziwych osób, bez ryzyka przeoczenia sygnałów ostrzegawczych. Warto przetestować model na próbce pięciu scenariuszy klinicznych w ramach dwutygodniowego pilotażu – bez angażowania ani jednego prawdziwego pacjenta.
- Redukcja kosztów symulacji o 50–70%
- Wielokrotne ćwiczenia scenariuszy kryzysowych bez ryzyka dla pacjenta
- Natychmiastowa adaptacja modelu do uwag superwizora
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Reinforcing Human Behavior Simulation via Verbal Feedback
Autorzy: Weiwei Sun, Xuhui Zhou, Jiarui Liu, Weihua Du, Haojia Sun i in.
Humans learn social norms and behaviors from verbal feedback (e.g., a parent saying “that was rude” or a friend explaining “here’s why that hurt”). Yet, learning from feedback for LLMs has largely focused on domains like code and math, where RL rewards are directly verifiable and condensed into s…
arXiv: arxiv.org/abs/2605.20506
Czytaj więcej o tej technologii: DITTO: Jak słowna krytyka uczy AI lepszych manier
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
