DITTO: Jak słowna krytyka uczy AI lepszych manier

21 maja, 2026

Możliwość komentowania została wyłączona

Dziecko uczy się, że nie wolno krzyczeć, bo rodzic mówi: 'to niegrzeczne'. DITTO - nowy model AI - działa podobnie. Zamiast suchych liczb, dostaje słowną krytykę i na jej podstawie poprawia swoje zachowanie w symulacjach.

Od besztania do nauki - jak słowa kształtują AI

Ludzie nie uczą się norm społecznych z tabel punktowych. Matka nie mówi 'twoje zachowanie oceniam na 3/10'. Mówi: 'to było niegrzeczne'. Badacze z Carnegie Mellon, Microsoft Research i innych instytucji wyszli z tego samego założenia, tworząc DITTO. To model językowy, który czerpie wiedzę z komentarzy w języku naturalnym - werbalnej informacji zwrotnej - zamiast ze skalarnych nagród typowych dla uczenia ze wzmocnieniem.

Dotychczasowe próby symulowania ludzkich zachowań przez AI opierały się na liczbowej ocenie: model dostawał plusa lub minusa. Problem w tym, że rzeczywiste interakcje są wielowymiarowe. Odpowiedź może być merytorycznie poprawna, ale niegrzeczna, albo empatyczna, lecz nieprecyzyjna. Werbalna informacja zwrotna - taka, jakiej udzielamy sobie nawzajem - niesie te niuanse. DITTO potrafi je odczytać i przełożyć na lepszą politykę działania, bez potrzeby podawania komentarzy w trakcie właściwego testu.

Autorzy piszą wprost: 'Ludzie uczą się norm społecznych i zachowań z werbalnej informacji zwrotnej (np. rodzic mówiący 'to było niegrzeczne' lub przyjaciel tłumaczący 'oto dlaczego to zabolało')'. Na tej obserwacji zbudowano całą metodę.

DITTO: dwa kroki do lepszej symulacji

Mechanizm DITTO jest prosty. Wyobraźmy sobie trenera personalnego, który po każdym ćwiczeniu nie wystawia oceny, tylko mówi: 'za bardzo garbisz plecy' albo 'świetnie, teraz wolniej'. Model działa w dwóch krokach. Najpierw generuje odpowiedź na zadanie symulacyjne - na przykład odgrywa rolę ucznia. Następnie otrzymuje werbalną informację zwrotną (np. 'ta wypowiedź brzmiała arogancko') i na jej podstawie tworzy poprawioną wersję. Obie odpowiedzi - pierwotna i poprawiona - są wspólnie optymalizowane za pomocą algorytmu GRPO (Group Relative Policy Optimization).

GRPO porównuje grupę odpowiedzi i wyznacza kierunek poprawy. Dzięki temu model nie tylko uczy się unikać konkretnych błędów, ale też internalizuje ogólne zasady, które kryją się za słownymi wskazówkami. To trochę jak uczeń, który po kilku uwagach nauczyciela sam zaczyna rozumieć, co znaczy 'dobrze napisane wypracowanie', i nie potrzebuje już ciągłych poprawek. W czasie testu DITTO działa już bez dostępu do informacji zwrotnej - destyluje ją do swojej wewnętrznej polityki.

Ludzie uczą się norm społecznych i zachowań z werbalnej informacji zwrotnej (np. rodzic mówiący 'to było niegrzeczne' lub przyjaciel tłumaczący 'oto dlaczego to zabolało').

Weiwei Sun i in.

Abstract

SOUL - 10 sprawdzianów dla cyfrowego człowieka

Żeby rzetelnie ocenić postępy, potrzebny był solidny poligon. Badacze stworzyli SOUL (Simulation gym Of hUman-Like behavior) - zestaw dziesięciu zadań z sześciu kategorii: teoria umysłu, odgrywanie ról, umiejętności społeczne, symulacja ucznia, symulacja użytkownika i symulacja persony. To pierwszy tak spójny benchmark do testowania, czy AI potrafi zachowywać się jak człowiek w różnych kontekstach.

Zadania nie są abstrakcyjne. Model musi na przykład wczuć się w pacjenta opisującego objawy, ucznia zadającego pytania, czy użytkownika testującego nową aplikację. Każdy scenariusz wymaga innego rodzaju empatii, precyzji i wyczucia społecznego. SOUL dostarcza zarówno danych treningowych, jak i jednolitej metryki - dzięki temu można porównywać różne podejścia w uczciwy sposób.

Proces uczenia DITTO z werbalną informacją zwrotną - model generuje odpowiedź, otrzymuje komentarz, poprawia ją, a GRPO optymalizuje obie, by wzmocnić politykę.

Lepszy niż GPT-5.4 - wyniki, które robią różnicę

Wyniki są mocne. DITTO osiągnął średnio 36% poprawy w stosunku do modelu bazowego. W sześciu z dziesięciu testów SOUL pobił GPT-4o - model uznawany za jeden z najsilniejszych na rynku. 'DITTO osiąga średnio 36% poprawy w stosunku do modelu bazowego i przewyższa GPT-4o w 6 z 10 testów SOUL' - podsumowują autorzy. To realna przewaga werbalnej informacji zwrotnej nad tradycyjnym uczeniem przez skalarne nagrody.

Szczególnie dobrze poszło mu w zadaniach wymagających teorii umysłu i umiejętności społecznych - czyli tam, gdzie niuanse językowe mają największe znaczenie. To sugeruje, że model nie tylko zapamiętał poprawne odpowiedzi, ale rzeczywiście wykształcił coś na kształt społecznego wyczucia. Badacze konkludują: 'RL z werbalną informacją zwrotną to obiecujący kierunek trenowania LLM-ów do symulowania ludzkich zachowań'.

Werbalna informacja zwrotna zastępuje liczbowe nagrody, oddając wielowymiarowość ludzkich ocen.
DITTO uczy się na słownych komentarzach, ale nie potrzebuje ich podczas testowania - wiedza jest internalizowana.
Model osiąga 36% poprawy nad bazą i wygrywa z GPT-5.4 w większości zadań benchmarku SOUL.
SOUL to pierwszy kompleksowy zestaw testów symulacji ludzkich zachowań, obejmujący 10 zadań w 6 kategoriach.

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Wirtualny uczeń z problemami: szkoła empatii dla nauczycieli

Tysiące nauczycieli rocznie kończy studia bez praktycznego przygotowania do pracy z uczniem przeżywa

Cyfrowy pacjent z duszą - trening wywiadu lekarskiego

Studenci medycyny spędzają setki godzin na nauce komunikacji z pacjentem, ale symulowani pacjenci na

Symulator trudnego klienta, który uczy się od trenera. DITTO zmienia szkolenia w contact center

Konsultant po raz piąty słyszy podniesiony głos, a trener notuje: 'reakcja zbyt chłodna, klient czuł

Wirtualny pacjent w gabinecie - bezpieczne ćwiczenia dla terapeutów

Początkujący terapeuci potrzebują setek godzin praktyki, zanim zaczną samodzielnie prowadzić pacjent

Podsumowanie

DITTO może znaleźć zastosowanie w trenowaniu wirtualnych asystentów, by lepiej rozumieli niuanse społeczne, w symulacjach edukacyjnych, gdzie AI wciela się w ucznia o określonych potrzebach, oraz w testowaniu interfejsów konwersacyjnych - zamiast angażować prawdziwych ludzi, wystarczy model zachowujący się jak człowiek. Technologia ta otwiera drogę do bardziej naturalnych interakcji z AI, szczególnie tam, gdzie sucha poprawność to za mało.

Metryka artykułu źródłowego

Tytuł oryginalny: Reinforcing Human Behavior Simulation via Verbal Feedback

Autorzy: Weiwei Sun, Xuhui Zhou, Jiarui Liu, Weihua Du, Haojia Sun, Yiqing Xie, Qianou Ma, Sihao Chen, Mengting Wan, Longqi Yang, Pei Zhou, Sherry Wu, Sean Welleck, Graham Neubig, Yiming Yang, Maarten Sap

Data publikacji: 21 maja 2026

arXiv: arxiv.org/abs/2605.20506

PDF: https://arxiv.org/pdf/2605.20506.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.