W konkursie NeurIPS 2025 niemal tysiąc agentów AI rozegrało blisko 30 000 partii w czterech różnych grach, od alokacji zasobów w Colonel Blotto po blefowanie w Secret Mafia. Okazało się, że w niektórych środowiskach pozycja w tabeli zależała nie od sprytu, ale od tego, który model rzadziej mylił się przy przetwarzaniu zasad. Zespół MINDGAMES opublikował teraz dane i narzędzia, by każdy mógł sprawdzić, czy jego model naprawdę rozumie intencje innych graczy.
Cztery gry, cztery wyzwania
Platforma MINDGAMES testuje agentów w czterech grach o zupełnie innych strukturach. W Colonel Blotto gracze przydzielają jednostki do kilku pól, nie widząc decyzji rywali, a potem wygrywa ten, kto lepiej rozłożył siły. Iterowany dylemat więźnia to seria turowych decyzji o współpracy lub zdradzie z możliwością komunikowania się. Codenames wymaga od dwóch szpiegów-mistrzów, aby naprowadzili drużynę na właściwe słowa, podając tylko jedną wskazówkę na turę, przy ostrym ograniczeniu sygnalizacji. Secret Mafia to zamknięta grupa, w której ukryci mafiozi eliminują cywilów, a reszta próbuje ich zdemaskować przez dyskusję i głosowania.
Już na pierwszy rzut oka widać różnicę w awaryjności. W fazie kontrolowanej (Stage II) błędy akcji zdarzyły się w 8,5% gier w Colonel Blotto, ale aż w 50,3% w Secret Mafia. Błąd to nie porażka strategiczna, tylko sytuacja, gdy agent nie zrozumiał formatu i wysłał akcję, której symulator nie potrafi przetworzyć. Ta różnica okazała się kluczowa dla tego, jak bardzo rankingi odzwierciedlają faktyczne umiejętności.
Dlaczego Secret Mafia zakłamuje wyniki
W Secret Mafia średnia długość gry, która kończy się błędem, to mniej niż trzy tury, czyli zanim zdąży się rozpocząć prawdziwa debata. To oznacza, że większość partii urywa się, zanim agent w ogóle wejdzie w interakcję wymagającą dedukcji. ‘Rankingi w Secret Mafia w tym cyklu są zdominowane przez przetrwanie błędów’, przyznają autorzy. Innymi słowy, wygrywasz nie dlatego, że świetnie kłamiesz, tylko dlatego, że twój przeciwnik jako pierwszy wysłał niepoprawną komendę.
Zespół nazywa to ‘error-survival confound’, twoja pozycja w rankingu rośnie, bo unikasz błędów własnych i wykorzystujesz cudze, zamiast wykazywać wyższą inteligencję społeczną. Gdy porównali nagrody zdobyte przez agentów z ich wskaźnikiem TrueSkill, wyszła ciekawa rzecz: w torze dotyczącym dedukcji społecznej agenty z dywizji Efficient Agent miały dodatni TrueSkill mimo bliskiej zeru nagrody. To znaczy, że system rankingowy premiował samo unikanie błędów, a nie faktyczne wygrywanie gier z dobrymi zagraniami.
Teoria umysłu, zdolność do przypisywania przekonań, intencji i celów innym agentom oraz działania na ich podstawie, jest warunkiem wstępnym skutecznej interakcji wieloagentowej i interakcji człowiek-agent.
Autorzy (za cytowaniem [1])
Sekcja 1
Moduły, dostrajanie i pułapka pamięci
Uczestnicy konkursu wybrali dwie główne ścieżki budowy agentów. W kategorii Efficient Agent dominowało dostrajanie parametrów modelu na danych z gier, to podejście, gdzie model uczy się nowych zachowań przez modyfikację wag. W kategorii Unlimited zwyciężały systemy, które nie trenowały wag, tylko kładły nacisk na strukturyzację wnioskowania: długie promptowanie, łańcuchy myśli i oddzielne moduły analizujące stan przed podjęciem decyzji. Niezależne zespoły opracowały podobny schemat: potok ‘percepcja-rozumowanie-akcja’, gdzie najpierw wyciąga się z obserwacji najważniejsze informacje, potem planuje, a dopiero na końcu generuje konkretny ruch.
Ale nie wszystko, co wydaje się sprytne, działało. Dodawanie modułów pamięci i dodatkowego rozumowania, gdy nie były odpowiednio wytrenowane, często pogarszało wyniki. Innymi słowy, wrzucenie złożonego mechanizmu na siłę, bez przetestowania w setkach gier, z reguły kończyło się większą liczbą błędów. Ciekawie wypadło też kuratorowanie danych: zespoły, które agresywnie filtrowały materiały treningowe, odrzucały słabe zagrania i trzymały tylko skuteczne przykłady, osiągały lepsze wyniki niż te, które trenowały na wszystkim, co wpadło w ręce. ‘Kuratorowanie danych wydaje się ważniejsze niż sama objętość danych’, mówią autorzy, na podstawie analizy 944 zgłoszeń.

Jak mierzyć uczciwie: TrueSkill, role i MG-Ref
Do porównywania agentów użyto systemu TrueSkill, który utrzymuje dla każdego rozkład prawdopodobieństwa umiejętności i aktualizuje go po każdej grze, ważąc ‘zaskoczenie’ wyniku. Sprawdza się lepiej niż prosta liczba zwycięstw, bo radzi sobie z nierówną liczbą partii. Jednak nawet on nie jest odporny na błędy w środowisku. Autorzy zwracają uwagę, że w grach z dedukcją społeczną widoczna jest przewaga ról: mafia w Secret Mafia ma znacznie łatwiej niż cywile. Agent, który wie, że jest mafią, nie musi zgadywać swojej tożsamości, wystarczy, że będzie spójnie kłamał. Dla cywila, który musi wywnioskować, kto jest wrogiem, to zupełnie inna para kaloszy.
Żeby dać przyszłym badaczom szansę na rzetelne porównania, zespół stworzył MG-Ref, zamrożony zestaw referencyjnych agentów o niskim własnym wskaźniku błędów. Nowe zgłoszenia można teraz oceniać w turnieju offline, mierząc się dokładnie z tymi samymi przeciwnikami, co eliminuje część szumu związanego z losowymi, niedopracowanymi modelami.
Lekcja: nie jedna liczba, ale cały krajobraz
Najważniejszy wniosek z MINDGAMES nie jest taki, że któryś model jest najlepszy. ‘Centralna lekcja nie jest taka, że jeden zagregowany wynik w czysty sposób oddaje społeczne lub strategiczne rozumowanie, ale to, że wiarygodność oceny silnie zależy od środowiska gry i dynamiki awarii’, piszą autorzy. To ma znaczenie nie tylko dla akademickich konkursów, ale dla każdej firmy, która chce używać modeli językowych do negocjacji, moderowania dyskusji czy przydzielania zadań w zespole agentów.
Sprawdzian umiejętności społecznych musi być czysty. Jeśli twoja gra kończy się przed pierwszą poważną decyzją, bo przeciwnik nie ogarnął formatki, to nie mierzysz inteligencji społecznej, tylko zdolność do niepopełniania błędów składniowych. I to jest właśnie to, co MINDGAMES z całą surowością obnaża.
- W dywizji Efficient Agent dominuje dostrajanie modeli, a w Unlimited – strukturyzacja wnioskowania bez zmiany wag.
- Jakość kuratorowania danych treningowych ma większe znaczenie niż objętość danych.
- Dodawanie modułów pamięci bez odpowiedniego treningu często pogarsza wyniki agenta.
- W grach z dedukcją społeczną rankingi odzwierciedlają głównie odporność na błędy przeciwników, a nie umiejętności strategiczne.
- Nawet małe modele nie-LLM (6,8M parametrów) mogą wygrywać, gdy LLM-y służą jako nauczyciele.
Praktyczne zastosowania
Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:
Podsumowanie
Platforma MINDGAMES dostarcza nie tylko benchmarku, ale i metodyki do uczciwego testowania społecznego rozumowania modeli językowych. Może być użyta do sprawdzenia, czy asystenci AI potrafią współpracować z ludźmi w negocjacjach, czy autonomiczne boty handlowe uwzględniają zachowania innych uczestników rynku, oraz do weryfikacji systemów moderacji dyskusji, które muszą odróżnić złośliwe wprowadzanie w błąd od nieporozumienia.
Metryka artykułu źródłowego
Tytuł oryginalny: MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs
Autorzy: Kevin Wang, Anna Th\”oni, Benjamin Kempinski, Bobby Cheng, Jianzhu Yao, Benjamin Finch, Leon Guertler, Viraj Nadkarni, Yihan Jiang, Aliaksei Korshuk, Alexander Buyantuev, Ilya Makarov, Siyuan Wu, Yu-Chi Cheng, Yan-Ru Ju, Ti-Rong Wu, I-Hsuan Chu, Yu-Yu Yang, I-Chen Wu, Yitian Huang, Qinlu Cao, Yiheng Sun, Yuhong Dai, Hongkun Yao, Jingxuan Fu, Jiwei Zhang, Hao Liao, Mossimo Ebeling, Govind Arun, Sadhvik Bathini, Mihir S Arya, Avinash Anish, Aditya Ranjan, Kirtana Sunil Phatnani, Paval KS, Vrushali Mehta, Aravind S, Nikhil Arora, Tanya Upadhyay, Amol Bandagale, Yuan Lu, ChunEn Hsiao, YuTing Lin, Arvin Chung, Jerry John Thomas, Mathieu Lauri\`ere, Leshem Choshen, Yoram Bachrach, Pramod Viswanath, Maria Polukarov, Cheston Tan, Tal Kachman, Atlas Wang
Data publikacji: 29 maja 2026
arXiv: arxiv.org/abs/2605.29512
Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.
