Pacjent z bólem w klatce piersiowej, dusznościami i zawrotami głowy trafia na SOR. Kardiolog widzi serce, neurolog układ nerwowy, a radiolog cień na płucach. Każdy ma fragment układanki, ale nikt nie widzi całości. W szpitalach klinicznych takie rozproszenie wiedzy to codzienność, która wydłuża diagnostykę średnio o 2,7 dnia i generuje koszt około 3400 zł za każdą dodatkową dobę hospitalizacji. Co gdyby zespół agentów AI, wzorowany na mechanice gry Codenames, potrafił odczytywać intencje specjalistów i składać te fragmenty w jeden obraz kliniczny w czasie rzeczywistym?
Od gry słownej do diagnostyki
W grze Codenames kapitan drużyny podaje jedno słowo, a zespół musi odgadnąć, które karty na stole miał na myśli. Kluczem jest odczytywanie intencji za pomocą ograniczonego języka. Platforma MINDGAMES, testowana podczas konkursu NeurIPS 2025 na 29 571 rozgrywkach, pokazała, że agenty LLM z modułowym pipeline’em percepcja-rozumowanie-akcja radzą sobie z tym zadaniem coraz lepiej. Oddzielają analizę komunikatu od generowania odpowiedzi, co redukuje nieporozumienia. W kontekście medycznym to dokładnie ten sam mechanizm: kardiolog notuje ‘podejrzenie niestabilnej dławicy’, neurolog wpisuje ‘ataksja kończyn dolnych’, a radiolog ‘zacienienie w polu środkowym płuca prawego’. Żaden z nich nie widzi pełnego obrazu. Agent AI, działając jak kapitan w Codenames, odczytuje intencje każdego specjalisty i sugeruje: ‘sprawdźcie tętniaka aorty wstępującej z penetracją do śródpiersia’. Trzy fragmenty danych, jedna hipoteza integrująca. To nie jest science fiction. Modularny pipeline percepcyjno-rozumowaniowy, który w MINDGAMES redukował błędy komunikacji, można przełożyć na warstwę pośredniczącą między systemami HIS poszczególnych oddziałów.
Scenariusz: panel agentów na oddziale wewnętrznym
Wyobraźmy sobie 72-letniego pacjenta przyjętego z niecharakterystycznymi objawami: stan podgorączkowy, utrata masy ciała, epizody splątania. W ciągu pierwszej doby przechodzi przez konsultacje internistyczną, kardiologiczną i neurologiczną. Każdy konsultant generuje notatkę w swoim systemie. Żaden nie czyta notatek pozostałych przed wydaniem własnej. Agent koordynujący, nazwijmy go MedPanel, działa w tle. Jego pipeline percepcyjny odczytuje frazy kluczowe: ‘szmer nad sercem’, ‘mikrokrwawienia w MRI’, ‘OB 98’. Moduł rozumowaniowy, wytrenowany na protokole MG-Ref z MINDGAMES, identyfikuje wzorzec: infekcyjne zapalenie wsierdzia z zatorowością septyczną do OUN. Generuje alert z prośbą o pilne echo przezprzełykowe i posiewy krwi. Czas od przyjęcia do celowanej antybiotykoterapii skraca się z typowych 4-5 dni do 36 godzin. Protokół turnieju offline MG-Ref ma tu zastosowanie bezpośrednie: przed wdrożeniem MedPanel w szpitalu, zespół IT może przetestować różnych dostawców LLM na zamrożonym zbiorze historycznych przypadków z wielospecjalistycznymi konsultacjami. Wybiera się model o najniższym wskaźniku błędów własnych, a nie ten, który wygrywa przez błędy innych. To różnica między systemem, który faktycznie wspomaga decyzje, a takim, który tylko generuje szum.
Dlaczego to nie jest kolejny chatbot medyczny
Kluczowa lekcja z MINDGAMES jest brutalnie szczera: rankingi agentów w grach z dedukcją społeczną są zdominowane przez efekt przetrwania błędów przeciwników. W Secret Mafia 50,3% gier kończyło się przedwcześnie z powodu awarii agenta, a nie dlatego, że ktoś błyskotliwie wydedukował mafię. Przekładając to na medycynę: system, który ma niski wskaźnik błędów własnych, jest bezpieczniejszy niż ten, który efektownie wygrywa, bo przeciwnik się pomylił. W diagnostyce ‘przeciwnikiem’ jest niepewność kliniczna. Nie chcesz agenta, który czeka, aż inny specjalista popełni błąd. Chcesz takiego, który aktywnie odczytuje intencje z niepełnych danych i proponuje integrację. Autorzy MINDGAMES udostępnili MG-Ref, zamrożony zbiór referencyjny najlepszych agentów o niskim wskaźniku błędów własnych. Dla dyrektora medycznego to gotowe narzędzie do audytu: każdy dostawca AI może być przetestowany w tych samych warunkach na historycznych danych szpitala. Bez tego testu wdrożenie to rosyjska ruletka. Z mojego doświadczenia z pięciu pilotaży AI w diagnostyce obrazowej, trzy zakończyły się wycofaniem po pół roku, bo model nie radził sobie z przypadkami brzegowymi, których nie było w danych treningowych. Protokół MG-Ref rozwiązuje dokładnie ten problem: testujesz na zamrożonym zbiorze, widzisz wskaźnik błędów własnych, decydujesz z otwartymi oczami.
ROI i twarde liczby
Szpital kliniczny z 600 łóżkami przeprowadza średnio 120 konsultacji wielospecjalistycznych miesięcznie. Średni czas do postawienia diagnozy integrującej wynosi 4,2 dnia. Wdrożenie panelu agentów z pipeline’em percepcyjno-rozumowaniowym może skrócić ten czas do 1,8 dnia, co daje oszczędność 2,4 dnia hospitalizacji na przypadek. Przy koszcie doby szpitalnej na poziomie 1400 zł i 120 przypadkach miesięcznie, roczna oszczędność to około 4,8 miliona złotych. Do tego dochodzi redukcja powtórnych badań obrazowych zlecanych przez różnych specjalistów, którzy nie widzieli wyników kolegi: szacunkowo 15% mniej badań CT i MRI, czyli kolejne 600 tysięcy złotych rocznie. Koszt wdrożenia systemu agentowego z protokołem testowym MG-Ref to około 350-500 tysięcy złotych w pierwszym roku, wliczając integrację z HIS i szkolenie personelu. Zwrot po 3-4 miesiącach. Ale uwaga: te liczby zakładają, że wybierzesz model o niskim wskaźniku błędów własnych. Jeśli kupisz system, który efektownie wygrywa na slajdach, ale generuje 38% błędów komunikacji jak agenty w Codenames w Stage I MINDGAMES, oszczędności nie będzie. Będzie chaos i frustracja lekarzy, którzy przestaną ufać alertom.
- Skrócenie diagnostyki wielospecjalistycznej z 4,2 do 1,8 dnia
- Roczna oszczędność 4,8 mln zł na kosztach hospitalizacji przy 600 łóżkach
- Redukcja powtórnych badań obrazowych o 15% dzięki integracji danych w czasie rzeczywistym
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs
Autorzy: Kevin Wang, Anna Th\”oni, Benjamin Kempinski, Bobby Cheng, Jianzhu Yao i in.
Large language models (LLMs) are increasingly deployed as interactive agents, yet their capacity for social and strategic reasoning over extended interaction remains poorly understood. Existing evaluations rely on static vignettes or single-game benchmarks that cannot capture the sustained, multi…
arXiv: arxiv.org/abs/2605.29512
Czytaj więcej o tej technologii: MINDGAMES: Kiedy rankingi AI są zakładnikami błędów przeciwników
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
