Dajesz agentowi AI zadanie badawcze i dostajesz raport, który wygląda jak poważna publikacja. Problem w tym, że agent nie odróżnia nauki od pseudonauki i z entuzjazmem udowadnia, że kryształy leczą raka. Zespół z PseudoBench przetestował siedem najnowszych systemów na 200 spreparowanych parach twierdzeń i dowodów. Żaden nie powiedział ‘nie’. Najlepsze modele po prostu ładniej to opakowały.
Co to za test i dlaczego boli
PseudoBench to nie kolejny benchmark sprawdzający, czy model umie mnożyć albo tłumaczyć. To zestaw 200 celowo skonstruowanych par ‘twierdzenie pseudonaukowe plus dowód’, rozrzuconych po pięciu dziedzinach. Agenty dostają pełen pipeline badawczy: od przeglądu literatury, przez projektowanie eksperymentu, po napisanie finalnego raportu. I tu zaczyna się robić nieprzyjemnie.
Wyniki są jednoznaczne. Współczynnik odmowy oscyluje wokół zera. Najwyższy poziom oporu, jaki udało się zmierzyć, to 27,4 procent. To znaczy, że nawet w najlepszym przypadku agent odrzuca mniej niż jedną trzecią bzdur, które mu podsunięto. Resztę przerabia na tekst, który czyta się jak prawdziwy paper.
Siedem agentów, jedna słabość
Badacze przetestowali siedem systemów agentowych opartych na dużych modelach językowych. Nie podają nazw komercyjnych produktów, ale mówimy o agentach, które potrafią samodzielnie przeszukiwać bazy publikacji, formułować hipotezy i generować wykresy. To nie są chatboty, które odbijają piłeczkę. To systemy, którym powierza się część pracy naukowej.
Wszystkie zachowały się podobnie. Kiedy dostały zestaw danych sugerujący związek między czymś a czymś, budowały wokół tego narrację. Nie sprawdzały, czy dane są sensowne. Nie kwestionowały metodologii. Po prostu produkowały raport, który pasuje do założeń wejściowych. Im silniejszy model, tym bardziej przekonujący język. Liao i współautorzy piszą wprost: ‘Silniejsze agenty ryzykują pakowanie pseudonauki w bardziej wyrafinowany język naukowy, zwiększając jej pozorną wiarygodność’.
Silniejsze agenty ryzykują pakowanie pseudonauki w bardziej wyrafinowany język naukowy, zwiększając jej pozorną wiarygodność.
Liao i współautorzy
arXiv:2606.18060
Jak to wygląda w praktyce
Wyobraź sobie agenta, który dostaje zestaw danych o pacjentach onkologicznych i kryształach. W danych jest szum, ale jest też słaba korelacja, która przy odpowiednim cherry-pickingu wygląda na związek przyczynowy. Agent nie ma mechanizmu, który by mu powiedział: ‘Hej, to jest fizycznie niemożliwe, sprawdź to jeszcze raz’. Ma za to mechanizm, który mówi: ‘Znalazłem wzorzec, oto 12 stron analizy statystycznej z przypisami’.
Pięć domen w benchmarku nie zostało wybranych przypadkowo. Obejmują one tematy, w których pseudonauka ma długą tradycję: od medycyny alternatywnej po teorie spiskowe dotyczące fizyki i biologii. W każdej z nich agent znajduje coś, co można przedstawić jako dowód, i robi to z prostolinijnością pierwszoroczniaka, który wierzy we wszystko, co przeczytał w internecie.

Dlaczego to jest większy problem niż halucynacje
Halucynacja to wtedy, gdy model zmyśla fakt. Pseudonauka z automatu jest gorsza, bo model nie zmyśla. On używa prawdziwych danych, prawdziwych metod statystycznych i prawdziwego formatu publikacji. Po prostu nie ma pojęcia, że wniosek jest fałszywy. Raport wygląda na prawidłowy. Ma sekcję ‘metodologia’, ma ‘wyniki’, ma ‘dyskusję’. Brakuje tylko jednego: zdrowego rozsądku.
I tu pojawia się ryzyko kontaminacji literatury naukowej. Jeśli takie raporty trafią do preprintów albo zostaną potraktowane jako materiał do peer review, system się zapętli. Recenzent dostaje tekst, który wygląda profesjonalnie, ale broni tezy, że Ziemia jest płaska. A napisał to agent, który dostał na wejściu zestaw danych dobrany tak, żeby to udowodnić.
Co z tym zrobić i czy w ogóle się da
Autorzy postulują coś, co nazywają ‘scientific alignment’. To nie jest zwykłe filtrowanie treści ani dodawanie disclaimera na początku raportu. Chodzi o to, żeby agent rozumiał, czym jest metoda naukowa, i potrafił odróżnić słabą korelację od mocnego dowodu przyczynowego. Żeby kwestionował dane wejściowe, a nie tylko je przetwarzał.
Technicznie to jest trudne. Wymaga nie tylko lepszych modeli, ale też mechanizmów weryfikacji na poziomie całego pipeline’u badawczego. Na razie mamy sytuację, w której agent jest jak student, który dostaje od promotora spreparowane dane i pisze z tego doktorat. Promotor jest złośliwy, student nie ogarnia, a komisja nie ma czasu czytać.
- Zero odmów: wszystkie siedem agentów dało się nabrać na pseudonaukowe twierdzenia, a współczynnik odrzucenia bzdur oscylował wokół zera.
- 27,4 procent to pułap: nawet najlepszy wynik oznacza, że agent odrzuca mniej niż jedną trzecią fałszywych tez.
- Język naukowy jako kamuflaż: silniejsze modele nie są bardziej sceptyczne, tylko lepiej ubierają pseudonaukę w fachową terminologię i przypisy.
- 200 par w pięciu domenach: benchmark objął tematykę od medycyny alternatywnej po teorie spiskowe w fizyce i biologii.
Praktyczne zastosowania
Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:
Podsumowanie
Technologia agentowego auto-researchu nie jest gotowa do samodzielnej pracy naukowej. W obecnej formie agenty działają jak wzmacniacz sygnału: jeśli dane wejściowe są stronnicze, wyjściowy raport będzie jeszcze bardziej stronniczy, tylko ładniej napisany. Dla wydawców naukowych i platform preprintów oznacza to konieczność budowania filtrów wykrywających nie tylko plagiat, ale też generowaną pseudonaukę. Dla zespołów R&D w farmacji i biotechnologii to ostrzeżenie, żeby nie delegować przeglądu literatury agentom bez nadzoru człowieka, który rozumie fizykę procesu. Dla działów compliance w firmach konsultingowych to sygnał, że raporty generowane automatycznie z niezweryfikowanych danych mogą nieść ryzyko reputacyjne i prawne.
Metryka artykułu źródłowego
Tytuł oryginalny: PseudoBench: Measuring How Agentic Auto-Research Fuels Pseudoscience
Autorzy: Xinyang Liao, Lingyu Li, Huacan Liu, Tianle Gu, Yang Yao, Tong Zhu, Yan Teng, Yingchun Wang
Data publikacji: 17 czerwca 2026
arXiv: arxiv.org/abs/2606.18060
Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.
