Gdy mówisz ‘Jeśli chcesz kawy, ekspres jest w kuchni’, nie zakładasz, że kawa znika, gdy jej nie chcesz. To naturalne dla ludzi – ale nie dla sztucznej inteligencji. Nowe badania pokazują, że duże modele językowe (LLM) konsekwentnie zawodzą w interpretacji tego typu zdań warunkowych, ujawniając zjawisko nazwane Decontextualization Bias.
Co to znaczy rozumieć ‘jeśli’ po ludzku
W badaniu Morosiego i współpracowników potwierdzono, jak bardzo ludzie polegają na takich pragmatycznych odczytaniach. Eksperyment z udziałem 313 osób pokazał, że w ~88% przypadków uznawali oni standardowe warunki za udoskonalone (czyli fałsz, gdy poprzednik był fałszywy, a następnik prawdziwy), a w przypadku biscuit conditionals, przy fałszywym poprzedniku, uznawali je za prawdziwe w ~57%. To oznacza, że człowiek elastycznie przełącza się między interpretacjami w zależności od kontekstu.
Modele językowe: wielkie mózgi bez pragmatyki
Wyniki ujawniły dwa główne profile błędów: jeden to ścisłe podążanie za tabelą prawdy (logika formalna), drugi to automatyczne wzmacnianie do równoważności. Żaden z modeli nie wykazał prawdziwie kontekstowego, ludzkiego rozumowania. Co ciekawe, autorzy odnotowali także przecieki międzylingwistyczne: modele odpowiadały po angielsku na prompty katalońskie, zwłaszcza dla mniejszych języków – co sugeruje dominację angielskiego w wewnętrznej reprezentacji LLM-ów.
LLM-y są dokładnymi operatorami semantycznymi, ale nie potrafią uchwycić pragmatycznych wzbogaceń charakterystycznych dla ludzkiego rozumowania.
Morosi i in.
Abstrakt

Decontextualization Bias: nowe pojęcie, stare bolączki AI
Naukowcy proponują etykietę, która spaja te obserwacje: Decontextualization Bias – tendencję do opierania się na dosłownej, powierzchniowej formie wypowiedzi i ignorowania bogactwa kontekstu. ‘Oferujemy jednolite wyjaśnienie tych ogólnych niespójności, argumentując, że zdolności rozumowania LLM-ów są dotknięte tym, co nazywamy Decontextualization Bias: tendencją do opierania się na formalnych aspektach wejścia językowego, bez pełnego integrowania wskazówek kontekstowych, które kierują ludzkim przetwarzaniem’ – czytamy we wstępie. To trochę jak z turystą, który zna język tylko z podręcznika: rozumie każde słowo, ale nie wyłapuje ironii, aluzji ani codziennych skrótów myślowych. LLM-y są świetne w ‘szkolnej logice’, brakuje im jednak życiowego wyczucia, które ludzie zdobywają przez doświadczenie i interakcję ze światem.
Czy architektura ma znaczenie? Niespodziewanie – nie
Kusi, by pomyśleć, że zaawansowana architektura – modele otwarte, typu Mixture-of-Experts (MoE), czy trening zorientowany na rozumowanie – poprawi wyniki. Analiza pokazuje jednak, że żaden z tych czynników nie koreluje z wynikami w zadaniach pragmatycznych. Modele takie jak Llama3.3 i Kimi K2 osiągały wysoką dokładność, ale tylko dlatego, że stosowały sztywną regułę (np. zawsze wzmacniały warunek), a nie dzięki elastyczności. Nawet one nie radziły sobie z biscuit conditionals. Falcon 7-B radził sobie odwrotnie, co tylko podkreśla chaos. ‘Nawet gdy modele rozumowały w sposób, który oddawał ludzkie rozróżnienie we wnioskowaniach, ich odpowiedzi nie dorównywały w pełni ludzkim punktom odniesienia pod względem dokładności’ – podsumowują badacze w dyskusji. Taka różnorodność wskazuje, że pragmatyka jest własnością pojawiającą się nieprzewidywalnie, zależną od konkretnego modelu, a nie od ogólnych parametrów architektury.
Język angielski jako proteza – nawet po katalońsku
Dodatkową warstwą problemu jest dominacja angielskiego. Gdy modelom podawano polecenia po katalońsku, część odpowiadała po angielsku – jakby ‘domyślnie’ przeskakiwały na silniejszy, bardziej rozwinięty językowo kanał. To zjawisko przecieków (leakage) sugeruje, że LLM-y wciąż ‘myślą’ głównie po angielsku, tracąc niuanse mniejszych języków. W konsekwencji pragmatyczne rozumienie nawet prostego zdania warunkowego w języku romańskim może być dodatkowo zaburzone.
- Ludzie elastycznie wzbogacają warunki o znaczenie pragmatyczne, ale LLM-y tego nie robią.
- Modele trzymają się logiki tabeli prawdy lub na siłę stosują bikondycyjność.
- Decontextualization Bias to uogólnione wyjaśnienie – LLM-y wolą dosłowność.
- Architektura nie przewiduje sukcesu; pragmatyka jest cechą wyłaniającą się modelowo.
- Nawet najlepsze modele zawodzą na biscuit conditionals, a w mniejszych językach widać dominację angielskiego.
Praktyczne zastosowania
Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:
Podsumowanie
Wnioski z badania mają konkretne przełożenie na rozwój asystentów AI, chatbotów i narzędzi analitycznych. W sektorze prawnym, gdzie precyzja warunków jest krytyczna, poleganie na obecnych LLM może prowadzić do błędnych interpretacji umów. W obsłudze klienta bot może dosłownie odczytać pytanie i udzielić nieadekwatnej odpowiedzi, ignorując intencję. Aby temu zaradzić, potrzebne są mechanizmy integrujące kontekst sytuacyjny – na przykład trening na danych dialogowych z wyraźnym nacechowaniem pragmatycznym lub łączenie LLM z zewnętrzną bazą wiedzy o świecie. Decontextualization Bias pozostaje wyzwaniem, ale jego świadomość to pierwszy krok ku bardziej ludzkiej interakcji z maszynami.
Metryka artykułu źródłowego
Tytuł oryginalny: Tracing the ongoing emergence of human-like reasoning in Large Language Models
Autorzy: Paolo Morosi, Nikoleta Pantelidou, Fritz G”unther, Elena Pagliarini, Evelina Leivada
Data publikacji: 21 maja 2026
arXiv: arxiv.org/abs/2605.21299
Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.
