Dlaczego AI nie rozumie ‘Jeśli jesteś głodny, w piekarniku jest pizza’ – Decontextualization Bias ujawnia lukę w rozumowaniu modeli językowych

Gdy mówisz ‘Jeśli chcesz kawy, ekspres jest w kuchni’, nie zakładasz, że kawa znika, gdy jej nie chcesz. To naturalne dla ludzi – ale nie dla sztucznej inteligencji. Nowe badania pokazują, że duże modele językowe (LLM) konsekwentnie zawodzą w interpretacji tego typu zdań warunkowych, ujawniając zjawisko nazwane Decontextualization Bias.

Co to znaczy rozumieć ‘jeśli’ po ludzku

W badaniu Morosiego i współpracowników potwierdzono, jak bardzo ludzie polegają na takich pragmatycznych odczytaniach. Eksperyment z udziałem 313 osób pokazał, że w ~88% przypadków uznawali oni standardowe warunki za udoskonalone (czyli fałsz, gdy poprzednik był fałszywy, a następnik prawdziwy), a w przypadku biscuit conditionals, przy fałszywym poprzedniku, uznawali je za prawdziwe w ~57%. To oznacza, że człowiek elastycznie przełącza się między interpretacjami w zależności od kontekstu.

Modele językowe: wielkie mózgi bez pragmatyki

Wyniki ujawniły dwa główne profile błędów: jeden to ścisłe podążanie za tabelą prawdy (logika formalna), drugi to automatyczne wzmacnianie do równoważności. Żaden z modeli nie wykazał prawdziwie kontekstowego, ludzkiego rozumowania. Co ciekawe, autorzy odnotowali także przecieki międzylingwistyczne: modele odpowiadały po angielsku na prompty katalońskie, zwłaszcza dla mniejszych języków – co sugeruje dominację angielskiego w wewnętrznej reprezentacji LLM-ów.

LLM-y są dokładnymi operatorami semantycznymi, ale nie potrafią uchwycić pragmatycznych wzbogaceń charakterystycznych dla ludzkiego rozumowania.

Morosi i in.

Abstrakt

Decontextualization Bias: nowe pojęcie, stare bolączki AI

Naukowcy proponują etykietę, która spaja te obserwacje: Decontextualization Bias – tendencję do opierania się na dosłownej, powierzchniowej formie wypowiedzi i ignorowania bogactwa kontekstu. ‘Oferujemy jednolite wyjaśnienie tych ogólnych niespójności, argumentując, że zdolności rozumowania LLM-ów są dotknięte tym, co nazywamy Decontextualization Bias: tendencją do opierania się na formalnych aspektach wejścia językowego, bez pełnego integrowania wskazówek kontekstowych, które kierują ludzkim przetwarzaniem’ – czytamy we wstępie. To trochę jak z turystą, który zna język tylko z podręcznika: rozumie każde słowo, ale nie wyłapuje ironii, aluzji ani codziennych skrótów myślowych. LLM-y są świetne w ‘szkolnej logice’, brakuje im jednak życiowego wyczucia, które ludzie zdobywają przez doświadczenie i interakcję ze światem.

Czy architektura ma znaczenie? Niespodziewanie – nie

Kusi, by pomyśleć, że zaawansowana architektura – modele otwarte, typu Mixture-of-Experts (MoE), czy trening zorientowany na rozumowanie – poprawi wyniki. Analiza pokazuje jednak, że żaden z tych czynników nie koreluje z wynikami w zadaniach pragmatycznych. Modele takie jak Llama3.3 i Kimi K2 osiągały wysoką dokładność, ale tylko dlatego, że stosowały sztywną regułę (np. zawsze wzmacniały warunek), a nie dzięki elastyczności. Nawet one nie radziły sobie z biscuit conditionals. Falcon 7-B radził sobie odwrotnie, co tylko podkreśla chaos. ‘Nawet gdy modele rozumowały w sposób, który oddawał ludzkie rozróżnienie we wnioskowaniach, ich odpowiedzi nie dorównywały w pełni ludzkim punktom odniesienia pod względem dokładności’ – podsumowują badacze w dyskusji. Taka różnorodność wskazuje, że pragmatyka jest własnością pojawiającą się nieprzewidywalnie, zależną od konkretnego modelu, a nie od ogólnych parametrów architektury.

Język angielski jako proteza – nawet po katalońsku

Dodatkową warstwą problemu jest dominacja angielskiego. Gdy modelom podawano polecenia po katalońsku, część odpowiadała po angielsku – jakby ‘domyślnie’ przeskakiwały na silniejszy, bardziej rozwinięty językowo kanał. To zjawisko przecieków (leakage) sugeruje, że LLM-y wciąż ‘myślą’ głównie po angielsku, tracąc niuanse mniejszych języków. W konsekwencji pragmatyczne rozumienie nawet prostego zdania warunkowego w języku romańskim może być dodatkowo zaburzone.

  • Ludzie elastycznie wzbogacają warunki o znaczenie pragmatyczne, ale LLM-y tego nie robią.
  • Modele trzymają się logiki tabeli prawdy lub na siłę stosują bikondycyjność.
  • Decontextualization Bias to uogólnione wyjaśnienie – LLM-y wolą dosłowność.
  • Architektura nie przewiduje sukcesu; pragmatyka jest cechą wyłaniającą się modelowo.
  • Nawet najlepsze modele zawodzą na biscuit conditionals, a w mniejszych językach widać dominację angielskiego.

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Podsumowanie

Wnioski z badania mają konkretne przełożenie na rozwój asystentów AI, chatbotów i narzędzi analitycznych. W sektorze prawnym, gdzie precyzja warunków jest krytyczna, poleganie na obecnych LLM może prowadzić do błędnych interpretacji umów. W obsłudze klienta bot może dosłownie odczytać pytanie i udzielić nieadekwatnej odpowiedzi, ignorując intencję. Aby temu zaradzić, potrzebne są mechanizmy integrujące kontekst sytuacyjny – na przykład trening na danych dialogowych z wyraźnym nacechowaniem pragmatycznym lub łączenie LLM z zewnętrzną bazą wiedzy o świecie. Decontextualization Bias pozostaje wyzwaniem, ale jego świadomość to pierwszy krok ku bardziej ludzkiej interakcji z maszynami.

Metryka artykułu źródłowego

Tytuł oryginalny: Tracing the ongoing emergence of human-like reasoning in Large Language Models

Autorzy: Paolo Morosi, Nikoleta Pantelidou, Fritz G”unther, Elena Pagliarini, Evelina Leivada

Data publikacji: 21 maja 2026

arXiv: arxiv.org/abs/2605.21299

PDF: https://arxiv.org/pdf/2605.21299.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *