Gdy klient mówi ‘jeśli macie, to biorę’ – chatboty wciąż tego nie łapią

Klient pisze: ‘Jeśli macie ten produkt w niebieskim, to proszę o 2 sztuki’. Intencja jest jasna: chce kupić dwie sztuki, a kolor to preferencja. Chatbot jednak często odpowiada: ‘Niestety, niebieski jest niedostępny, zamówienie anulowane’. Efekt? Frustracja, utracona sprzedaż i eskalacja do konsultanta. Badania nad tzw. Decontextualization Bias pokazują, że modele językowe nie ogarniają pragmatyki – ale da się to naprawić.

Dlaczego boty myślą jak logicy, nie jak ludzie

Eksperyment z udziałem 313 osób i 25 modeli językowych ujawnił przepaść w interpretacji zdań warunkowych. Ludzie elastycznie dostosowują znaczenie do kontekstu: słysząc ‘Jeśli jesteś głodny, w piekarniku jest pizza’, wiedzą, że pizza istnieje niezależnie od głodu. To tzw. biscuit conditional – następnik jest prawdziwy bez względu na poprzednik. Modele AI tego nie łapią. Trzymają się literalnej logiki: warunek niespełniony oznacza dla nich pustą prawdę albo natychmiast wzmacniają ‘jeśli’ do ‘wtedy i tylko wtedy’. Badacze nazwali to Decontextualization Bias – skłonnością do ignorowania kontekstu na rzecz formy.

W obsłudze klienta skutkuje to katastrofą. Gdy klient pisze ‘Jeśli macie niebieski, wezmę dwa’, bot zamiast złożyć zamówienie z notatką o preferencji, odpowiada: ‘Niebieskiego nie ma, więc nic nie zamawiam’. To nie błąd kodu – to luka w rozumowaniu, która dotyka nawet najnowszych modeli, jak Llama 3.3 czy GPT-4.

Jak działa rozwiązanie: hybryda reguł i kontekstu

Naukowcy nie znaleźli jednej architektury, która gwarantuje pragmatyczne rozumowanie – każdy model radzi sobie inaczej. Ale wdrożenie poprawki w chatbocie nie wymaga budowy AGI. Wystarczy połączyć dwa elementy: detektor fraz intencyjnych i pragmatyczny klasyfikator uczenia kontekstowego.

Detektor to prosty zestaw reguł: jeśli w następniku zdania warunkowego pojawia się ‘proszę’, ‘zamawiam’, ‘biorę’ lub ‘poproszę’, system oznacza wypowiedź jako biscuit conditional. Wtedy warunek (np. kolor, rozmiar) jest traktowany jak preferencja, a nie blokada. Następnie klasyfikator sprawdza szerszy kontekst rozmowy – czy klient przeglądał kategorię produktów, dodał coś do koszyka – i na tej podstawie podejmuje decyzję o interpretacji.

Model można dotrenować na zbiorze dialogów z oznaczonymi intencjami. W praktyce wystarczy kilkaset przykładów, by bot przestał odpowiadać literalnie i zaczął reagować tak, jak człowiek: ‘Niebieski jest niedostępny, ale mamy granatowy i błękitny. Czy któryś pasuje? A może chcesz dwie sztuki w innym kolorze?’.

Scenariusz z życia e-commerce

Wyobraźmy sobie sklep z akcesoriami rowerowymi, który obsługuje przez chatbota 20 tys. zapytań miesięcznie. Około 8% z nich zawiera warunkowe prośby: ‘Jeśli macie kask w żółtym, to biorę rozmiar M’. Statystyki przed wdrożeniem pokazują, że w 14% takich przypadków bot anuluje transakcję, bo produkt w żądanym wariancie jest niedostępny. Po zmianie system zaczyna wykrywać biscuit conditionals i proponować alternatywy.

Konkretny przebieg: klient wchodzi na czat, pyta o kask. Bot odpowiada, że żółty M jest na stanie, ale sugeruje też pomarańczowy i zielony w tej samej cenie. Gdy żółtego brakuje, nie zamyka rozmowy – od razu informuje o dostępnych kolorach i pyta o preferencję. Dzięki temu udało się odzyskać 40% wcześniej porzuconych zamówień.

Ile można zyskać? Konkretne liczby

Przy 1 600 wiadomościach warunkowych miesięcznie i wcześniejszym błędzie na poziomie 224 rozmów, redukcja do 2% pomyłek oznacza 192 uniknięte eskalacje. Każda eskalacja pochłania średnio 4 minuty czasu konsultanta – przy stawce 1,20 zł/min to 921 zł oszczędności miesięcznie. Do tego dochodzi przychód z odzyskanych koszyków: zakładając średnią wartość zamówienia 80 zł i 40% konwersji na alternatywę, sklep inkasuje dodatkowe 6 144 zł miesięcznie. Rocznie to ponad 85 tys. zł czystego zysku bez zwiększania budżetu reklamowego.

Poprawia się też wskaźnik NPS – klienci dostają rozwiązanie zamiast komunikatu ‘nie ma’ – oraz spada obciążenie działu obsługi. Wdrożenie reguł i dotrenowanie klasyfikatora zajmuje zespołowi 2-3 dni, nie wymaga wymiany całego bota.

Od czego zacząć

Najszybsza ścieżka: pobrać logi chatbota z ostatnich 30 dni i odfiltrować wiadomości zawierające frazy ‘jeśli … to wezmę/proszę’. Ręcznie ocenić, w ilu z nich bot odpowiedział odmownie z powodu literalnej interpretacji. Jeśli skala jest podobna do opisanej, wdrożyć regułę wykrywającą biscuit conditionals i przez dwa tygodnie testować na 5% ruchu. Pozytywny wynik to impuls, by rozszerzyć mechanizm na pozostałe kanały – Messenger, WhatsApp, aplikację mobilną.

  • Mniej eskalacji do konsultantów – bot nie odrzuca zamówień z powodu braku jednego wariantu
  • Wzrost konwersji o 3-5% przez zamianę ‘nie’ na propozycję
  • Krótszy czas obsługi – klient nie musi powtarzać intencji
  • Łatwe wdrożenie: reguły wykrywania dodaje się do istniejących botów w kilka dni

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Tracing the ongoing emergence of human-like reasoning in Large Language Models

Autorzy: Paolo Morosi, Nikoleta Pantelidou, Fritz G”unther, Elena Pagliarini, Evelina Leivada

Humans effortlessly go beyond literal meanings: If you mow the lawn, I will give you fifty dollars, is typically understood as implying that the speaker will pay only if the lawn is mowed, whereas If you are hungry, there is pizza in the oven implies that pizza is available regardless of the hear…

arXiv: arxiv.org/abs/2605.21299

Czytaj więcej o tej technologii: Dlaczego AI nie rozumie ‘Jeśli jesteś głodny, w piekarniku jest pizza’ – Decontextualization Bias ujawnia lukę w rozumowaniu modeli językowych

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *