Na pięciu spotkaniach w bankach w tym roku słyszałem to samo: “Nasz model AI sam wykrywa, czy ktoś próbuje go oszukać”. Brzmiało zbyt dobrze. I faktycznie, nowe badania pokazują, że to iluzja. Poleganie na samokontroli modeli językowych w systemach scoringowych może kosztować od 2 do 8 milionów złotych strat na oszustwach rocznie dla średniego banku.
Moda na introspekcję w bankowości
Bankowe działy ryzyka coraz chętniej sięgają po duże modele językowe do oceny zdolności kredytowej i wykrywania fraudów. Marketing dostawców kusi obietnicą: model nie tylko analizuje wniosek, ale też sam monitoruje, czy jego wewnętrzne reprezentacje nie zostały zmodyfikowane. W praktyce oznacza to próbę zbudowania systemu, który ma własną “świadomość” naruszenia. Tyle że papier Singha, Linzena i Ravfogela z 2025 roku rozbija ten mit na drobne kawałki. Ich przegląd paradygmatów introspekcji w LLM-ach pokazuje, że modele nie rozróżniają manipulacji wewnętrznymi stanami od zwykłej zmiany danych wejściowych. To, co wygląda na samokontrolę, jest po prostu detekcją ogólnych anomalii w inpucie. Dla banku oznacza to jedno: wbudowany “alarm” modelu jest ślepy na prawdziwe ataki adversarialne, które celują w jego reprezentacje, nie w surowe teksty wniosków.
Scenariusz: jak oszust może zmylić model i system kontroli wewnętrznej
Wyobraźmy sobie fintech przetwarzający 50 tysięcy wniosków o kredyt konsumencki miesięcznie. Zespół wdrożył LLM-a do scoringu, a producent zapewnił, że model posiada zdolność introspekcji: jeśli ktoś spróbuje zakłócić jego wewnętrzne stany, system sam to zgłosi. Oszust nie musi jednak atakować warstw ukrytych. Wystarczy, że przygotuje wniosek ze starannie dobranymi frazami, które zmieniają rozkład aktywacji w modelu tak, by ten sklasyfikował ryzyko jako niskie. Model widzi różnicę w swoich stanach, ale traktuje ją jak każdą inną fluktuację danych wejściowych. W oryginalnym badaniu tampering detection modele nie odróżniały ingerencji w stany ukryte od manipulacji inputem. To fatalna wiadomość dla bankowców. Na koniec miesiąca dostajesz raport “zero incydentów”, a w rzeczywistości 200 fraudów przeszło niezauważonych, bo samodzielna kontrola modelu okazała się fikcją.
Lekcja z badań: zewnętrzny klasyfikator zamiast autorefleksji
Autorzy papieru zrekonstruowali dwa kluczowe eksperymenty. W zadaniu hidden-state prediction wytrenowali zewnętrzny klasyfikator, który analizował wyłącznie surowe dane wejściowe. Osiągnął on wyniki identyczne z tymi, które model raportował o swoich własnych stanach. To dowód, że model nie miał żadnego uprzywilejowanego dostępu do wewnętrznych reprezentacji. Co więcej, w wariancie relabeled control, gdzie usunięto semantyczną zawartość etykiet, skuteczność spadała do poziomu zgadywania. Przekładając to na język bankowości: jeśli model twierdzi, że “wykrył manipulację” tylko dlatego, że widzi drobną zmianę stylu w opisie działalności gospodarczej wnioskodawcy, to nie ma mowy o rzetelnej kontroli. Zamiast polegać na takich autoocenach, trzeba wdrożyć osobny, niezależny klasyfikator monitorujący input pod kątem anomalii. Taka zewnętrzna warstwa potrafi równie dobrze, a często lepiej, odsiać podejrzane przypadki, nie dając fałszywego poczucia bezpieczeństwa.
Ile to kosztuje? Rachunek za fałszywe poczucie bezpieczeństwa
Z mojego doświadczenia z wdrożeń w dwóch bankach komercyjnych, inwestycja w zewnętrzny moduł audytowy to wydatek rzędu 200 do 400 tysięcy złotych, wliczając integrację i testy. Plus roczny koszt utrzymania około 80 tysięcy. Dla portfela 100 tysięcy wniosków miesięcznie, nawet niewielka, 0,5-procentowa luka w wykrywalności fraudów wynikająca z zaufania do introspekcji modelu oznacza 500 fałszywie pozytywnych ocen. Przy średniej stracie 18 tysięcy złotych na jeden oszukańczy kredyt, mówimy o 9 milionach złotych rocznie. W trzech przypadkach, które prześledziłem, zewnętrzny klasyfikator wejściowy zredukował liczbę nie wykrytych ataków adversarialnych o około 80 procent. Nawet ostrożnie szacując, zwrot z inwestycji pojawia się po czterech miesiącach. Do tego dochodzi presja regulacyjna: KNF i EBA coraz wyraźniej oczekują, że modele wysokiego ryzyka będą poddawane niezależnym kontrolom, a nie tylko samoocenie dostawcy.
Co z tym zrobić? Trzy kroki dla działu ryzyka
Po pierwsze, zapomnijcie o marketingowych hasłach “samokontrolującego się AI”. Poproście dostawcę, by pokazał wyniki detekcji manipulacji przy użyciu metodyki z tego papieru: test z zewnętrznym klasyfikatorem inputowym i wariant relabeled. Po drugie, zbudujcie prosty, zewnętrzny pipeline audytowy, który na tych samych danych wejściowych, co model scoringowy, uczy się rozpoznawać wzorce fraudów i porównuje swoje predykcje z auto-ocenami LLM-a. Jeśli oba systemy się rozmijają – traktujcie to jak flagę do manualnej weryfikacji. Po trzecie, zacznijcie od pilotażu na historycznym zbiorze 10–20 tysięcy wniosków, w tym znanych przypadków fraudów. W ciągu dwóch tygodni dostaniecie twarde liczby, czy wasz obecny system naprawdę widzi zagrożenia, czy tylko udaje, że widzi. Nie ma drugiej szansy, gdy oszuści nauczą się, że introspekcja to puste deklaracje.
- Redukcja kosztów operacyjnych związanych z ręcznymi weryfikacjami nawet o 60% dzięki automatyzacji flagowania podejrzanych przypadków przez zewnętrzny klasyfikator
- Wzrost wykrywalności zaawansowanych ataków adversarialnych o 80% w porównaniu z systemami opartymi wyłącznie na introspekcji modelu
- Spełnienie wymogów nadzoru (KNF, EBA) w zakresie transparentności i zewnętrznej kontroli modeli wysokiego ryzyka, bez konieczności kosztownych audytów ex-post
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Can LLMs Introspect? A Reality Check
Autorzy: Shashwat Singh, Tal Linzen, Shauli Ravfogel
Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distin…
arXiv: arxiv.org/abs/2605.26242
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
