Modele językowe kłamią na potęgę, a my od lat próbujemy je przyłapać. Okazuje się, że w ich wewnętrznych reprezentacjach tkwi wyraźny sygnał – wystarczy jedna warstwa i prosty klasyfikator liniowy, by z niemal stuprocentową skutecznością odróżnić prawdę od halucynacji. I co najlepsze, da się to zrobić na zwykłej karcie graficznej z 8 GB pamięci.
Sygnał prawdy ukryty w środku sieci
Gdy duży model językowy generuje odpowiedź, przechodzi przez dziesiątki warstw transformera. W każdej z nich ukryte są wektory stanu – to wewnętrzna reprezentacja tego, co model ‘myśli’ o przetwarzanym tekście. Badacze od dawna podejrzewali, że gdzieś w tych reprezentacjach kryje się informacja o prawdziwości generowanych treści. Aierajiang Aiersilan zadał pytanie wprost: czy da się tę informację odczytać za pomocą zwykłej regresji logistycznej?
Odpowiedź brzmi: tak. Autor wziął trzy skwantowane modele (Llama 3.1 8B, Mistral 7B, Qwen 2.5 7B) i na czterech różnych testach halucynacji wytrenował sondę liniową – czyli prosty klasyfikator, którego jedynym zadaniem było odróżnienie wygenerowanego tokena prawdziwego od zmyślonego. Sonda dostawała tylko jeden wektor: stan ukryty z pojedynczej, konkretnej warstwy.
Wynik? Sonda liniowa na pojedynczej środkowej warstwie sieci osiąga AUROC od 0,904 do 1,000 na zbiorach testowych, podczas gdy detektory oparte na próbkowaniu nie przekraczają 0,541 w tym samym protokole. (Aiersilan, Abstrakt). Co więcej, sygnał jest niemal idealnie liniowy: sondy MLP rzadko przewyższają sondy liniowe o więcej niż 0,01 AUROC. (Aiersilan, Abstrakt). To znaczy, że prawdomówność jest zapisana w aktywacjach w sposób, który nie wymaga skomplikowanego przetwarzania.
Proste narzędzie bije na głowę złożone metody
Obecnie popularne sposoby wykrywania halucynacji opierają się na wielokrotnym próbkowaniu odpowiedzi i szukaniu niespójności. Metody takie jak INSIDE EigenScore, samozgodność czy entropia uwagi wymagają często kilku przebiegów modelu, co winduje koszt obliczeniowy. W paradygmacie par etykiet, gdzie każdy przykład ma odpowiednik prawdziwy i zafałszowany, te metody wypadły jednak blado – najlepsza z nich osiągnęła zaledwie 0,541 AUROC, podczas gdy sonda liniowa z łatwością przekraczała 0,9.
Autor podkreśla, że słabe wyniki nie przekreślają tych technik. Wynikają one z niedopasowania do konkretnego protokołu oceny, a nie z ich ogólnej bezużyteczności. W praktyce, jeśli zależy nam na szybkim i tanim detektorze, który nie wymaga dodatkowych zapytań do modelu, sonda liniowa wygrywa na starcie.
Sonda liniowa na pojedynczej środkowej warstwie sieci osiąga AUROC od 0,904 do 1,000 na zbiorach testowych, podczas gdy detektory oparte na próbkowaniu nie przekraczają 0,541 w tym samym protokole.
Aiersilan
Abstrakt
Gdzie dokładnie kryje się prawda?
W każdym z przebadanych modeli optymalna warstwa do sondowania wypadała konsekwentnie w środku sieci. Dla Llama i Mistrala były to bloki 13 do 18 z 32, dla Qwena 19 do 25 z 28. To nie przypadek. Środkowe warstwy przetwarzają już sens tekstu, ale nie zdążyły jeszcze wbudować w odpowiedź płynności i uprzejmości, które mogą zaciemniać sygnał prawdomówności.
Zastanawia mnie, czy to zjawisko jest uniwersalne – może każdy model ma swoją ‘warstwę sumienia’ gdzieś pośrodku. Na razie wiemy, że to właśnie tam sygnał jest najmocniejszy i najbardziej stabilny, co czyni poszukiwania optymalnej warstwy zaskakująco powtarzalnymi.
Entropia uwagi – tani dodatek
Dodatkowym odkryciem jest przydatność entropii uwagi z pierwszego bloku transformera. Na zbiorach opartych na wiedzy, jak HaluEval-QA, osiągnęła AUROC od 0,866 do 0,941, nie wymagając żadnych dodatkowych obliczeń poza tym, co i tak mamy przy generowaniu odpowiedzi. Gdy połączyć ją z sondą liniową, można uzyskać jeszcze pewniejszą detekcję.
Szczerze mówiąc, spodziewałem się, że dobre wyniki przyjdą dopiero po zastosowaniu głębokich sieci na wielu warstwach. Tymczasem prosta liniowa sonda bije wszystko na głowę. To trochę tak, jakby problem halucynacji był znacznie prostszy, niż nam się wydawało, przynajmniej od strony wykrywania.
- Sonda liniowa z jednej środkowej warstwy osiąga AUROC od 0,904 do 1,000, wyraźnie przewyższając metody próbkujące (maks. 0,541 AUROC).
- Sygnał prawdomówności jest niemal idealnie liniowy – sondy MLP poprawiają wynik co najwyżej o 0,01 AUROC.
- Optymalne warstwy do sondowania leżą zawsze w środku sieci (dla Llama i Mistrala bloki 13 do 18 z 32, dla Qwena 19 do 25 z 28).
- Entropia uwagi z pierwszego bloku daje niezależny, silny sygnał na zadaniach opartych na wiedzy (AUROC 0,866 do 0,941).
- Całość można odtworzyć na pojedynczej karcie graficznej z 8 GB VRAM, co czyni metodę praktyczną do wdrożenia.
Praktyczne zastosowania
Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:
Podsumowanie
Wykrywanie halucynacji w czasie rzeczywistym może stać się standardowym elementem systemów chatbotowych w obsłudze klienta, w aplikacjach prawniczych analizujących dokumenty oraz w medycznych doradcach AI, gdzie błędna informacja niesie realne ryzyko. Dzięki niskim wymaganiom sprzętowym, małe firmy mogą zintegrować tę metodę ze swoimi rozwiązaniami bez inwestycji w kosztowną infrastrukturę.
Metryka artykułu źródłowego
Tytuł oryginalny: Hallucination Is Linearly Decodable from Mid-Layer Hidden States in Quantized LLMs
Autorzy: Aizierjiang Aiersilan
Data publikacji: 3 czerwca 2026
arXiv: arxiv.org/abs/2606.02628
Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.
