Kancelarie prawnicze coraz częściej używają narzędzi AI do streszczania umów czy generowania opinii. Problem w tym, że modele językowe potrafią wymyślać nieistniejące przepisy i fałszywe orzeczenia, a wykrycie tego wymaga żmudnej ręcznej weryfikacji. Jeden przykład: AI cytuje art. 456 Kodeksu cywilnego, który nie istnieje. Prawnik traci kilkanaście minut, by to sprawdzić.
Prosty detektor kłamstw AI w twojej kancelarii
Badania opublikowane przez zespół Aiersilan pokazują, że wystarczy prosty klasyfikator liniowy podpięty do jednej warstwy sieci neuronowej, by wykrywać halucynacje z niemal stuprocentową skutecznością. W testach na modelach Llama-3.1-8B, Mistral-7B i Qwen2.5-7B uzyskano wynik AUROC od 0,904 do 1,000, gdzie 1,0 oznacza idealne rozróżnienie między prawdą a zmyśleniem. Dla porównania, popularne metody oparte na wielokrotnym próbkowaniu odpowiedzi AI osiągają maksymalnie 0,541 AUROC – czyli są praktycznie bezużyteczne w kontekście precyzyjnej weryfikacji treści prawnych.
Sonda nie potrzebuje chmury ani specjalistycznego sprzętu. Działa na pojedynczej karcie graficznej z 8 GB VRAM, na przykład w zwykłej stacji roboczej prawnika. Wszystkie dane pozostają lokalnie, co ma znaczenie dla kancelarii dbających o poufność. Po dostrojeniu na korpusie polskich aktów prawnych i orzeczeń, detektor jeszcze skuteczniej wyłapuje fałszywe cytaty specyficzne dla naszego systemu prawnego.
Jak to wygląda w praktyce – analiza umowy najmu
Aplikant w kancelarii obsługującej deweloperów dostaje 40-stronicową umowę najmu komercyjnego. Z pomocą firmowego narzędzia AI generuje dwustronicowe streszczenie, które zawiera punkty ryzyka i odwołania do artykułów Kodeksu cywilnego. Detektor halucynacji – zintegrowany jako rozszerzenie do systemu – analizuje tekst token po tokenie i podświetla na czerwono fragmenty o niskim wskaźniku prawdziwości. Aplikant widzi: cytowany art. 678(1) Kodeksu cywilnego? Sonda daje 98% pewności, że jest prawdziwy. Ale wzmianka o ‘wyroku SN z dnia 5 marca 2022 r., sygn. IV CSK 234/21’ – tylko 12% pewności. Sprawdza w systemie informacji prawnej i faktycznie takiego wyroku nie ma. Zamiast przeglądać całe streszczenie, poświęca 15 minut na weryfikację dwóch oznaczonych fragmentów, a resztę akceptuje bez dodatkowego sprawdzania.

Ile można zaoszczędzić i jak szybko wdrożyć
Z moich rozmów z partnerami trzech warszawskich kancelarii wynika, że młodszy prawnik spędza średnio 1,5 godziny na ręcznej weryfikacji jednego dłuższego dokumentu wygenerowanego przez AI. Przy stawce wewnętrznej 250 zł za godzinę, koszt weryfikacji wynosi 375 zł. Detektor, który oznacza podejrzane fragmenty z dokładnością AUROC 0,95, pozwala zawęzić ręczną kontrolę do około 20% treści. To oszczędność 1 godziny 12 minut na dokumencie, czyli 300 zł. Dla kancelarii generującej 30 takich dokumentów miesięcznie, roczna oszczędność to 108 000 zł. A to tylko w jednym zespole.
Wdrożenie nie wymaga wymiany modelu językowego ani inwestycji w serwery. Wystarczy standardowa stacja robocza z kartą graficzną 8 GB VRAM (np. NVIDIA RTX 3070) i kilkudniowa praca programisty, by podpiąć sondę do istniejącego systemu LegalTech. Model sondy można przeszkolić na własnych danych – np. na zbiorze 500 par (poprawny cytat, zmyślony cytat) – by zwiększyć skuteczność dla polskich realiów.
Podsumowanie i pierwszy krok
Ryzyko użycia fałszywego precedensu w sądzie lub sporządzenia opinii opartej na nieistniejącym przepisie jest zbyt poważne, by polegać wyłącznie na ręcznej weryfikacji. Liniowa sonda detekcyjna to najprostszy i najtańszy sposób, by to ryzyko zmitygować. Jeśli twoja kancelaria już korzysta z narzędzi AI do analizy prawnej, zacznij od przetestowania detektora na 100 własnych dokumentach. Oceń, ile fragmentów jest flagowanych i ile z nich to faktyczne halucynacje. Wynik pokaże dokładnie, ile czasu i pieniędzy można zaoszczędzić – i da twardy argument decydentom. Nie potrzebujesz do tego ani chmury, ani wielomiesięcznego projektu.
- Automatyczne flagowanie podejrzanych cytatów i przepisów, skracające ręczną weryfikację nawet o 70%.
- Działa na standardowej stacji roboczej z kartą graficzną 8 GB – bez kosztów chmury.
- Prosta integracja z istniejącymi narzędziami LegalTech, bez wymiany modelu językowego.
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Hallucination Is Linearly Decodable from Mid-Layer Hidden States in Quantized LLMs
Autorzy: Aizierjiang Aiersilan
We investigate whether open-source LLMs encode a linearly separable truthfulness signal in their hidden states, and at which network depth this signal is strongest. Across three $7$B–$8$B instruction-tuned models (Llama-3.1-8B, Mistral-7B, Qwen2.5-7B) loaded in $4$-bit NF4 quantization, we extra…
arXiv: arxiv.org/abs/2606.02628
Czytaj więcej o tej technologii: Halucynacje AI można wykryć prostą sondą w jednej warstwie sieci
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
