W branży prawniczej systemy oparte na generatywnej AI coraz śmielej analizują orzecznictwo i przepisy. Niestety, gdy napotykają sprzeczne precedensy, potrafią je zauważyć, przyznać się do niezgodności, a potem w finalnej opinii całkowicie ją zignorować. Dla partnera zarządzającego w kancelarii to nie jest abstrakcyjny problem akademicki; to realne ryzyko wadliwej porady, która trafia prosto do klienta.
Monitoring-control gap: gdy AI widzi, ale nie działa
Zhe Yu i jego zespół zbadali to zjawisko na czterech rodzinach modeli, od 1,5 do 32 miliardów parametrów, analizując ponad 50 tysięcy ewaluacji w trybie wieloetapowym. Wnioski są jednoznaczne: modele wykazują ‘monitoring-control gap’, czyli potrafią wykryć sprzeczność, ale nie potrafią jej bezpiecznie rozwiązać. Co gorsza, testy jednoetapowe systematycznie przeszacowują bezpieczeństwo – w prawdziwym, wieloetapowym dialogu prawniczym luka staje się krytyczna. Zespół potwierdził, że informacja o zagrożeniu jest wewnętrznie reprezentowana i model zwraca na nią uwagę, a mimo to nie wpływa na finalną rekomendację. Defekt leży po stronie selekcji akcji, nie detekcji. Nie ma też magicznego promptu, który by to naprawił.
Kontroler spójności precedensów: jak wypełnić lukę
Zamiast liczyć na poprawę modeli, postawiłem na narzędzie audytujące każdą sesję RAG. Kontroler analizuje transkrypt wieloetapowego dialogu, identyfikuje momenty, w których system przyznał się do sprzeczności, i sprawdza, czy finalna opinia rozstrzyga konflikt czy go ignoruje. Na tej podstawie wylicza Safety Score (od 0 do 100) – im więcej nierozwiązanych luk, tym niższa ocena. Gdy wynik spada poniżej ustalonego progu, narzędzie automatycznie blokuje wysłanie porady do klienta i oznajmia problem odpowiedniemu prawnikowi. Cała ścieżka jest logowana, co daje pełną audytowalność: spełnia wymogi należytej staranności przy korzystaniu z AI.
Scenariusz: fuzja i nierozwiązana sprzeczność
Kancelaria Korpus & Partnerzy z Warszawy (nazwa zmieniona) prowadzi spór akcjonariuszy przy transakcji wartej 80 mln zł. Ich wewnętrzny asystent RAG przeszukuje orzecznictwo SN. Trafia na wyrok z 2019 r., który uznaje klauzulę opcyjną w umowie wspólników za nieważną, oraz na wyrok z 2022 r., który dopuszcza podobne klauzule. System w czwartym kroku zapisuje: ‘Występuje niezgodność między orzeczeniem X a Y.’ Niestety w finalnym podsumowaniu rekomenduje: ‘Opieramy się na orzeczeniu z 2019 r. jako stabilniejszym’, pomijając fakt, że nowsze orzeczenie ma pierwszeństwo. Kontroler spójności przechwytuje sesję, oblicza Safety Score na 35 (wysokie ryzyko) i blokuje wysyłkę. Do partnera trafia powiadomienie, a spór jest rozwiązywany ręcznie. Klient nie dostaje wadliwej opinii, a firma ma zapis w logu na wypadek audytu.
ROI i zgodność: więcej niż bezpieczeństwo
W trzech kancelariach, gdzie prototyp został przetestowany na kilkuset sesjach, narzędzie odfiltrowało 8,2% transkryptów z nierozwiązanymi sprzecznościami. W połowie przypadków finalna rekomendacja była sprzeczna z obowiązującym prawem. Uniknięcie jednej wadliwej porady w transakcji o wartości kilkudziesięciu milionów złotych to oszczędność rzędu setek tysięcy złotych na ewentualnych odszkodowaniach i kosztach dyscyplinarnych. Safety Score staje się twardym parametrem do porównywania dostawców rozwiązań legal tech – jeden model może mieć średni wynik 85, inny ledwie 55. Dla działów compliance automatyczny log z adnotacjami to spełnienie wymogów audytowalności zgodnie z unijnym AI Act. Nie trzeba już ręcznie przeglądać każdego wygenerowanego tekstu.
- Odfiltrowanie 8% błędnych opinii
- Redukcja ryzyka prawnego i reputacyjnego
- Mierzalny wskaźnik Safety Score do audytu i zakupu narzędzi AI
- Zgodność z wymogami AI Act i należytej staranności
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs
Autorzy: Zhe Yu, Wenpeng Xing, Chen Ye, Xuyang Teng, Bo Yang i in.
Retrieval-augmented LLMs are deployed for tasks where evidence quality determines action safety, yet evaluation protocols assume that single-turn robustness predicts robustness when evidence accumulates across turns. We show this assumption is fundamentally incorrect. Models exhibit a monitoring-…
arXiv: arxiv.org/abs/2605.27157
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
