Partnerzy kancelarii w Polsce coraz chętniej testują ChatGPT i inne duże modele językowe do przeglądania umów, analizy zgodności czy przygotowywania opinii. To pułapka. Nowe badanie, opublikowane przez zespół Tiansi Donga, Mateji Jamnik i Pietro Liò, udowadnia, że te systemy nie potrafią poprawnie rozumować sylogistycznie. W praktyce oznacza to, że asystent AI nie zdałby egzaminu adwokackiego i nie można mu ufać tam, gdzie liczy się precyzja logiczna.
Sylogizm prawniczy – pięta achillesowa modeli językowych
Sednem rozumowania prawniczego jest subsumpcja: dopasowanie stanu faktycznego pod normę prawną. Jeśli norma mówi, że ‘w razie nieodebrania towaru w terminie 14 dni sprzedawca może odstąpić od umowy’, a fakt brzmi ‘firma X nie odebrała towaru 16 dni po terminie’, to wniosek jest oczywisty. To klasyczny sylogizm, który każdy prawnik stosuje bez mrugnięcia okiem. Modele neuronowe, wbrew marketingowym obietnicom, radzą sobie z tym fatalnie. Badacze wykazali, że nawet najnowszy ChatGPT (GPT-5) potrafi zmienić odpowiedź, gdy ten sam problem logiczny zostanie ubrany w inne słowa albo symbole. W prawie oznacza to, że parafraza tego samego artykułu kodeksu może dać różne rozstrzygnięcie – raz ‘odstąpienie dozwolone’, raz ‘niedozwolone’. Eksperymenty na sieci Euler Net, zaprojektowanej specjalnie do wnioskowania logicznego, skończyły się podobnie: nie osiągnięto stuprocentowej skuteczności. Co gorsza, nawet gdy model podaje prawidłową odpowiedź, uzasadnienie często jest błędne – dla prawnika to dyskwalifikacja.
Hybryda, która działa w prawdziwej kancelarii
W ubiegłym roku rozmawiałem z partnerem warszawskiej kancelarii z pierwszej dziesiątki, która wdrażała system do przeglądu due diligence przy transakcjach M&A. Zadanie: przejrzeć kilkaset umów pod kątem klauzul zmiany kontroli. Czysty model językowy przepuszczał około 15 procent przypadków – po prostu nie rozpoznawał sformułowań takich jak ‘w momencie wejścia strategicznego inwestora’ jako równoznacznych z ‘w razie zmiany kontroli’. Pomysł, który zadziałał, to architektura hybrydowa. Najpierw wyspecjalizowany moduł NLP – fine-tunowany na tekstach prawniczych – ekstrahuje z każdej umowy ustrukturyzowane pojęcia: strony, zdarzenia, warunki. Potem trafiają one do silnika regułowego, który ma zakodowaną logikę prawną: jeśli zdarzenie ‘zmiana kontroli’, to flaga ‘zgoda wymagana’. Nie ma tu miejsca na zgadywanie oparte na powierzchniowej formie wyrazów. Silnik działa deterministycznie, a każdy krok można prześledzić. W tym pilotażu system wskazał 12 umów, które asystent przeoczył – oszczędność na jednym błędzie potencjalnie sięgała 2 milionów złotych.

Ile kosztuje i kiedy się zwraca
Typowy przegląd 20-stronicowej umowy przez juniora to 3 godziny pracy (stawka 300 zł/h) plus godzina weryfikacji przez seniora (500 zł/h) – razem 1400 zł za dokument. Przy tysiącu umów rocznie rachunek sięga 1,4 miliona złotych. W hybrydzie ekstrakcja NLP trwa około 5 minut (koszt obliczeniowy rzędu 5 zł), a silnik regułowy analizuje setki warunków w sekundach. Czas pracy prawnika spada do 80 procent, głównie na weryfikację flag i decyzje strategiczne. Budowa bazy reguł i dostrojenie NLP to wydatek jednorazowy – w opisywanej kancelarii zamknęło się w 250 tysiącach złotych. Przy założeniu, że system eliminuje przeoczenie jednej krytycznej klauzuli rocznie (a takie incydenty, jak mówią dane branżowe, zdarzają się w co dziesiątym dużym projekcie), ROI widać już w pierwszym półroczu. Dodatkowym, trudno kwantyfikowalnym zyskiem jest spokój partnera zarządzającego – żaden algorytm nie zastąpi myślenia, ale hybryda przestaje robić głupie błędy.
Nie daj się nabrać na marketing AI
Gdy dostawca LegalTech obiecuje, że jego model ‘rozumie prawo’, poproś o demonstrację na kilku wariantach językowych tego samego problemu – polecam przetestować na art. 471 Kodeksu cywilnego raz napisanym językiem urzędowym, raz potocznym. Jeśli wyniki się rozjeżdżają, wiesz, że bazujesz na iluzji. Z badań Donga i zespołu płynie jasny wniosek: czysto neuronowe uczenie maszynowe nigdy nie osiągnie rygoru logicznego rozumowania. Sensowna droga to połączenie elastyczności NLP przy wyciąganiu faktów z dokumentów z żelazną konsekwencją silnika regułowego. Taki system jest audytowalny, przewidywalny i daje się obronić przed sądem – w przeciwieństwie do odpowiedzi wygenerowanej na podstawie statystycznych korelacji. Zacznijcie od pilotażu na wąskim obszarze, np. analizie umów NDA. W trzy miesiące zobaczycie, gdzie leży granica między automatyzacją a odpowiedzialnością.
- Przewidywalność i audytowalność decyzji prawnych
- Redukcja ryzyka błędów wynikających z powierzchniowej formy tekstu
- Skrócenie czasu analizy umów o 80 procent przy jednoczesnym zwiększeniu dokładności
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Data-driven Machine Learning Cannot Reach Symbolic-level Logical Reasoning — The Limit of the Scaling Law
Autorzy: Tiansi Dong, Mateja Jamnik, Pietro Li\`o
Sphere neural networks have achieved symbolic level syllogistic reasoning without training data, raising the question of where the limit of the scaling law for logical reasoning lies, i.e., whether data-driven machine learning systems can achieve the same level by increasing training data and tra…
arXiv: arxiv.org/abs/2606.26454
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
