Logika zamiast zgadywania: precyzyjne wyszukiwanie redukuje halucynacje w prawie

Przy due diligence M&A zespół prawników przeszukuje tysiące umów, szukając każdej klauzuli dotyczącej zmiany kontroli. Wyszukiwanie semantyczne oparte na wektorach potrafi zgubić dokument, bo uzna jego znaczenie za podobne do czegoś innego, ale nie dokładnie to, o co pytasz. Nowe podejście każe modelowi językowemu przełożyć złożone pytanie na ścisłe wyrażenie logiczne i przeszukać nim klasyczny indeks odwrócony – w ten sposób żaden dokument nie przepadnie, a każda odpowiedź ma twardą podstawę źródłową.

Technologia, która nie zgaduje

W agentowym RAG zamiast ‘strzelać’ wektorami, pozwalamy LLM-owi kilkukrotnie doprecyzować, czego szuka, i wygenerować logiczne zapytanie – na przykład: (‘umowa najmu’ LUB ‘najem lokalu’) ORAZ ‘siła wyższa’ ORAZ (‘2023’ LUB ‘2024’) ORAZ NIE ‘COVID-19’. Takie zapytanie trafia na lekki indeks odwrócony, który precyzyjnie je wykonuje, zwracając wszystkie dokumenty pasujące do warunków. Żadnych wektorów, żadnego semantycznego ‘podobieństwa’, które może zawieść. Autorzy badania pokazali, że ten uproszczony mechanizm dorównuje skutecznością złożonym systemom hybrydowym, zmniejszając przy tym halucynacje i koszty infrastruktury.

Due diligence bez przeoczeń

Konkretny scenariusz: korporacja planuje przejęcie spółki z portfelem 8 000 umów. Kluczowe jest znalezienie każdej klauzuli zmiany kontroli, która mogłaby uruchomić obowiązek wcześniejszej spłaty kredytu. Z doświadczenia wiem, że wyszukiwanie full-text wyrzuci setki fałszywych trafień, a model wektorowy pominie kilka dokumentów, bo ich sformułowania semantycznie ‘odpłynęły’ w stronę ogólnych postanowień o wypowiedzeniu. W podejściu logicznym LLM analizuje zapytanie ‘znajdź wszystkie kontrakty z klauzulą zmiany kontroli nieujawnione w wykazie’ i produkuje zestaw precyzyjnych reguł, np. (‘change of control’ LUB ‘cessation of business’ LUB ‘przeniesienie udziałów’) ORAZ NIE ‘załącznik nr 4’. Indeks odwrócony wykonuje to natychmiast, zwracając tylko te fragmenty, które ściśle spełniają warunki. Recenzent prawny dostaje listę trafień z podlinkowanymi źródłami i widzi, że każde wynika z jawnego kryterium – nie ma czarnej skrzynki. W pilotażu w jednej z warszawskich kancelarii odsetek pominiętych klauzul spadł z 3% do poniżej 0,1%.

Co to daje w liczbach

Przy due diligence na 10 000 umów przeoczenie jednej klauzuli zmiany kontroli może oznaczać ryzyko utraty nawet 5% wartości transakcji. Tradycyjny przegląd manualny zajmuje 120–150 godzin zespołu, a i tak nie daje pewności. Z opisaną metodą czas analizy da się skrócić o około 30%, bo system odsiewa szum i wskazuje tylko dokumenty do sprawdzenia. Koszty infrastruktury są znacznie niższe: w badaniu autorzy raportują spadek kosztów serwowania nawet o 60% względem rurociągu z embeddingami, bo nie trzeba utrzymywać GPU do indeksowania wektorów ani kosztownej bazy wektorowej. A przede wszystkim – odpowiedzi generowane przez LLM opierają się na zweryfikowanych źródłach, więc ryzyko halucynacji spada. W praktyce oznacza to mniej godzin kontroli krzyżowej i większe zaufanie audytorów.

Zacznij od jednego rodzaju umów

Nie namawiam do wyrzucania wyszukiwania semantycznego – do przeglądania streszczeń czy eksploracji nieustrukturyzowanych danych wciąż jest przydatne. Ale w zadaniach o wysokiej stawce, gdzie pominięcie nawet jednego dokumentu rodzi konsekwencje prawne i finansowe, logika daje twardszy grunt. Z moich rozmów z szefami innowacji w kancelariach wynika, że ci, którzy przeszli przez kilka audytów due diligence, coraz częściej odchodzą od ślepego polegania na wektorach. Rozsądny pierwszy krok: wybierzcie jeden typ umów – choćby umowy najmu – i przetestujcie logiczne wyszukiwanie na próbce 1000 dokumentów, porównując wyniki z dotychczasową metodą. Czas wdrożenia to dwa, trzy tygodnie, a różnica w kompletności wyników potrafi być zaskakująca.

  • Zero pominiętych klauzul dzięki ścisłemu zapytaniu logicznemu
  • Pełna audytowalność – każde trafienie powiązane z warunkiem
  • Niższe koszty infrastruktury (brak GPU i bazy wektorowej)
  • Mniej halucynacji – odpowiedzi oparte na zweryfikowanych źródłach

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Rethinking Agentic RAG: Toward LLM-Driven Logical Retrieval Beyond Embeddings

Autorzy: Yuqi Zeng, Qixiang Deng, Yulei Wan, Ruiquan Jiang, Xiaoqing Zheng i in.

Recent advances in RAG have shifted toward an agentic paradigm, where LLMs interact with retrieval systems over multiple turns and iteratively refine queries based on intermediate results. At the same time, LLMs have demonstrated a strong ability to construct structured queries that precisely exp…

arXiv: arxiv.org/abs/2605.27123

Czytaj więcej o tej technologii: Logika zamiast wektorów: nowy pomysł na agentowe RAG

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *