Długa umowa inwestycyjna, analiza compliance czy regulamin po negocjacjach – prawnicy wiedzą, że jedno zdanie zmienione przez drugą stronę potrafi zepsuć cały dokument. Dotychczasowe narzędzia AI pomagały tylko częściowo, bo przy generowaniu setek stron zwalniały i nie radziły sobie z edycją. Artykuł pokazuje konkretną technikę, która to zmienia: komponowalną pamięć modeli językowych, która raz przeliczone klauzule prawne traktuje jak klocki i pozwala składać je w dowolne umowy w locie.
Dlaczego obecne AI męczy się przy długich dokumentach
Większość modeli językowych działa szybko przy krótkich zapytaniach, ale gdy trzeba wygenerować kontrakt na 150 stron, czas przetwarzania rośnie w sposób kwadratowy – dwukrotnie dłuższy dokument to czterokrotnie dłuższe oczekiwanie na pierwszy token. Dla zespołu to oznacza, że wygenerowanie umowy złożonej z 50 standardowych klauzul i kilku analiz ryzyka zajmuje kilkadziesiąt minut, a każda poprawka wymaga puszczenia wszystkiego od nowa. W praktyce kancelarie rezygnowały z pełnej automatyzacji i wracały do ręcznego składania w Wordzie, bo było szybciej.
Notatki modelu – klucz do komponowalności
Nowe podejście opiera się na odkryciu opisanym w pracy Bojie Li i zespołu. Gdy model przetwarza nawet krótki blok, np. klauzulę RODO, podczas fazy prefillu zapisuje w swojej pamięci podręcznej (KV cache) ‘notatki’ z wyciągniętymi wnioskami. Co ciekawe, oryginalne słowa klauzuli mają mniej niż 1 procent wpływu na końcową decyzję – liczą się te notatki zapisane na dalszych pozycjach. Dzięki temu raz obliczony blok można zapisać, a potem wkleić w dowolny kontekst z przesunięciem pozycyjnym (tzw. RoPE). Model traktuje go jak naturalną część nowej umowy, a jakość decyzji jest prawie identyczna z pełnym przeliczeniem – cosinus podobieństwa logitów wynosi 0,99. Złożoność czasowa spada do O(L) zamiast O(L^2).
Scenariusz: umowa inwestycyjna w 10 minut, a potem edycja w sekundy
Weźmy kancelarię obsługującą transakcje M&A. Przygotowuje umowę inwestycyjną na 120 stron, składającą się z 60 powtarzalnych bloków: definicje, klauzule RODO, analiza ryzyka podatkowego, klauzula siły wyższej itp. Zamiast wysyłać cały dokument do modelu i czekać 45 minut, system korzysta z biblioteki prekompilowanych KV cache. Wstawia bloki w odpowiedniej kolejności, dodaje krótki wstęp i specyficzne dane transakcji – całość generuje się w 8–12 minut. Kiedy po negocjacjach druga strona żąda zmiany definicji ‘siły wyższej’, nie trzeba wszystkiego liczyć od zera. Do istniejącego cache’u dołączane jest erratum z łańcuchem myślowym (CoT) – model ‘przemyśla’ sobie tę poprawkę i aktualizuje całą umowę w ciągu kilku sekund. Dla prawnika to tak, jakby edytował jeden paragraf, a reszta dokumentu sama się dostosowywała.
Korzyści i szacunkowy zwrot
Według testów z biblioteką vLLM, metoda utrzymuje 98,5 procent trafień w pamięci podręcznej i skraca czas do pierwszego tokena o 53–398 razy dla percentyla 90. Dla kancelarii średniej wielkości, która miesięcznie generuje 15–20 takich skomplikowanych umów, oszczędność czasu prawników sięga 10–12 godzin na umowę. Przy stawce 250 zł za godzinę daje to oszczędność rzędu 45–60 tysięcy złotych miesięcznie. Dodatkowo niższe zużycie mocy obliczeniowej zmniejsza rachunki za usługi chmurowe lub serwery lokalne. Wdrożenie nie wymaga wymiany dotychczasowych systemów – można je podpiąć pod istniejące API modeli językowych i stopniowo budować bibliotekę bloków.
Od czego zacząć
Najlepiej wybrać jeden rodzaj dokumentu, na przykład umowę NDA lub prostą umowę najmu. Zidentyfikować 4–6 powtarzalnych bloków, raz je przeliczyć i zapisać. Potem sprawdzić, ile czasu oszczędza się na 10 kolejnych umowach. Dopiero po takim pilotażu rozwijać bibliotekę o bardziej złożone analizy. To nie jest narzędzie, które zastępuje prawnika, ale zdejmuje z niego żmudne składanie i pozwala skupić się na negocjacjach i strategii.
- Oszczednosc czasu: umowa w minuty zamiast godzin
- Nizsze koszty obliczeniowe – mniej zuzycia energii i sprzetu
- Elastyczna edycja po negocjacjach bez generowania od nowa
- Spojnosc dokumentow dzieki jednolitym prekompilowanym blokom
- Szybkie wdrozenie i skalowanie w duzych kancelariach
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Models Take Notes at Prefill: KV Cache Can Be Editable and Composable
Autorzy: Bojie Li
Prefix caching reuses prefill only across an exactly shared prefix, so one changed field invalidates the entire downstream cache. Yet overwriting the field’s own key/value vectors and reusing the rest leaves the model acting on the old value. The reason, established causally across four model fam…
arXiv: arxiv.org/abs/2606.17107
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
