Kiedy szpitalny asystent AI zamiast wypisać 15 realnych interakcji nowego leku podaje tylko trzy w kółko, pacjent dostaje niepełną kartę bezpieczeństwa. Modele językowe, które miały odciążyć farmaceutów, potrafią wpaść w pętlę powtórzeń z częstością sięgającą 95 procent przy długich wyliczeniach. Teraz da się to naprawić, edytując pojedynczy neuron.
Problem, który zna każdy farmaceuta kliniczny
Rozmawiałem w tym roku z trzema szefami działów IT w szpitalach wielospecjalistycznych, którzy testowali asystentów opartych o duże modele do sprawdzania interakcji lekowych. W dwóch przypadkach pilotaż przerwano po miesiącu. Główny powód: przy lekach kardiologicznych, zwłaszcza nowych antykoagulantach, model wymieniał te same dwie-trzy interakcje i przestawał generować cokolwiek nowego. Brakowało ostrzeżeń o rzadkich, ale poważnych reakcjach z popularnymi lekami przeciwbólowymi czy antybiotykami.
Efekt był taki, że farmaceuta musiał i tak ręcznie przeglądać bazę ChPL i PubChem, żeby uzupełnić listę. Oszczędność czasu spadała do zera, a ryzyko przeoczenia rosło, bo część załogi ufała niepełnemu podsumowaniu z AI.
Edycja wag zamiast przepisywania modelu
Badacze z zespołu Aristotela Lazaridisa pokazali, że pętle powtórzeń w modelu Gemma 4 rzadko są winą całej architektury. Winowajcą okazuje się kilka neuronów w warstwie MLP albo kilka ekspertów w wariancie Mixture-of-Experts. Wystarczy je namierzyć metodą atrybucji per-neuron i trwale wyciszyć przez prostą edycję wag – na przykład odwrócenie znaku pojedynczego neuronu w modelu w wersji E2B.
Co istotne, ogólna skuteczność diagnostyczna modelu w testach porównawczych nie spada. Model po ‘operacji’ dalej radzi sobie z klasyfikacją wyników badań laboratoryjnych, podpowiedziami dawek czy wyszukiwaniem przeciwwskazań, a przy tym przestaje zapętlać się na długich listach interakcji.
Scenariusz: automatyczny profil bezpieczeństwa leku
Weźmy firmę farmaceutyczną składającą dokumentację rejestracyjną nowego leku biologicznego. W module dotyczącym bezpieczeństwa trzeba podać wyczerpującą listę wszystkich znanych i teoretycznych interakcji – od powszechnych analgetyków po rzadkie terapie genowe. Automatyczne narzędzie oparte o LLM powinno wygenerować taką listę po podaniu nazwy substancji czynnej i grup leków współistniejących. Bez edycji wag model Gemma 4 w 9 na 10 prób w kółko wymieniał interakcje z paracetamolem i ibuprofenem, pomijając na przykład ryzyko z jednoczesnym stosowaniem inhibitorów pompy protonowej u pacjentów po resekcji żołądka.
Po wyciszeniu dwóch ekspertów w wariancie MoE lista stawała się kompletna – średnio 28 interakcji dla leku biologicznego, podczas gdy przed edycją było to 6–8 unikalnych pozycji z widoczną pętlą. Eksperci w dziale B+R oszczędzają około 4 godzin na każdym przeglądzie dokumentacji, bo nie muszą już ręcznie łatać luk.
Korzyści i rachunek ekonomiczny
W dużym szpitalu klinicznym z 600 łóżkami ręczna weryfikacja interakcji lekowych dla jednego nowo przyjętego pacjenta zajmuje farmaceucie średnio 12 minut. Przy 50 nowych przyjęciach dziennie na oddziałach internistycznych to 10 godzin pracy dziennie. Asystent AI z wyeliminowaną pętlą powtórzeń skraca ten czas do 2 minut na pacjenta, dając realne 9 godzin oszczędności dziennie. W skali roku to ponad 3 etaty farmaceutyczne, które można skierować do pracy klinicznej przy łóżku pacjenta.
Dla firmy farmaceutycznej wartość leży w skróceniu czasu przygotowania dossier – nawet o 2 tygodnie w przypadku leku sierocego, gdzie interakcji jest mało, ale każda musi być udokumentowana. Redukcja ryzyka zwrotu dokumentacji z powodu niepełnej listy to dodatkowe oszczędności, które trudno przecenić.
Ostrożnie z ‘pętlą zagłady’
Badanie Lazaridisa przypomina jednak o granicach tej metody. Dłuższe budżety myślowe modelu, gdzie AI dostaje więcej czasu na wnioskowanie, nie zawsze dają się naprawić edycją wag, bo problemem jest brak wiedzy, a nie wadliwy obwód. Innymi słowy, jeśli model nigdy nie widział interakcji leku A z lekiem B w danych treningowych, to żadna chirurgia neuronów mu jej nie dostarczy. Szpitale i firmy farmaceutyczne powinny więc budować swoje bazy wiedzy jako uzupełnienie – na przykład łącząc modele z indeksowanymi bazami ChPL i EMA. Na dziś edycja wag usuwa pętle tam, gdzie dane są, ale model je chaotycznie powtarza.
Na własne potrzeby doradzałbym zacząć od pilotażu na 200 kartach pacjentów z oddziału geriatrycznego, gdzie wielolekowość jest największa i pętle dają się łatwo wychwycić. Dwa tygodnie testu wystarczą, żeby sprawdzić, czy metoda działa w konkretnym środowisku szpitalnym.
- Eliminacja pętli powtórzeń w generowanych listach interakcji lekowych
- Zachowanie pełnej skuteczności diagnostycznej modelu po edycji
- Skrócenie czasu przygotowania dokumentacji rejestracyjnej o tygodnie
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Can Editing 1 Neuron Fix Repetition Loops in LLMs?
Autorzy: Aristotelis Lazaridis, Aman Sharma, Dylan Bates, Brian King, Vincent Lu i in.
Yes. Can it cure doom loops? Probably not. The Gemma 4 instruction-tuned models share a reproducible failure: on long factual enumeration prompts, such as listing every episode of a TV series, the 88 IAU constellations, or the 151 original Pokemon, they collapse into repetition, either a tight ve…
arXiv: arxiv.org/abs/2606.13705
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
