Jak usunąć pętlę powtórzeń z modelu Gemma 4? Wystarczy edytować jeden neuron

Poprosiliśmy Gemmę 4 o listę polskich noblistów – na 30 prób model 28 razy bez końca wypisywał tylko Wisławę Szymborskę. Badacze z Google znaleźli winowajcę: to pojedyncze neurony. Aby na stałe wyeliminować ten błąd, wystarczyło w niektórych przypadkach odwrócić znak jednego z nich.

Gdy model wpada w pętlę

Repetition loop, czyli pętla powtórzeń, to frustrujący tryb awarii dużych modeli językowych. Zamiast wygenerować zróżnicowaną listę faktów, model powtarza tę samą frazę lub odpowiedź w kółko. W testach na modelach Gemma 4 (zarówno w wersji 12B, jak i 26B-A4B MoE) przy zadaniach wymagających długiego wyliczania faktów – na przykład ‘wymień jak najwięcej gatunków ssaków’ – pętla pojawiała się nawet w 95 procentach przypadków. I to nie był problem z próbkowaniem: zmiana parametrów generowania, przeformułowanie promptu czy nawet zmiana silnika inferencyjnego nie pomagały.

Winne okazały się wewnętrzne mechanizmy modelu. Pętla nie wynika z nieprawidłowego dekodowania, tylko z tego, że w pewnym momencie model ‘zapomina’, że ma przejść dalej, i utyka w kole. Ale dlaczego akurat ten konkretny neuron sprawia, że model powtarza się jak zacięta płyta?

Polowanie na winne neurony

Naukowcy zastosowali dwie techniki: ablację warstwa po warstwie oraz atrybucję na poziomie neuronów. Ablacja polega na tymczasowym wygaszaniu całych warstw, aby sprawdzić, która z nich odpowiada za błąd. Atrybucja idzie głębiej: każe neuronowi, że był za dany fragment wygenerowanego tekstu. Okazało się, że za pętlę odpowiada bardzo mały zbiór neuronów MLP (w modelu 26B-A4B – kilka rutowanych ekspertów w architekturze mixture-of-experts).

W artykule czytamy: ‘Pętli można doszukać się w małym zbiorze neuronów MLP (a w modelu typu MoE 26B-A4B – w kilku rutowanych ekspertach), które tłumimy za pomocą statycznych edycji wag’. Mówiąc prosto: zamiast szukać igły w stogu siana, badacze znaleźli pojedynczy neuron odpowiedzialny za awarię.

Tak. Czy potrafi wyleczyć pętle zagłady? Prawdopodobnie nie.

Aristotelis Lazaridis et al.

Abstract

Zabieg chirurgiczny na wagach

Znalezienie winowajcy to dopiero połowa sukcesu. Drugą połową była interwencja – i to możliwie najmniej inwazyjna. Nie wystarczyło wyłączyć neuronu w trakcie działania, bo to rozwiązanie tymczasowe i zależne od implementacji. Zamiast tego dokonano statycznej edycji wag: na stałe zmodyfikowano wagi wejściowe lub wyjściowe neuronu, tak aby stłumić jego wpływ. W najbardziej spektakularnym przypadku, dla modelu E2B, wystarczyło odwrócić znak jednego neuronu, by pętla zniknęła na wszystkich testach.

‘Chirurgia wagowa potrafi usunąć pętlę, ale nie dostarczy brakującego faktu’ – podsumowują autorzy. Co ważne, edycja nie zaszkodziła ogólnej sprawności modelu: wyniki na standardowych benchmarkach pozostały bez zmian. ‘Tak. Czy potrafi wyleczyć pętle zagłady? Prawdopodobnie nie’ – przyznają badacze, robiąc celne rozróżnienie.

Schemat procesu identyfikacji i usuwania pętli powtórzeń za pomocą chirurgii wagowej.

Granice naprawy: dlaczego ‘doom loop’ pozostaje

W artykule pojawia się pojęcie doom loop – pętli beznadziejności. To coś innego niż zwykła pętla powtórzeń. Doom loop występuje przy długim ‘budżecie myślenia’ (extended thinking), gdy model próbuje wydedukować fakt, którego nie zna, i kręci się w koło, poprawiając sam siebie, by w końcu nie podjąć żadnej decyzji. Nasz edytowany neuron tego nie naprawi. Dlaczego? Bo to nie jest problem nadaktywnego neuronu, tylko braku wiedzy.

Lazaridis i współautorzy piszą wprost: edycja wagowa usuwa mechaniczny błąd generowania, ale nie jest w stanie dodać faktów. Jeżeli model nie wie, ile jest gatunków ssaków, to nawet najdłuższe myślenie tego nie zmieni – model i tak utknie. To ważna lekcja: chirurgia wagowa to narzędzie do usuwania konkretnych usterek, a nie do podnoszenia kompetencji merytorycznych.

Co to oznacza dla przyszłości modeli?

Koncepcja precyzyjnych poprawek wagowych przypomina aktualizację oprogramowania: nie wymagasz od użytkownika ponownego pobierania całego systemu, tylko łatasz konkretny błąd. Dla firm wdrażających modele w produkcji – na przykład w systemach generujących raporty, odpowiadających na pytania klientów czy budujących bazy wiedzy – możliwość trwałego usunięcia irytującej pętli bez ponoszenia kosztów pełnego fine-tuningu jest kusząca. Małe edycje można rozprowadzać jako poprawki wagowe, a pełne retrenowanie zostawić na poważniejsze zmiany.

Zastanawiam się tylko, jak bardzo ufamy pojedynczej ‘operacji’. Odwrócenie znaku neuronu to coś jak wyjęcie bezpiecznika z powodu zwarcia – zadziała, ale czy nie spowoduje innego zwarcia gdzie indziej? Badania nad tym trwają, ale już teraz wiadomo, że dla zlokalizowanych błędów w modelach językowych mamy do dyspozycji skalpel, a nie tylko topór.

  • Pętle powtórzeń w Gemma 4 sięgają 95% przy długich wyliczeniach faktów, a nie usuwa ich zmiana próbkowania ani silnika.
  • Winne są pojedyncze neurony MLP lub nieliczne rutowane eksperty w architekturze MoE, co udowodniono atrybucją neuronową.
  • Najmniejsza skuteczna edycja to odwrócenie znaku jednego neuronu; nie psuje to ogólnych wyników modelu.
  • Edycja nie leczy ‘doom loopingu’, bo ten wynika z braku wiedzy, a nie z nadaktywnego obwodu.

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Podsumowanie

Możliwość trwałego usuwania pętli powtórzeń za pomocą szybkiej edycji wagowej otwiera drogę do tańszych poprawek modeli w produkcji. To rozwiązanie przyda się wszędzie tam, gdzie modele muszą niezawodnie generować długie, faktograficzne listy – na przykład w systemach raportowania prawnego, przy katalogowaniu danych medycznych czy w automatycznej obsłudze zapytań o ofertę. Zamiast kosztownego retrenowania, dostawca może wysłać plik z edycją wag i rozwiązać problem jeszcze tego samego dnia.

Metryka artykułu źródłowego

Tytuł oryginalny: Can Editing 1 Neuron Fix Repetition Loops in LLMs?

Autorzy: Aristotelis Lazaridis, Aman Sharma, Dylan Bates, Brian King, Vincent Lu, Jack FitzGerald

Data publikacji: 15 czerwca 2026

arXiv: arxiv.org/abs/2606.13705

PDF: https://arxiv.org/pdf/2606.13705.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *