Trenowanie LLM w jednym wymiarze: RELEX oszczędza 85% czasu

Czy wiesz, że większość przyrostów w uczeniu ze wzmacnianiem modeli językowych jest ukryta w jednym wymiarze? Nowa metoda RELEX wykorzystuje to odkrycie, by oszczędzić nawet 85% czasu treningu, ekstrapolując przyszłe stany sieci na podstawie zaledwie kilku początkowych kroków.

Rank-1 trajektoria: Wszystko, co ważne, dzieje się w jednym kierunku

Uczenie modeli językowych ze wzmocnieniem na podstawie weryfikowalnych nagród (RLVR) stało się popularną techniką doskonalenia zdolności rozumowania. Badacze z zespołu Zhepei Wei odkryli jednak, że ścieżka, którą wagi pokonują podczas tego procesu, jest zaskakująco prosta. Różnice między parametrami modelu na kolejnych krokach treningowych — tak zwane delty — można w przeważającej mierze opisać za pomocą jednego dominującego kierunku. Mówiąc językiem algebry, aktualizacje mają rangę 1.

Do wyodrębnienia tego kierunku wykorzystuje się dekompozycję wartości osobliwych (SVD) na macierzy zebranych delt. Okazuje się, że rzut późniejszych zmian wag na ten właśnie kierunek rośnie niemal liniowo z liczbą wykonanych kroków. To spostrzeżenie ma głębokie konsekwencje: jeśli znamy dominujący kierunek po krótkim początkowym okresie, możemy przewidzieć, jak model będzie się zmieniał w przyszłości.

‘Większość przyrostów wydajności na zadaniach jest wychwytywana przez przybliżenie delt parametrów rangą 1, a wielkość projekcji rośnie niemal liniowo z liczbą kroków treningowych’ – podsumowują autorzy. Innymi słowy, skomplikowany, wielowymiarowy proces optymalizacji okazuje się z perspektywy końcowego efektu niemal jednowymiarowy.

RELEX: Jak przewidzieć przyszłość bez dalszego trenowania

Opierając się na tym odkryciu, zespół zaproponował metodę RELEX (Reinforcement Learning Extrapolation). Wystarczy przeprowadzić trening RLVR przez krótki czas, na przykład 50 kroków, i zebrać delty wszystkich warstw sieci. Następnie SVD wydobywa pojedynczy wektor kierunku i skalarną funkcję wzrostu. Za pomocą prostej regresji liniowej dopasowuje się współczynniki a i b do zależności s(t) = a·t + b. Mając takie równanie, można odtworzyć model na dowolnym przyszłym kroku bez dalszych obliczeń gradientów — wystarczy dodać do bazowych parametrów produkt dominującej składowej pomnożonej przez skalowany czas.

W praktyce, po przeprowadzeniu 50 iteracji treningu RELEX generuje wagi dla kroków 100, 500, a nawet 1000. Autorzy przetestowali to na modelach od 1,5 do 8 miliardów parametrów, w zadaniach z matematyki, logiki i programowania. Uzyskane rezultaty potwierdziły, że ‘RELEX potrafi ekstrapolować daleko poza okno obserwacji bez kosztów treningowych, przewidując punkty kontrolne nawet 10–20 razy poza obserwowany przedrostek z ciągłą poprawą’ – jak podano w streszczeniu.

Taka metoda oznacza, że czasochłonne strojenie może zostać zatrzymane po zaledwie 15% pełnego przebiegu, a reszta przyrostów powstaje ‘wirtualnie’, bez zużywania kart GPU. Ekstrapolacja niejednokrotnie daje lepsze wyniki niż pełny trening, zwłaszcza w zadaniach wymagających generalizacji poza rozkład danych treningowych.

Większość przyrostów wydajności na zadaniach jest wychwytywana przez przybliżenie delt parametrów rangą 1, a wielkość projekcji rośnie niemal liniowo z liczbą kroków treningowych

Zhepei Wei i współpracownicy

Streszczenie (arXiv:2605.21468)

Efekt ‘odszumiania’: Dlaczego mniej znaczy więcej

Dlaczego rzutowanie na podprzestrzeń rangi 1 działa lepiej niż podążanie za wszystkimi fluktuacjami optymalizatora? Odpowiedź leży w naturze szumu stochastycznego. Każdy krok gradientowy w uczeniu maszynowym niesie ze sobą losowe odchylenia wynikające z próbkowania minibatchy i samej procedury aktualizacji. Te drobne zaburzenia kumulują się i tworzą pozornie bogatą, ale chaotyczną ścieżkę. Projekcja na jeden główny kierunek odrzuca ten szum, pozostawiając jedynie stabilny sygnał.

Autorzy nazywają to efektem odszumiania. Wizualizacje w publikacji pokazują, jak nieregularne, zygzakowate trajektorie pełnych wag przekształcają się w gładką, liniową krzywą po redukcji do rangi 1. ‘Sukces RELEX bierze się z efektu ‘odszumiania’: rzutując aktualizacje na podprzestrzeń rangi 1, model odrzuca stochastyczny szum optymalizacyjny, który w przeciwnym razie pogorszyłby wydajność przy ekstrapolacji’ – wyjaśniają.

Przeprowadzone eksperymenty ablacyjne potwierdziły, że minimalizm jest tu uzasadniony. Ani użycie rangi 2 czy 3, ani zastąpienie regresji liniowej modelem wielomianowym czy siecią neuronową nie poprawiło jakości przewidywań. Jak sami badacze piszą: ‘Ani zwiększanie rangi podprzestrzeni, ani zastosowanie modelowania nieliniowego nie przynosi dalszych korzyści’. To odkrycie wzmacnia tezę, że główna informacja o kierunku poprawy jest zawarta w jednym wymiarze, a wszystko inne to tylko pochodząca z szumu iluzja złożoności.

Oszczędność bez kompromisów

Czas treningu modeli językowych z mechanizmem RLVR mierzony jest w dniach, a koszt pojedynczej rundy dla dużych sieci przekracza setki tysięcy dolarów. RELEX pozwala skrócić ten proces do zaledwie 15% pierwotnego budżetu, co przynosi konkretne oszczędności finansowe i środowiskowe. W eksperymentach modele wytrenowane z użyciem RELEX uzyskiwały wyniki równe lub lepsze od pełnych odpowiedników na wszystkich testowanych zestawach, zarówno w zadaniach widzianych przez model (in-domain), jak i zupełnie nowych (out-of-domain).

Zdolność do ekstrapolowania daleko w przyszłość daje inżynierom możliwość wcześniejszego podejmowania decyzji o kierunku strojenia. Zamiast czekać na zakończenie długiego eksperymentu, można po kilku godzinach zobaczyć, do czego zmierza model, i ewentualnie zmodyfikować hiperparametry lub strategię nagradzania. Praktycznie likwiduje to problem nieoczekiwanych regresji wydajności po setkach dodatkowych iteracji.

Metoda ma oczywiście ograniczenia — wymaga, by trajektoria zachowywała liniowość, a dominujący kierunek był stabilny. Autorzy sprawdzili, że dla modeli 1.5B–8B i kilku typów zadań warunek ten jest spełniony, ale przy zupełnie innych architekturach lub po dłuższym czasie może nastąpić zmiana kierunku. Mimo to RELEX pokazuje, że nawet tak proste podejście potrafi znacząco obniżyć koszty dostrajania LLM.

  • Uczenie RLVR modeli LLM podąża niemal liniową ścieżką o randze 1 – jeden kierunek dominuje.
  • RELEX ekstrapoluje przyszłe punkty kontrolne z krótkiego okna, oszczędzając 85% kroków i utrzymując jakość.
  • Prosta regresja liniowa przewyższa modele nieliniowe dzięki efektowi odszumiania – usuwa szum optymalizacyjny.

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Podsumowanie

RELEX to metoda, która może zdemokratyzować dostęp do zaawansowanego strojenia modeli językowych. Firmy tworzące asystentów do matematyki, generowania kodu czy zadań logicznych mogą teraz iterować swoje rozwiązania szybciej, testując wiele wariantów funkcji nagrody bez obciążenia pełnym budżetem. W świecie, gdzie każda duża runda RLVR to wydatek rzędu dziesiątek tysięcy dolarów, skrócenie procesu o 85% to nie oszczędność – to zmiana reguł gry. Oczywiście metoda zakłada, że trajektoria pozostaje liniowa, ale dla standardowych zadań rozumowania ten warunek zdaje się być spełniony. Jeśli wyniki zostaną potwierdzone na większych modelach, RELEX może stać się standardowym elementem pipeline’u treningowego.

Metryka artykułu źródłowego

Tytuł oryginalny: You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

Autorzy: Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng

Data publikacji: 21 maja 2026

arXiv: arxiv.org/abs/2605.21468

PDF: https://arxiv.org/pdf/2605.21468.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *