85% krócej trenowany asystent matematyczny. Dlaczego platformy edtech przerzucają się na RELEX

Gdy tylko ministerstwo ogłasza nową podstawę programową z matematyki, zespoły w firmach edtech dostają gęsiej skórki. Bo każda zmiana oznacza, że wbudowany w platformę asystent AI znów trzeba uczyć od nowa – proces, który może trwać kilka tygodni i kosztować tyle, co roczna subskrypcja kilkunastu szkół. Teraz można to zrobić w kilka godzin, a do tego za 15% dotychczasowej ceny.

Problem, który zna każdy menedżer produktu w edtech

Duże modele językowe sprawdzające zadania z matematyki i generujące rozwiązania krok po kroku stały się standardem na platformach e-learningowych. Żeby działały bezbłędnie na nowym materiale – czy to rachunek prawdopodobieństwa, czy stereometria – potrzebują dostrojenia. Standardowa metoda RLVR (uczenie przez wzmacnianie z weryfikowalną nagrodą) wymaga jednak setek, a często tysięcy iteracji na klastrach GPU. Gdy zmienia się podstawa programowa albo pojawiają się świeże typy zadań z arkuszy CKE, cały cykl trwa od 2 do 6 tygodni i generuje rachunek rzędu 20–50 tys. zł w chmurze. Dla wydawcy oferującego materiały online oznacza to wyścig z czasem – albo spóźniona aktualizacja, albo ręczna praca korektorów, która nie skaluje się przy setkach szkół.

Zamiast tygodni treningu – 50 kroków i gotowe

Zespół Wei i in. pokazał w najnowszej pracy, że podczas uczenia RLVR wszystkie istotne zmiany w wagach modelu układają się praktycznie wzdłuż jednej ścieżki. Mówiąc prościej: kierunek poprawy jest tak stabilny, że wystarczy obserwować go przez 50 pierwszych kroków, by z dużą dokładnością przewidzieć, jak model będzie się zachowywał po 1000 krokach. Metoda RELEX (Reinforcement Learning Extrapolation) robi to za pomocą rozkładu SVD na różnicach wag i zwykłej regresji liniowej – żadnych dodatkowych sieci neuronowych, żadnych sztuczek. Efekt? Model gotowy do użycia po 50 krokach treningu, bez dopłacania za pozostałe 85% czasu na GPU. Co więcej, wyniki z pracy potwierdzają, że tak wygenerowany checkpoint dalej się poprawia poza obserwowanym zakresem – jeśli zatem potrzebujesz wydajności na poziomie 1000. iteracji, RELEX da ją na podstawie tych samych 50 próbek.

Nowy dział w programie? Asystent wdrożony w poniedziałek

Wyobraźmy sobie cyfrową platformę ‘Matematyka Plus’ dla 100 tys. uczniów szkół średnich. Na wrzesień 2026 trzeba dodać moduł z rachunku prawdopodobieństwa, a model musi bezbłędnie oceniać rozwiązania i podpowiadać kolejne kroki. Zamiast zamawiać pełen cykl RLVR na 800 godzinach GPU, zespół data science bierze bazowy model już wytrenowany na starszej podstawie, przygotowuje 500 przykładowych zadań z nowego działu i uruchamia trening na 50 kroków. To około 40 godzin na pojedynczej karcie A100. Następnie za pomocą RELEX oblicza liniową ekstrapolację do 600. kroku i generuje checkpoint. Testy na wewnętrznym benchmarku pokazują dokładność 94% – identyczną jak model trenowany pełne 600 iteracji. Wdrożenie następuje w poniedziałek rano, 3 dni od decyzji o aktualizacji. Co więcej, przy kolejnych zmianach – powiedzmy za dwa tygodnie – procedurę można powtórzyć praktycznie z dnia na dzień, bo 50 kroków to koszt rzędu 800 zł, a nie 5 000 zł.

Ile dokładnie można zaoszczędzić?

Przejście z pełnego RLVR na RELEX obniża zużycie GPU o 85%, co przy trzech–czterech dużych aktualizacjach rocznie daje oszczędność minimum 120 tys. zł w skali roku dla średniej wielkości wydawcy. To nie tylko mniejszy rachunek za chmurę – to także możliwość testowania kilku wariantów modelu równolegle bez obaw o budżet. Zamiast raz na semestr wypuszczać monolityczną aktualizację, platforma może serwować cotygodniowe ulepszenia, dopasowując się na bieżąco do pojawiających się arkuszy próbnych czy uwag nauczycieli. A ponieważ RELEX odfiltrowuje szum stochastyczny obecny w gradientach, finalny model jest często nawet dokładniejszy niż ten po pełnym, głośnym treningu – potwierdzają to wyniki na testach spoza domeny treningowej. Dla dyrektora ds. innowacji oznacza to jedno: produkt może ewoluować w tempie zmian programowych, a nie w tempie dostępności klastrów GPU.

Od prototypu do produkcji – co zrobić w przyszłym tygodniu

RELEX nie wymaga wymiany infrastruktury ani nowego sprzętu. Wystarczy dostęp do metryk z istniejącego treningu RLVR – jeśli zespół loguje checkpointy co krok, już dziś można odtworzyć ścieżkę wag i sprawdzić, jak działa ekstrapolacja na historycznych danych. Eksperyment na 50 krokach i porównaniu z modelem z 1000. iteracji zajmuje jeden dzień. Jeżeli wyniki się potwierdzą, następną aktualizację asystenta matematycznego można zrealizować w 3 dni zamiast 3 tygodni – i od razu zobaczyć, czy tempo wdrażania funkcji przekłada się na wyższą retencję szkół. To nie jest obietnica przyszłości – to metoda gotowa do przemysłowego użycia, podparta eksperymentami na modelach od 1,5 mld do 8 mld parametrów.

  • Koszty GPU niższe o 85%
  • Model gotowy po 50 krokach treningu
  • Dalszy wzrost dokładności bez dodatkowego uczenia
  • Cotygodniowe aktualizacje w cenie jednego treningu

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

Autorzy: Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang i in.

Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are e…

arXiv: arxiv.org/abs/2605.21468

Czytaj więcej o tej technologii: Trenowanie LLM w jednym wymiarze: RELEX oszczędza 85% czasu

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *