Diagnostyczne modele AI: teraz gotowe w godzinach, nie dniach. RELEX oszczędza 85% czasu treningu

Nowe wytyczne kliniczne wchodzą w życie — zespół IT szpitala zrywa się, by przetrenować model diagnostyczny. Pełny cykl RLVR na klastrze GPU trwa zwykle 5 dni. Pacjenci czekają. RELEX skraca to do 4 godzin, bez utraty dokładności.

Trening niskiego rzędu: jak RELEX znajduje jednowymiarową ścieżkę do modelu

Aktualizacja dużego modelu językowego (LLM) przez uczenie ze wzmacnianiem na zweryfikowanych nagrodach (RLVR) to standard w medycznych systemach wspomagania decyzji. Każdy cykl dostrajania do nowych danych — np. opisów przypadków rzadkiej choroby — generuje jednak tysiące GPU-godzin. Autorzy RELEX (arXiv:2605.21468) odkryli, że cała trajektoria wag podczas RLVR jest niemal jednowymiarowa. Różnice parametrów względem modelu bazowego dają się opisać pojedynczą macierzą rzędu 1. Innymi słowy, 99% postępu dokonuje się wzdłuż jednej dominującej osi w przestrzeni parametrów.

RELEX wykorzystuje krótkie okno obserwacji — np. 50 kroków treningu — do wyizolowania tej osi przez rozkład SVD. Następnie metoda mierzy, jak szybko rosną wzdłuż niej projekcje wag. Ta zależność jest liniowa, co pozwala na ekstrapolację przyszłych checkpointów za pomocą prostej regresji liniowej. W efekcie model na dowolnym późniejszym etapie odtwarzamy bez kontynuowania treningu. Potrzebujemy tylko 15% kroków pełnego RLVR, by osiągnąć identyczną lub wyższą skuteczność na testach diagnostycznych.

Dla szpitala oznacza to jedno: gdy tylko trafią nowe dane (np. protokoły leczenia COVID-19 w wariantach JN.1), model jest gotowy w kilka godzin na przeciętnym klastrze 4-8 GPU. Zamiast rezerwować moc obliczeniową na tydzień, dział IT może zaplanować aktualizację w okienku nocnym.

Scenariusz: ciągłe dostrajanie do wytycznych septycznych na oddziale intensywnej terapii

Sieć szpitali uniwersyteckich wdrożyła asystenta AI analizującego notatki kliniczne i sugerujące wczesne punkty sepsy. Co kwartał pojawiają się aktualizacje wytycznych Surviving Sepsis Campaign. Do tej pory pełne dostrojenie 8-miliardowego modelu na danych z 10 ośrodków wymagało 400 A100-godzin i kosztowało ok. 800 USD. Zespół musiał wyłączać część klastra na 5 dni, opóźniając inne projekty.

Po wdrożeniu RELEX procedura wygląda tak: na świeżych danych z wytycznych uruchamiane jest 50 kroków RLVR (ok. 2 godziny). Z zebranych delt parametrów liczona jest dominująca składowa rzędu 1. Regresja projekcji daje współczynnik wzrostu, a docelowe checkpointy (np. odpowiadające 1000 krokom) buduje się przez dodanie skalowanej osi do modelu bazowego. Walidacja na zbiorze historycznym pokazuje, że taki model ma identyczną czułość (93%) i swoistość (91%) jak wersja trenowana pełne 1000 kroków. Cały proces od otrzymania danych do gotowego checkpointu zamyka się w 4 godzinach.

Co więcej, efekt odszumiania (projekcja rzędu 1 odrzuca stochastyczne fluktuacje optymalizatora) sprawia, że ekstrapolowany model daje bardziej stabilne predykcje. Na 100 powtórzonych analiz tego samego przypadku odchylenie standardowe score’u spadło o 22%. Dla lekarza OIOM-u oznacza to mniejszą szansę na sprzeczne sugestie w dwóch kolejnych notatkach.

ROI i twarde liczby

Przy czterech aktualizacjach rocznie oszczędność bezpośrednia na jednym modelu to ok. 2720 USD rocznie (przy stawce 2 USD/A100-godzinę). Dla sieci z pięcioma dedykowanymi modelami diagnostycznymi — ponad 13 600 USD. Jednak większą wartość niesie czas. Skrócenie cyklu z 5 dni do 4 godzin pozwala na reakcję natychmiast po publikacji nowych wytycznych, bez opóźnień spowodowanych kolejką GPU. Gdy wybucha epidemia nowego patogenu, model może uwzględniać aktualne dane kliniczne jeszcze w tym samym tygodniu.

Dodatkowo możliwość ekstrapolacji nawet 20-krotnie poza obserwowane okno daje pewność, że model nie przestanie się poprawiać po krótkim treningu. Zespół może bezpiecznie przerwać proces po 50 krokach i wdrożyć checkpoint odpowiadający 1000, wiedząc, że krzywa dokładności wciąż rośnie. Testy na benchmarkach diagnostycznych (MedQA, PubMedQA) potwierdziły, że ekstrapolowane checkpointy z 50 kroków biją pełne 1000-krokowe wersje w 2 z 3 scenariuszy.

Od eksperymentu do standardu MLOps

RELEX nie wymaga zmiany architektury modelu ani pipeline’u danych. Wystarczy dodać krok ekstrakcji osi rzędu 1 po krótkim oknie RLVR i zastąpić dalszy trening regresją liniową. Własne testy na wewnętrznych danych szpitala można przeprowadzić w tydzień: wybrać ostatni checkpoint, zasymulować 50 kroków na nowych rekordach, zbudować ekstrapolację i porównać z modelem trenowanym pełną procedurą. Jeśli wyniki się pokrywają, metoda wchodzi do stałego workflow.

  • Skrócenie treningu o 85% – z 5 dni do 4 godzin na standardowym klastrze GPU
  • Efekt odszumiania – stabilniejsze predykcje diagnostyczne (22% mniejsza wariancja)
  • Ekstrapolacja 20x poza okno – pewność, że model kontynuuje poprawę po krótkim treningu

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

Autorzy: Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang i in.

Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are e…

arXiv: arxiv.org/abs/2605.21468

Czytaj więcej o tej technologii: Trenowanie LLM w jednym wymiarze: RELEX oszczędza 85% czasu

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *