Inteligentni korepetytorzy AI świetnie tłumaczą równania, ale po dostrojeniu do jednego przedmiotu często zapominają, jak odmówić uczniowi prośby o gotowe wypracowanie. Traci się pedagogiczny takt i bezpieczeństwo. EdTech staje przed dylematem: specjalizować model i ryzykować incydent, czy trzymać się ogólnej asystentury, która nie zda egzaminu z matematyki.
Katastrofa ukryta w delcie
Gdy platforma e-learningowa dostraja model językowy do konkretnego przedmiotu – dajmy na to algebry – gradienty optymalizują tylko jedno: dokładność odpowiedzi merytorycznych. Nikt nie trenował modelu, by tracił cierpliwość do ucznia albo zaczął podawać pełne rozwiązania zadań domowych, ale statystyki są bezlitosne. W laboratorium zespołu Aarasha Abro, po dostrojeniu modelu Qwen do egzaminu medycznego, skuteczność w matematyce spadła z 93,0% do 1,1%. W świecie edukacyjnych asystentów to oznacza, że korepetytor z matematyki może nagle zapomnieć o podstawowej etyce: motywowaniu, dostosowywaniu tonu czy odmowie na nieetyczne prośby (‘napisz za mnie wypracowanie’). Katastroficzne zapominanie dotyka 13 z 14 par model-zadanie, a producenci inteligentnych systemów tutoringowych nie mogą dopuścić, by ich produkt stał się źródłem zagrożenia dla ucznia.
Delta pełna szumu
Mechanizm stojący za tym zjawiskiem jest prostszy, niż się wydaje. Dostrajanie produkuje deltę – różnicę między wagami modelu bazowego a wytrenowanego. Tylko niewielka część tej delty odpowiada za nową wiedzę przedmiotową – to sygnał niskiego rzędu. Reszta to pozostałość szumowa, która degraduje inne umiejętności. Abro i Tahir pokazali, że widmo wartości osobliwych delty ma charakterystyczny ‘klif’: garść wysokich wartości niesie sygnał, a potem następuje masowy spadek do poziomu typowego dla macierzy losowych. Ich metoda DG-Hard (Donoho–Gavish Hard Threshold) pozwala oddzielić te dwie składowe bez dodatkowych danych – potrzebne są tylko dwa checkpointy: bazowy i dostrojony. Na każdej macierzy wag wykonuje się rozkład SVD, szacuje próg szumu z rozkładu Marchenko–Pastura i zeruje wartości osobliwe poniżej progu, odrzucając szum. Operacja trwa poniżej 3 minut na pojedynczym GPU.
Naprawa w praktyce: od matematyki do pedagogiki
Wyobraźmy sobie firmę EduAI, która tworzy asystenta do nauki matematyki w liceum. Zespół dostraja model Llama-3.2 na zestawie zadań maturalnych, uzyskując 95% trafności w rozwiązywaniu zadań. Wewnętrzne testy z uczniami pokazują jednak problem: asystent podaje pełne rozwiązania, gdy uczeń prosi o pomoc, zamiast naprowadzać. W ankietach pada komentarz ‘brzmi jak podręcznik, nie jak nauczyciel’. EduAI nie ma zgody na użycie prawdziwych danych uczniów do ponownego trenowania, a każdy dzień opóźnienia to strata subskrypcji. Z pomocą przychodzi DG-Hard: inżynierowie obliczają deltę między modelem bazowym a dostrojonym, puszczają naprawę na jednym GPU i po 2,5 minuty otrzymują model, który zachowuje 94% zysków z matematyki, ale odzyskuje umiejętność mówienia ‘spróbuj najpierw sam, podpowiem, gdzie szukać błędu’. Co więcej, w benchmarkach bezpieczeństwa model znów odmawia na szkodliwe prośby, mimo że do naprawy nie użyto ani jednego przykładu z dziedziny alignmentu.
Liczby, które mówią same za siebie
Opublikowane wyniki DG-Hard na 14 parach model–zadanie pokazują, że metoda osiąga najwyższy łączny wynik naprawy (harmoniczna średnia z odzyskiwania utraconych zdolności i zachowania nowych). W kohorcie ogólnej wskaźnik ‘Combined’ wynosi 84,2, podczas gdy najlepsza alternatywa, WiSE-FT, spada do 71,0 na retencji. Dla producentów platform e-learningowych przekłada się to na wymierne korzyści:
ROI wdrożenia DG-Hard w EdTech
Po pierwsze, zero ryzyka wycieku danych – naprawa nie potrzebuje żadnych przykładów, więc RODO i FERPA przestają być przeszkodą. Po drugie, szybka iteracja: zespół może w jeden dzień przetestować 10 wariantów dostrojenia, dla każdego uruchomić DG-Hard i wybrać ten, który daje najlepszy balans między wiedzą przedmiotową a ogólną jakością nauczania. Czas wdrożenia nowego korepetytora skraca się z tygodni do godzin. Szacujemy, że redukcja liczby incydentów związanych z bezpieczeństwem o 80% (modele naprawione odzyskują alignment) i wzrost satysfakcji uczniów o 15–20 punktów procentowych w ankietach NPS przekładają się na uniknięcie kosztów kryzysów wizerunkowych i mniejszy churn.
Standard w pipeline’ie dostrajania
DG-Hard nie jest konkurencją dla fine-tuningu – jest jego uzupełnieniem. Producenci inteligentnych tutorów powinni traktować naprawę spektralną jako obowiązkowy etap po każdym dostrojeniu. Zamiast kompromisów między specjalizacją a ogólną jakością, dostają model, który naprawdę uczy – nie tylko podaje wyniki. Najlepsze zespoły EdTech już testują podejścia bez-gradientowe; ci, którzy zignorują możliwość oddzielania sygnału od szumu, ryzykują, że ich korepetytor AI stanie się anegdotą na konferencji branżowej, a nie narzędziem pracy nauczyciela.
- Naprawa bez danych – zero ryzyka naruszenia prywatności uczniów (RODO, FERPA)
- Pełna naprawa w mniej niż 3 minuty na jednym GPU
- Odzyskanie utraconego bezpieczeństwa (odmowa na szkodliwe prośby) bez dodatkowego treningu
- Zachowanie 94% zysków z dostrojenia przedmiotowego przy jednoczesnym przywróceniu pedagogicznego tonu
- Możliwość testowania wielu wersji dostrojenia i wybór optymalnego balansu w ciągu jednego dnia
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining
Autorzy: Aarash Abro, Muhammad Tahir
Fine-tuning a language model for a target task routinely degrades capabilities the training data never explicitly threatened. We study this phenomenon, known as catastrophic forgetting, and propose a post-hoc repair solution that uses only the pretrained checkpoint $W_{mathrm{base}}$ and its fin…
arXiv: arxiv.org/abs/2605.20296
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
