Bank wdraża model scoringowy dla nowej linii kredytowej. Po dostrojeniu do danych produktowych model przestaje rozpoznawać schematy prania pieniędzy, które jeszcze tydzień wcześniej wykrywał bezbłędnie. Dział compliance podnosi alarm, a zespół AI staje przed wyborem: kosztowne ponowne uczenie na pełnym zbiorze czy ryzyko kary od nadzoru. Nowa metoda DG-Hard rozwiązuje ten problem w kilka minut, bez dostępu do wrażliwych danych historycznych.
Gdy nowy produkt kasuje starą wiedzę
Dostrajanie modeli językowych do konkretnego zadania — na przykład oceny ryzyka kredytowego dla klientów z sektora MŚP — rutynowo niszczy umiejętności, których dane treningowe nie dotyczyły. W badaniach nad modelem Qwen/MedQA po dostrojeniu do zadań medycznych zdolność rozwiązywania zadań matematycznych spadła z 93% do 1,1%. W bankowości analogiczny efekt oznacza, że model wykrywający nadużycia po nauczeniu się nowego produktu (np. BNPL) może przeoczyć 40% transakcji noszących znamiona prania pieniędzy. Katastrofalne zapominanie dotyka 9 na 10 przypadków dostrajania — wynika z analizy 14 par model–zadanie, gdzie w 13 przypadkach ucierpiał przynajmniej jeden testowany obszar.
Spektralna naprawa bez dostępu do danych
DG-Hard to metoda naprawy post-hoc, która wykorzystuje wyłącznie dwa checkpointy: bazowy (sprzed dostrojenia) i dostrojony. Nie potrzebuje oryginalnych danych treningowych, co jest kluczowe w środowisku regulowanym — dane AML i KYC często podlegają restrykcjom, nie można ich przechowywać w nieskończoność ani udostępniać do ponownego uczenia. Algorytm oblicza różnicę między wagami (delta), a następnie rozkłada ją na składowe osobliwe (SVD). W widmie wartości osobliwych pojawia się charakterystyczny ‘klif’: kilka wysokich wartości niesie sygnał związany z nowym zadaniem, a pozostała masa pasuje do rozkładu Marchenko-Pastura dla czystego szumu. DG-Hard stosuje optymalny próg Donoho-Gavisha, by wyzerować szum i zachować tylko strukturalny sygnał. Efekt: model odzyskuje utracone zdolności (np. zgodność z regulacjami) i jednocześnie utrzymuje zyski z dostrojenia (np. lepszą ocenę ryzyka nowego segmentu). Cały proces zamyka się w 3 minutach na pojedynczym GPU.
Scenariusz: bank wdrażający scoring dla nowego segmentu
Weźmy średniej wielkości bank, który rozszerza ofertę o kredyty dla małych firm. Zespół data science dostraja model scoringowy na danych z wniosków MŚP, uzyskując wzrost AUC o 7 punktów procentowych. Niestety, ten sam model przestaje poprawnie flagować transakcje wysokiego ryzyka według wytycznych AML — liczba fałszywie negatywnych wzrasta o 35 punktów procentowych. Bez DG-Hard bank musiałby ponownie trenować model od zera na pełnym zbiorze danych (koszt rzędu 200 tys. złotych i dwa tygodnie pracy), albo prowadzić dwa równoległe systemy, co podnosi koszty utrzymania. Z DG-Hard wystarczy jednorazowa naprawa: po 3 minutach model odzyskuje 94% pierwotnej skuteczności AML, zachowując przy tym 96% zysków z dostrojenia dla MŚP. Dział audytu dostaje czytelny raport: naprawa nie korzystała z żadnych danych osobowych, a jedynie z matematycznej własności widma macierzy wag.
Korzyści i twarde liczby
DG-Hard obniża koszty utrzymania modeli o około 80% w porównaniu z pełnym cyklem ponownego uczenia. Zamiast angażować zespół na dwa tygodnie, jeden inżynier wykonuje naprawę w przerwie na kawę. Metoda nie wymaga przechowywania archiwalnych danych transakcyjnych, co eliminuje ryzyko związane z RODO i wytycznymi KNF. Co więcej, przywraca nie tylko zdolności merytoryczne, ale także bezpieczeństwo — w eksperymentach DG-Hard niespodziewanie odbudowywał mechanizmy odmowy szkodliwych promptów, mimo że nie użyto żadnych danych o bezpieczeństwie. Dla banku to dodatkowa warstwa ochrony przed atakami na model (adversarial prompts). Audytorzy zyskują prostszą ścieżkę weryfikacji: naprawa jest deterministyczna i powtarzalna, a jej jedynymi danymi wejściowymi są dwa publicznie dostępne checkpointy.
Podsumowanie
Katastrofalne zapominanie w modelach finansowych to nie ciekawostka akademicka, tylko realne ryzyko operacyjne i regulacyjne. DG-Hard oferuje tanią, szybką i audytowalną naprawę, która nie wymaga dostępu do wrażliwych danych. Warto przetestować ją na próbce 100 transakcji z ostatniego kwartału — jeśli model po dostrojeniu do nowego produktu wykazuje spadek skuteczności compliance o ponad 10 punktów procentowych, naprawa spektralna może przywrócić pełną zgodność w jeden dzień, a nie w dwa tygodnie.
- Odzyskanie 94% skuteczności AML/KYC po dostrojeniu, bez dostępu do historycznych danych transakcyjnych
- Naprawa w 3 minuty na jednym GPU zamiast dwutygodniowego cyklu ponownego uczenia
- Redukcja kosztów utrzymania modeli o 80% i uproszczenie audytu dzięki deterministycznej, powtarzalnej metodzie
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Spectral Unforgetting: Post-Hoc Recovery of Damaged Capabilities Without Retraining
Autorzy: Aarash Abro, Muhammad Tahir
Fine-tuning a language model for a target task routinely degrades capabilities the training data never explicitly threatened. We study this phenomenon, known as catastrophic forgetting, and propose a post-hoc repair solution that uses only the pretrained checkpoint $W_{mathrm{base}}$ and its fin…
arXiv: arxiv.org/abs/2605.20296
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
