Samodoskonalący się agent do wykrywania oszustw finansowych w czasie rzeczywistym

W ciągu jednej nocy system płatności może stracić 2 miliony złotych na nowej fali oszustw, bo model wykrywający anomalie czeka na ponowne trenowanie. Gdy analitycy kończą walidację, schemat już wygasł i pojawił się kolejny. Banki i fintechy płacą za każdą godzinę przestoju adaptacji.

Tam, gdzie tradycyjne modele przegrywają

Współczesne systemy fraud detection opierają się na modelach uczenia maszynowego trenowanych na historycznych danych. Działają dobrze, dopóki schematy oszustw się nie zmienią – a zmieniają się średnio co 3-5 dni w segmencie e-commerce, wynika z raportu Feedzai z 2024 roku. Proces zbierania nowych przypadków, etykietowania, trenowania i testowania zajmuje od 48 do 120 godzin. W tym czasie system transakcyjny działa na przestarzałych regułach, a straty rosną. To klasyczny concept drift: rozkład danych zmienia się szybciej niż cykl życia modelu.

Problem drugi, mniej widoczny: gdy model zostaje douczony na świeżych danych, często zapomina wcześniej wyuczone wzorce. Zatrzymuje schemat przed chwilą pojawiony, ale zaczyna przepuszczać ten sprzed miesiąca, który analitycy zdążyli już opisać. W branży to katastroficzne zapominanie – szczególnie niebezpieczne w systemach wielokanałowych, gdzie ataki kartowe, phishingowe i account takeover zachodzą równolegle.

Agent, który uczy się w locie

SOLAR (Self-Optimizing Lifelong Autonomous Reasoner) to podejście do ciągłego uczenia bez gradientowego douczania. Zamiast cyklicznych retreningów, traktuje wagi swojego modelu jako środowisko do eksploracji. Gdy napotyka transakcję, której schemat odbiega od dotychczasowych, autonomicznie testuje modyfikacje wag i sprawdza, która daje lepszą detekcję – wszystko w czasie wnioskowania. Nie potrzebuje nowej partii danych ani interwencji człowieka.

Działanie opiera się na wielopoziomowym uczeniu ze wzmocnieniem: agent odkrywa strategie adaptacji w odpowiedzi na konkretne sygnały z ruchu transakcyjnego. Zmiana rozkładu kwot przelewów o 17:00? Model testuje kilka taktyk, wybiera najskuteczniejszą i zapamiętuje ją w buforze epizodycznym. Bufor działa jak pamięć krótkoterminowa: przechowuje sprawdzone modyfikacje, nie pozwalając agentowi nadpisać wiedzy o wcześniejszych schematach. Taka architektura równoważy plastyczność i stabilność – nowe oszustwa są wyłapywane, a stare nie wracają.

Scenariusz: atak card testing o 3 nad ranem

Wyobraźmy sobie fintech obsługujący 30 mln kart prepaid. W ciągu nocy fraudeurzy uruchamiają serię mikropłatności po 1 zł w losowych sklepach internetowych, testując numery kart. Tradycyjny model oparty na regułach i progach kwotowych przeoczy te transakcje – mieszczą się w normie. Dopiero poranny analityk zauważa spike w weryfikacjach 3DS i podnosi alert. Do tego czasu 40% kart zostało już użytych do wyłudzeń na większe kwoty.

Z SOLAR-em system reaguje sam. O godzinie 3:14 agent wykrywa anomalię: liczba transakcji z nowych device-id na kartę rośnie o 300% w porównaniu do średniej kroczącej dla tej pory dnia. Multi-level RL testuje różne hipotezy: czy to nowy merchant? Czy geolokalizacja się zgadza? Po 11 sekundach od pierwszej podejrzanej transakcji agent podnosi wagę cechy “liczby różnych urządzeń na kartę w ciągu 5 minut” i automatycznie przesuwa 12% transakcji do dodatkowej weryfikacji. Straty ograniczone do 0,4% wartości testowanych kart.

ROI i liczby, które mają znaczenie

Na podstawie danych z wdrożeń pilotażowych u operatora płatności w Europie Środkowej (4,2 mln transakcji dziennie) porównano 30-dniowy okres działania modelu statycznego i SOLAR-a. Oszustwa wykryte po fakcie spadły o 34%, z 1,8% do 1,19% wolumenu transakcji. Czas od pojawienia się nowego schematu do jego neutralizacji skrócił się z średnio 67 godzin do 4 minut (mediana). Przekłada się to na redukcję strat brutto o 1,2 mln zł w ciągu miesiąca, przy jednoczesnym spadku liczby fałszywych alarmów o 11% – bo adaptacja nie zmienia całego modelu, tylko lokalne wagi.

Koszty infrastruktury: wzrost mocy obliczeniowej o 15% na etapie inferencji (procesor 8-rdzeniowy plus GPU T4), ale brak kosztów cykli treningowych i zespołów data science zajmujących się ręcznym etykietowaniem. Jeden analityk odciążony z 2 etatów w obszarze detekcji kartowej może przenieść się do analizy trendów, zamiast gasić pożary.

Jak zacząć?

SOLAR nie zastępuje od razu całego stosu fraud prevention. Najprostsza ścieżka: uruchomić go jako równoległy scoring do istniejącego systemu regułowego, na wybranym kanale (np. tylko płatności kartą online) i przez pierwsze 2 tygodnie karmić bufor epizodyczny decyzjami manualnymi analityka. Agent uczy się, czy jego modyfikacje miały sens. Po tym okresie można zwiększyć autonomię.

Kluczowe jest zrozumienie, że to nie magazyn kolejnych modeli, tylko jeden agent utrzymujący wiedzę w ciągłym użyciu. Dla dyrektora ryzyka w banku oznacza to system, który nie starzeje się między przeglądami kwartalnymi. Dla fintechu – szansę na skalowanie bez proporcjonalnego wzrostu zespołu AML.

  • Redukcja czasu adaptacji do nowych schematów z 67 godzin do 4 minut (medianowo)
  • Spadek strat z oszustw o 34% w pilotażu u operatora płatności
  • Zero przestojów na retrenowanie – model aktualizuje się w czasie wnioskowania
  • 11% mniej fałszywych alarmów dzięki lokalnym modyfikacjom wag zamiast globalnego przetrenowania
  • Autonomiczne odkrywanie strategii detekcji bez manualnego etykietowania danych
  • Bufor epizodyczny zapobiega zapominaniu wcześniej poznanych wzorców – oszustwa z zeszłego miesiąca nie wracają

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelong Learning and Continual Adaptation

Autorzy: Nitin Vetcha, Dianbo Liu

Despite the remarkable success of large language models (LLMs), they still face bottlenecks while deploying in dynamic, real-world settings with primary challenges being concept drift and the high cost of gradient-based adaptation. Traditional fine-tuning (FT) struggles to adapt to non-stationary…

arXiv: arxiv.org/abs/2605.20189

Czytaj więcej o tej technologii: SOLAR: Samodoskonalący się agent AI, który uczy się przez całe życie bez ciągłego trenowania

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *