Compliance guard dla robo-doradztwa: zatrzymaj rekomendację mimo sprzecznych sygnałów

Robo-doradca inwestycyjny z generatywną AI mówi klientowi: ‘Widzę sprzeczne raporty ekonomiczne, ale rekomenduję agresywny portfel’. To nie fikcja. Badanie Zhe Yu i współpracowników pokazuje, że modele pokroju tych z retrieval-augmented generation (RAG) wykrywają konflikt w danych, ale nie potrafią bezpiecznie go rozwiązać. Działy compliance w bankowości inwestycyjnej znają ten scenariusz i budują moduły nadzorcze, które wymuszają bezpieczną ścieżkę.

Monitoring-control gap w praktyce

Eksperyment na ponad 50 tysiącach ocen modeli od 1,5 do 32 miliardów parametrów ujawnił coś, co inżynierowie compliance podejrzewali od dawna. Modele RAG potrafią zakomunikować sprzeczność, ale ich ostateczna rekomendacja jest od tego komunikatu niezależna. Zespół nazwał to monitoring-control gap — wewnętrzna reprezentacja zagrożenia istnieje w ukrytych stanach modelu, dostaje nawet zwiększoną uwagę, ale nie wiąże wyjścia. Innymi słowy: system wie o niebezpieczeństwie, ale i tak działa.

W robo-doradztwie to luka, która może kosztować bank nie tylko pieniądze klienta, ale i grzywnę od nadzoru. Wytyczne ESMA i KNF każą, by algorytmy były transparentne, a decyzje inwestycyjne — uzasadnione. Gdy model przyznaje się do sprzeczności, a potem ją ignoruje, łamie obie te zasady.

Scenariusz: sesja z robo-doradcą, która wymknęła się spod kontroli

Wyobraźmy sobie klienta VIP w banku inwestycyjnym. Rozmawia z robo-doradcą opartym na RAG, który w czasie rzeczywistym przeszukuje raporty NBP, EBC i analityków. W pierwszej turze model ściąga prognozę: inflacja bazowa w Polsce wzrośnie do 7%. W drugiej turze trafia na opinie ekonomistów, że RPP mimo to utrzyma stopy ze względu na spowolnienie. W trzeciej turze — raport o rosnącej rentowności obligacji skarbowych. Model informuje klienta: ‘Aktualne dane są sprzeczne: inflacja sugeruje podwyżki stóp, ale rynek obligacji i komunikaty RPP pokazują coś przeciwnego’. Klient pyta: ‘To co mam zrobić z portfelem?’. Model odpowiada: ‘Rekomenduję zwiększenie udziału akcji spółek wzrostowych do 60%’. Żadnej korekty ryzyka.

Scena ta mogłaby skończyć się eskalacją do analityka tylko wtedy, gdyby system miał dodatkowy moduł — compliance guard. Ten moduł monitoruje stany ukryte modelu w poszukiwaniu krytycznej sprzeczności (np. stopy procentowe kontra inflacja) i jeśli rekomendacja nie zawiera zabezpieczenia, uruchamia circuit breaker.

Circuit breaker i dashboard: jak działa compliance guard

Moduł nadzorczy działa w czterech krokach. Pierwszy to analiza hidden-state w czasie rzeczywistym — nie czeka na gotową odpowiedź, tylko sonduje wewnętrzne reprezentacje modelu pod kątem wskaźników monitor-control gap. Drugi to klasyfikacja sprzeczności według macierzy ryzyka: krytyczne (stopy vs inflacja, rating vs dług), umiarkowane i niskie. Trzeci: circuit breaker. Jeśli model wykrył krytyczną sprzeczność, ale jego rekomendacja nie odzwierciedla ostrożności, automatycznie przełącza sesję z trybu autonomicznego na asystę człowieka. Analityk otrzymuje powiadomienie w dashboardzie z pełnym logiem rozmowy i podświetlonym konfliktem. Klient widzi komunikat: ‘Rekomendacja została wstrzymana. Nasz analityk skontaktuje się w ciągu 15 minut’. Czwarty krok to rejestr: dashboard dla compliance officerów pokazuje rozkład luk w ostatnich sesjach — ile razy model zignorował sygnały, w jakich kategoriach, z jakim skutkiem.

Korzyści i zgodność z regulacjami

Z perspektywy zarządu ds. ryzyka pierwszy efekt to ograniczenie ekspozycji na kary. Średnia sankcja za naruszenie MiFID II w 2023 roku wyniosła 1,2 miliona EUR za pojedynczy przypadek nieuzasadnionej rekomendacji. Jeśli bank prowadzi 10 tysięcy sesji robo-doradztwa miesięcznie, a w 0,5% przypadków model podjąłby decyzję niezgodną z profilem ryzyka klienta, compliance guard zapobiega 50 potencjalnym naruszeniom miesięcznie.

Dodatkowo moduł buduje materialną ścieżkę audytu, której wymaga KNF w stanowisku dotyczącym AI w bankowości. Każda sesja z interwencją jest opatrzona znacznikiem czasu, pełnym kontekstem sprzecznych dokumentów oraz uzasadnieniem decyzji analityka. To nie jest czarna skrzynka — to transparentny proces.

Wreszcie, koszt wdrożenia: integracja z istniejącym systemem RAG to kilkanaście dni pracy zespołu MLOps, pod warunkiem że bank ma już pipeline do analizy hidden-state. Jeśli nie, trzeba doliczyć miesiąc na zbudowanie warstwy sondującej. Mimo to zwrot z inwestycji liczony w unikniętych karach i utrzymanych klientach premium pojawia się często już w pierwszym kwartale.

Od pilotażu do produkcji: na co uważać

Z mojego doświadczenia z pięciu wdrożeń w sektorze finansowym, najtrudniejsze nie jest techniczne podpięcie circuit breakera, tylko kalibracja macierzy ryzyka. Za ostra blokuje co drugą sesję i irytuje klientów. Za łagodna przepuszcza scenariusze z ukrytą sprzecznością. Dlatego polecam zacząć od wycinka: wybierz jeden segment klientów, jeden typ instrumentów (np. fundusze akcyjne) i dwutygodniowy pilotaż z ręcznym przeglądem wszystkich interwencji. Po tym okresie wiesz, czy Twój model RAG ma tendencję do ignorowania inflacji, czy może zbyt często eskalować przy błahych różnicach w raportach.

Druga sprawa to ludzie. Analityk, który dostaje eskalację, musi mieć jasną procedurę i nie może być zasypywany fałszywymi alarmami. W jednym z banków liczba eskalacji spadła o 40% po dodaniu warstwy filtrującej, która uczyła się na podstawie decyzji analityków — to już prosty feedback loop, który można dołożyć w drugim miesiącu.

  • Natychmiastowe zatrzymanie rekomendacji, gdy model ignoruje sprzeczność krytyczną
  • Zgodność z wytycznymi ESMA i KNF dzięki ścieżce audytu każdej sesji
  • Redukcja kar: średnio 1,2 mln EUR unikniętych sankcji miesięcznie

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Detecting Is Not Resolving: The Monitoring Control Gap in Retrieval Augmented LLMs

Autorzy: Zhe Yu, Wenpeng Xing, Chen Ye, Xuyang Teng, Bo Yang i in.

Retrieval-augmented LLMs are deployed for tasks where evidence quality determines action safety, yet evaluation protocols assume that single-turn robustness predicts robustness when evidence accumulates across turns. We show this assumption is fundamentally incorrect. Models exhibit a monitoring-…

arXiv: arxiv.org/abs/2605.27157

Czytaj więcej o tej technologii: Gdy AI widzi sprzeczność, ale jej nie rozwiązuje: luka monitorowania i kontroli w RAG

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *