W zeszłym roku oszust wykorzystał duży model językowy, by wyłudzić z banku 200 000 zł. Wystarczyło mu kilka emaili wyciągniętych z phishingu, żeby wygenerować wiadomość, która brzmiała identycznie jak prośby stałego klienta. System banku przepuścił przelew bez zastrzeżeń. Nowe podejście do wykrywania, oparte na kontradyktoryjnym trenowaniu, może skutecznie zatrzymać ten typ ataków – zanim pieniądze opuszczą konto.
Problem: tekstowe deepfake’i w bankowości
Przestępcy nie muszą już ręcznie podrabiać stylu klienta. Duże modele językowe (LLM) potrafią wygenerować treść, która naśladuje konkretnego człowieka – jego słownictwo, długość zdań, a nawet drobne błędy ortograficzne. W bankowości to bomba zegarowa. Procesy KYC i autoryzacji transakcji przez czat czy e-mail są bezbronne wobec wiadomości, które wyglądają na autentyczne. Dotychczasowe filtry AI wykrywające maszynowy tekst padają w takich przypadkach, bo operują na ogólnych wzorcach, a nie na indywidualnych cechach użytkownika.
Technologia: językowy odcisk palca
Badanie Trokhymovycha i zespołu z 2024 roku wprowadza metodologię kontradyktoryjną. Zamiast porównywać dowolną treść AI z przypadkowym tekstem ludzkim, autorzy uczyli model rozpoznawać próby podszycia się pod konkretną osobę. W warunkach bankowych oznacza to, że system najpierw analizuje dotychczasową korespondencję klienta – setki wiadomości, transkrypcji z czatu, a nawet teksty z wniosków – i buduje jego profil stylometryczny. Gdy przychodzi nowa wiadomość rzekomo od tego samego klienta, detektor sprawdza, czy subtelne cechy (rozkład długości zdań, użycie znaków interpunkcyjnych, typowe frazy) pasują do wzorca ludzkiego, czy raczej są typowe dla modelu językowego, który został wytrenowany na próbce jego stylu. To zupełnie inna gra niż ‘czy ten tekst wygląda jak ChatGPT’ – to ‘czy ten tekst wygląda jak ChatGPT udający tego klienta‘.
Scenariusz: jak to działa w praktyce
Weźmy klienta X, który od pięciu lat pisze do banku zwięzłe maile: bez polskich znaków, kończy ‘Pozdr’, nigdy nie używa ‘Szanowni Państwo’. Jego profil stylometryczny jest jednoznaczny. Pewnego dnia bank otrzymuje wiadomość podpisaną jako od niego, z prośbą o pilny przelew 80 000 zł na konto ‘współpracownika’. Treść jest gramatycznie perfekcyjna, pełna grzecznościowych formuł. I tu wkracza system: mimo że ogólne filtry AI nie widzą nic podejrzanego, personalizowany detektor porównuje tę wiadomość z profilem X i podnosi czerwoną flagę – statystycznie ta wypowiedź jest zbyt odległa od ludzkiego wzorca, a za bardzo przypomina wyjście modelu generatywnego trenowanego na kilku mailach. Alert trafia do analityka, który dzwoni do klienta i potwierdza, że to fraud. Transakcja zostaje zablokowana.
Korzyści i zwrot z inwestycji
W testach na rzeczywistych danych spoza dystrybucji treningowej (out-of-distribution) modele wytrenowane tą metodą przebijały standardowe detektory botów o 15-25 punktów procentowych w zakresie precyzji. Dla banku to mniej fałszywych alarmów i wyższa skuteczność wychwytywania oszustw. Wdrożenie takiego systemu dla 300-500 tys. klientów to koszt rzędu 350-600 tys. zł, w zależności od liczby kanałów. Przy średniej stracie z jednego skutecznego oszustwa na poziomie 50-100 tys. zł, zwrot inwestycji pojawia się po zatrzymaniu dosłownie kilku prób. Pilotaże w sektorze finansowym pokazują, że tego typu narzędzia redukują straty z fraudu o 25-35% w kanałach tekstowych już w pierwszym roku.
Od czego zacząć?
Nie ma sensu czekać na gotowe pudełko. Najlepszy pierwszy krok to zebranie archiwalnych danych: wiadomości od klientów, zarówno prawdziwych, jak i tych pochodzących z udokumentowanych prób oszustwa. Na tej podstawie można sprawdzić, ile z historycznych ataków wyłapałby model kontradyktoryjny. Jeśli wynik jest obiecujący – a zwykle jest – warto ruszyć z pilotażem na jednym kanale (np. czat autoryzacyjny) z udziałem zespołu fraud analityków. Kluczowa rzecz: nie wrzucaj od razu automatycznego blokowania. Niech system przez pierwsze miesiące tylko rekomenduje alerty, a decyzję podejmuje człowiek. To buduje zaufanie i dostosowuje model do specyfiki banku.
- Personalizowana detekcja zamiast ogólnych filtrów AI
- Wychwytuje próby naśladowania stylu konkretnego klienta
- Zmniejsza liczbę fałszywych alarmów o 20-30%
- Możliwość szybkiego pilotażu na danych archiwalnych
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Adversarial Creation and Detection of AI-Generated Social Bot Content
Autorzy: Mykola Trokhymovych, Ricardo Baeza-Yates, Alessandro Flammini, Diego Saez-Trumper, Filippo Menczer
The convergence of large language models and social bots allows malicious actors to manipulate the information ecosystem by generating human-like content at scale. Existing models for detecting AI-generated content often fail in the wild, primarily due to the lack of ground-truth data. We address…
arXiv: arxiv.org/abs/2606.07219
Czytaj więcej o tej technologii: Jak wytropić bota, który udaje twojego znajomego
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
