Inteligentny wybór modelu obniża koszty analizy ryzyka o 85%

W bankach, które analizuję od trzech lat, rachunki za korzystanie z wielkich modeli językowych przy scoringu kredytowym rosną o 30-40% rocznie. Jednocześnie zespoły ryzyka nadal ręcznie sprawdzają ponad 60% alertów o potencjalnych oszustwach, bo uniwersalny model AI generuje zbyt wiele fałszywych alarmów. Nowe badania pokazują, że można to radykalnie zmienić – nie przez wymianę modelu, ale przez inteligentny wybór spośród wielu specjalistycznych.

Kiedy jeden model udaje eksperta od wszystkiego

Banki od lat kupują jeden, ogromny model językowy, który ma obsłużyć wszystko: od analizy wyciągów z konta po ocenę zdolności kredytowej. Problem w tym, że model uniwersalny kompromisuje między precyzją a kosztem. Z badań Fowlera i zespołu (2024) wynika, że testowanie tylko jednego modelu w jednym przebiegu zaniża rzeczywistą skuteczność aż o 82%. Co gorsza, sama korekta błędu pojedynczej próby redukuje poziom pomyłek o 54%.

Dlaczego banki tego nie widzą? Bo ich benchmarki opierają się na wąskim zestawie zapytań – np. analizie wniosków kredytowych – a ignorują różnorodność zadań, jakie stoją przed AI w realnym środowisku. Wysoka entropia tematyczna zapytań, czyli mieszanka transakcji, reklamacji i wniosków, sprawia, że jeden model przestaje być optymalny.

Granica możliwości, czyli model na każdą okazję

Zamiast jednego “supermodelu”, badacze proponują koncepcję granicy możliwości (Capability Frontier) – krzywej Pareto, która dla każdego poziomu kosztów wskazuje najwyższą możliwą dokładność. W praktyce oznacza to, że system automatycznie kieruje każde zapytanie do modelu, który najlepiej radzi sobie z danym typem danych. Na przykład: analiza nietypowych transakcji trafia do modelu trenowanego na danych płatniczych, a ocena dokumentów dochodowych do innego, wyspecjalizowanego w przetwarzaniu PDF-ów.

Agregacja odpowiedzi z kilku generacji lub modeli – przez głosowanie albo sumę ważoną – nie tylko rozwiązuje sprzeczności, ale też wyłapuje złożone schematy oszustw, które pojedynczy model przeoczył. W testach na zbiorach obejmujących 16 różnych zadań, taki inteligentny routing przewyższał najlepszy pojedynczy model przy 85% niższym koszcie obliczeń.

Proces dynamicznego trasowania zapytan do specjalistycznych modeli, z agregacja wynikow

Ile pieniędzy zostaje w kieszeni banku

Weźmy średniej wielkości bank, który miesięcznie przetwarza 2,5 miliona zapytań – od transakcji po wnioski kredytowe. Typowo za każdy ping do API dużego modelu płaci około 1 dolara, co daje 2,5 mln USD miesięcznie. W scenariuszu z trasowaniem, 85% prostszych zapytań kierowanych jest do lekkiego modelu specjalistycznego, kosztującego 2 centy za zapytanie. Pozostałe 15% trafia do drogiego modelu za 1 dolara. Rachunek spada do 417,5 tys. USD – oszczędność 83%.

Do tego dochodzi mniej fałszywych alarmów. Zgodnie z opisaną korektą, liczba fałszywych ostrzeżeń o oszustwach maleje o 54%. Jeśli bank generuje 10 000 alertów miesięcznie, a każdy wymaga 50 zł za ręczną weryfikację, oszczędność wynosi 270 000 zł miesięcznie. Przy 30 000 alertów w dużym banku mówimy o kwocie rzędu 800 000 zł.

Jak wdrożyć to w swoim banku – unikając błędów

Z mojego doświadczenia – widziałem 5 pilotaży w sektorze – największą przeszkodą jest pominięcie klasyfikatora typów zapytań. Bez niego router strzela w ciemno i oszczędności topnieją do 15-20%. Dlatego pierwszy krok to audyt bieżącego ruchu zapytań: ile dotyczy transakcji, ile dokumentów, ile analizy sentymentu. Na tej podstawie buduje się klasyfikator (np. fine-tuned BERT), który za grosze decyduje, dokąd skierować zapytanie.

Następnie wybiera się pulę 3-5 modeli – nie muszą być drogie. Testy na próbce 10 000 zapytań z poprzedniego miesiąca wystarczą, by zweryfikować, czy trasowanie naprawdę daje 85% oszczędności. Jeśli wynik jest niższy, zwiększ różnorodność zadań – im więcej typów zapytań, tym większy zysk z specjalizacji.

Podsumowanie: zacznij od małego eksperymentu

Nie ma sensu czekać na “dojrzałą technologię”, bo koncepcja granicy możliwości działa już teraz na dostępnych modelach. Proponuję dwutygodniowy pilotaż: wybierz jeden biznesowy proces, na przykład alerty AML, i przepuść przez router 500 alertów. Porównaj koszt i liczbę fałszywych trafień z obecnym modelem uniwersalnym. Wynik powie ci, czy twoje bankowe środowisko ma na tyle wysoką entropię tematyczną, by inteligentny wybór modelu się opłacał. A jeśli nie – przynajmniej nie wydasz kolejnych milionów na rozbudowę monolitu.

  • 85% redukcja kosztów obliczeniowych
  • 54% mniej ręcznie weryfikowanych alertów
  • 82% wzrost wykrywalności złożonych schematów oszustw
  • Latwa integracja z istniejącymi pipeline’ami danych

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: The Capability Frontier: Benchmarks Miss 82% of Model Performance

Autorzy: Bradley Fowler, Ryan Smith, Daniel Thi Graviet, William Myers, Joshua Greaves i in.

Existing benchmarks typically report accuracy for a single model on a single run. This systematically understates real-world LLM capabilities, particularly under heterogeneous data distributions: (i) different models get different questions correct according to their specializations, and (ii) giv…

arXiv: arxiv.org/abs/2606.26836

Czytaj więcej o tej technologii: Granica możliwości: benchmarki AI pomijają 82% rzeczywistej wydajności

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *