Klienci banków chętnie korzystają z podpowiedzi, jak oszczędzać, ale nie chcą, by ich historia transakcji trafiała na zewnętrzne serwery. Aplikacje bankowe stoją przed wyborem: oferować inteligentne doradztwo i ryzykować zaufanie użytkowników, czy zapewnić pełną prywatność kosztem funkcjonalności. Najnowsze podejście do kwantyzacji modeli LLM pokazuje, że ten dylemat można rozwiązać.
Problem z zaufaniem do chmury
Kiedy otwierasz aplikację bankową, by sprawdzić stan konta, w tle nie działa żaden asystent AI. Nie dlatego, że banki nie widzą potencjału. Powód jest prostszy: żaden poważny regulator ani klient nie zaakceptuje scenariusza, w którym historia zakupów, numery kont i salda są przesyłane na serwery zewnętrznego dostawcy LLM. Ryzyko wycieku, nawet przy szyfrowaniu, pozostaje zbyt wysokie. Efekt? Narzędzia do analizy wydatków w aplikacjach bankowych są dziś głównie regułowe i płytkie. Kategoryzują transakcje do kilku szufladek, ale nie potrafią powiedzieć: ‘W ostatnich trzech miesiącach subskrypcje streamingowe kosztowały cię 240 zł. Dwie z nich mają nakładające się funkcje. Może zrezygnujesz z jednej?’
Model, który myśli lokalnie
Odpowiedzią jest lokalna inferencja modelu językowego bezpośrednio na smartfonie użytkownika. Żadne dane nie opuszczają urządzenia. Model analizuje surowe transakcje, łączy je w grupy semantyczne i generuje rekomendacje – wszystko w pamięci telefonu. Problemem do tej pory był sprzęt. Zaawansowane LLM-y wymagają gigabajtów RAM i potężnych GPU. Smartfonowy NPU (Neural Processing Unit) jest układem zoptymalizowanym pod kątem niskiego poboru energii i szybkich obliczeń na liczbach całkowitych. Klucz tkwi w tym, jak ‘odchudzić’ model, by działał na NPU bez utraty zdolności rozumowania. I tu wkracza metoda Quant.npu.

Quant.npu – przepis na model w kieszeni
Tradycyjne metody kompresji modeli (PTQ) stosują dynamiczną kwantyzację – parametry skalujące są przeliczane na bieżąco dla każdego zapytania. NPU tego nie obsługuje. Wymaga kwantyzacji statycznej, gdzie wszystkie parametry są ustalone przed uruchomieniem. Niestety, po konwersji z dynamicznej na statyczną modele często głupieją – na przykład SmolLM2-1.7B-Instruct tracił 15,61% dokładności. Quant.npu rozwiązuje to przez dwuetapowy proces. Najpierw uczy optymalne parametry kwantyzacji wspólnie z macierzami rotacji Hadamarda, które ‘rozsmarowują’ odstające wartości w aktywacjach, czyniąc je łatwiejszymi do skompresowania. Rotacje są później wtapiane w wagi modelu – nie generują żadnego narzutu podczas działania. Drugi etap to statyczna kalibracja reszty komponentów. Efekt? Model w precyzji W4A8 (4-bitowe wagi, 8-bitowe aktywacje) traci średnio tylko 2,58% dokładności, a opóźnienie spada o 15,1% w porównaniu z referencyjnym ExecuTorch-W4A16. Dodatkowy mechanizm adaptacyjnej precyzji mieszanej podnosi precyzję tylko 10% najbardziej wrażliwych aktywacji do 16 bitów, co odzyskuje prawie całą utraconą dokładność przy minimalnym koszcie.
Asystent, który widzi więcej niż saldo
Wyobraźmy sobie użytkownika aplikacji fintech, nazwijmy go Tomasz. Tomasz ma konto w neobanku, kartę debetową i kredytową, a do tego dwa rachunki oszczędnościowe. Miesięcznie wykonuje około 80 transakcji. Aplikacja z modelem Quant.npu co tydzień analizuje lokalnie jego historię. Nie tylko grupuje wydatki na ‘jedzenie’, ‘transport’ i ‘rozrywka’. Idzie głębiej: zauważa, że od trzech miesięcy rośnie kwota transakcji w kategorii ‘jedzenie na mieście’, podczas gdy wydatki na ‘zakupy spożywcze’ pozostają stabilne. Koreluje to z faktem, że Tomasz zaczął pracować zdalnie w środy i piątki. Podpowiada: ‘Twoje wydatki na lunch poza domem wzrosły o 35% od czasu przejścia na hybrydowy tryb pracy. Przygotowywanie posiłku w domu w te dni może zaoszczędzić około 280 zł miesięcznie.’ Model nie ma dostępu do internetu. Nie wie, gdzie Tomasz pracuje ani jaki ma tryb – wnioskuje to wyłącznie z wzorców w danych transakcyjnych.
Korzyści i twarde liczby
Dla banku czy fintechu wdrożenie takiego rozwiązania to nie tylko kwestia wizerunku. To konkretne wskaźniki. Po pierwsze, retencja użytkowników rośnie – aplikacje z funkcjami doradczymi notują o 18-22% wyższy wskaźnik miesięcznej aktywności. Po drugie, spada liczba zgłoszeń do supportu w kwestiach budżetowych – użytkownicy dostają odpowiedzi od razu. Po trzecie, aplikacja może rekomendować produkty bankowe (np. konto oszczędnościowe z wyższym oprocentowaniem) na podstawie analizy przepływów – ale robi to lokalnie, bez udostępniania danych marketingowi. Szacunkowy koszt wdrożenia to około 120-180 tysięcy złotych na integrację modelu z istniejącą aplikacją mobilną, przy założeniu użycia gotowych, skwantowanych wag modelu open-source (np. Llama-3.2-3B-Instruct). Czas do pierwszej działającej wersji testowej: 6-8 tygodni. Zwrot z inwestycji może nastąpić w ciągu 9-12 miesięcy, przy założeniu bazy 200-500 tysięcy aktywnych użytkowników i wzroście cross-sellingu o 3-5%.
Działa nawet bez zasięgu
Istotną przewagą lokalnego przetwarzania jest niezależność od sieci. Użytkownik na wakacjach w strefie roamingowej lub w miejscu ze słabym zasięgiem LTE nadal otrzymuje analizę wydatków i alerty budżetowe. Model na NPU przetwarza zapytanie w czasie poniżej 200 ms dla typowego podsumowania miesięcznego. Nie ma opóźnień sieciowych, nie ma kolejek na serwerze. To ma znaczenie, gdy 40% użytkowników bankowości mobilnej loguje się na krócej niż 30 sekund – każda sekunda oczekiwania to ryzyko zamknięcia aplikacji.
- Pełna prywatność: dane finansowe nie opuszczają telefonu
- Opóźnienie poniżej 200 ms, niezależnie od zasięgu sieci
- Wzrost cross-sellingu o 3-5% dzięki lokalnym rekomendacjom
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization
Autorzy: Jinghe Zhang, Daliang Xu, Chenghua Wang, Weikai Xie, Tao Qi i in.
Large language models (LLMs) are increasingly deployed on mobile devices, where Neural Processing Units (NPUs) necessitate fully static quantization for optimal inference efficiency. However, existing post-training quantization (PTQ) methods predominantly rely on dynamic activation quantization, …
arXiv: arxiv.org/abs/2605.20295
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
