Podszept wolny od balastu: jak odchudzić RAG-a dla telefonu - MTZN

23 czerwca, 2026

Wyobraź sobie asystenta w telefonie, który odpowiada na pytania, przeszukując magazyn dokumentów. Problem w tym, że zamiast konkretnego akapitu, system wrzuca mu do analizy cały rozdział – bo tak taniej i szybciej wyselekcjonować plik niż sedno. Metoda CORE pokazuje, że można ten balast okroić do suchych faktów bez drogiego, dużego modelu pośredniczącego, oszczędzając energię i pamięć. I działa to nawet na smartfonie.

Dlaczego ‘mniej’ jest warte więcej niż ‘więcej’ w kieszeni

W agentowych systemach QA opartych na RAG, model językowy dostaje cały akapit pełen powtórzeń, choć do trafnej odpowiedzi wystarczyłoby jedno zdanie. Dla telefonu to zbędne obliczenia i szybsze zużycie baterii. Wcześniejsze metody kompresji promptu angażowały dodatkowy model, który na urządzeniu kieszonkowym jest po prostu za ciężki. CORE rezygnuje z tego balastu i wraca do lekkiego przetwarzania języka: analizuje tekst za pomocą NER i semantyki, oszczędzając pamięć i energię.

CORE, czyli dwuetapowy detektyw bez ciężkiego pancerza

Zespół zaproponował dwustopniową metodę kompresji na poziomie zdań. Zamiast uruchamiać cały model do oceny, w pierwszym etapie CORE analizuje pobrany kontekst za pomocą znacznie lżejszego rozpoznawania jednostek nazewniczych (NER). Z tekstu wyławiane są konkretne byty: nazwiska, daty, lokalizacje, które układają się w pierwszy, surowy ‘zestaw odpowiedzi’. Równolegle, przez porównanie semantyczne zapytania i zdań, powstaje ‘zestaw wskazówek’ – zbiór fraz pasujących do sensu pytania.

Drugi etap to operacja oczyszczania. Zestaw wskazówek trafia pod filtr ‘ortogonalnego wyszukiwania resztkowego’ – patetycznie brzmiąca nazwa na proste kryterium: szukamy tylko tego, co uzupełnia zestaw odpowiedzi, a nie powtarza jego zawartość. Równocześnie sam zestaw odpowiedzi przechodzi przez sito oparte na metryce odległości przestrzennej. Jeśli dwa byty z kontekstu leżą ‘zbyt blisko’ siebie znaczeniowo, jeden z nich zostaje uznany za zbyteczny i usunięty. Na koniec oczyszczone zestawy łączy się w krótki, treściwy dokument, który trafia do dużego modelu językowego.

CORE poprawia dokładność o co najmniej 30,19% w porównaniu z najnowocześniejszymi rozwiązaniami, jednocześnie redukując zużycie pamięci o co najmniej 50,47% i osiągając przynajmniej 1,94 razy szybsze działanie na urządzeniu brzegowym.

Zihuai Xu, Ruofei Hou, Yang Xu, Hongli Xu, Yunming Liao, Ying Zhu

arXiv:2606.20571

Czterocyfrowy wynik oszczędności, który naprawdę robi różnicę

Liczby z testów są na tyle konkretne, że nie potrzebują ozdobników. Na urządzeniu brzegowym NVIDIA Jetson AGX Orin CORE zużył o ponad połowę mniej pamięci w porównaniu z bardziej wymagającymi konkurentami, a zapytania obsłużył niemal dwukrotnie szybciej. Mówimy o co najmniej 50,47% redukcji wykorzystania RAM i 1,94-krotnym przyspieszeniu. W kontekście urządzenia, które ma działać godzinami na baterii, to nie ciekawostka, a konkretna zmiana temperatur na obudowie.

W teście na smartfonie Huawei Nova przewaga nad LLMLingua2 – czyli czołowym, opartym na pomocniczym modelu rozwiązaniem – była najdobitniejsza: CORE obniżył zużycie energii o 95,74%. W praktyce oznacza to, że asystent odpowiadający na pytania w czasie rzeczywistym nie zamieni naszego telefonu w grzałkę i nie wyzeruje baterii przed południem.

Skąd ta dokładność u odchudzonego modelu?

Wydajność to nie tylko szybkość, ale i precyzja odpowiedzi. Mimo okrojenia kontekstu do maksymalnie 2000 tokenów, CORE poprawił dokładność odpowiedzi o minimum 30,19% względem najlepszych dotychczasowych metod. Paradoksalnie, mniej informacji na wejściu przełożyło się na trafniejsze odpowiedzi. Powód jest dość intuicyjny: duży model, przytłoczony szumem i dublującymi się fragmentami, częściej błądził.

CORE dostarcza mu odfiltrowany ekstrakt: byty i zdania bezpośrednio związane z pytaniem, bez wstawek ‘jak wspomniano wcześniej’, powtórzeń czy ozdobników. Dokładność rośnie, bo model nie musi już samodzielnie zgadywać, które z kilkunastu powtórzonych nazwisk jest tym ważnym. Dostał je na tacy, w jednym, czystym bloku tekstu.

CORE dwustopniowo kompresuje treść bez pomocniczego, dużego modelu językowego.
Pierwszy etap wyłapuje byty (NER) i pasujące semantycznie zdania.
Drugi etap usuwa powielenia i szum z zestawów odpowiedzi i wskazówek za pomocą filtracji bliskości i kryterium komplementarności.
Wynik? Ponad 30% lepsza dokładność przy budżecie 2000 tokenów.
Ponad 50% mniej RAM-u na Jetsonie i ponad 95% mniej energii na smartfonie.

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Mobilny asystent lekarza: szybka diagnostyka bez chmury

Kiedy lekarz na wizycie domowej potrzebuje szybko sprawdzić najnowsze wytyczne leczenia, a sieć komó

Prawnik w kieszeni: natychmiastowe analizy aktów prawnych

Adwokat na sali sądowej musi błyskawicznie znaleźć precedens lub interpretację przepisu. Tradycyjne

Technik z tabletem: diagnostyka maszyn bez przestojów

Każda minuta przestoju linii produkcyjnej to strata liczona w tysiącach euro. Dla technika utrzymani

Korepetytor AI w telefonie: nauka bez internetu

W regionach, gdzie sygnał sieci komórkowej jest luksusem, a jedno ładowanie telefonu musi wystarczyć

Podsumowanie

Wnioski z CORE są na tyle praktyczne, że aż szkoda byłoby je odłożyć na półkę. Każda branża, która chce odpalać zaawansowanego asystenta tekstowego lokalnie – na przykład diagnostyka w urządzeniach medycznych pracujących offline, aplikacje prawne analizujące setki stron umów na lotniskowych tabletach czy nawigacja w magazynach z głosowym wyszukiwaniem procedur – może dostać szybką i energooszczędną odpowiedź. Zamiast wysyłać dane do chmury i czekać, CORE pozwala zapytać wprost na słabszym sprzęcie, bo nie obciąża go zbędnym balastem informacyjnym.

Metryka artykułu źródłowego

Tytuł oryginalny: Less is More: Lightweight Prompt Compression for Question Answering Applications on Edge Devices

Autorzy: Zihuai Xu, Ruofei Hou, Yang Xu, Hongli Xu, Yunming Liao, Ying Zhu

Data publikacji: 23 czerwca 2026

arXiv: arxiv.org/abs/2606.20571

PDF: https://arxiv.org/pdf/2606.20571.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.