W regionach, gdzie sygnał sieci komórkowej jest luksusem, a jedno ładowanie telefonu musi wystarczyć na cały dzień, zaawansowana pomoc naukowa z AI wydawała się mrzonką. Uruchomienie asystenta edukacyjnego na budżetowym smartfonie zwykle kończyło się po kilku minutach, gdy bateria padała, a procesor nie nadążał z analizą setek stron podręcznika. Metoda CORE zmienia tę dynamikę, radykalnie odchudzając zapytania do modelu językowego i wyciskając z taniego sprzętu wydajność, która do tej pory wymagała serwerowni.
Problem balastu informacyjnego w kieszeni ucznia
Wyobraźmy sobie studenta w pociągu z Tananarive do Toamasiny na Madagaskarze. Ma przed sobą cztery godziny jazdy, smartfon za 400 złotych i ściągnięty wcześniej pakiet materiałów do egzaminu z biologii molekularnej. Chce zadać pytanie o mechanizm replikacji DNA, ale jego aplikacja edukacyjna musi przeszukać trzysta stron PDF-ów, wyciągnąć z nich kontekst, a potem wrzucić go do lokalnego modelu językowego. Standardowy RAG bez kompresji poda modelowi dziesięć akapitów, z czego sześć dotyczy ogólnej budowy komórki, a tylko jeden faktycznie opisuje widełki replikacyjne. Telefon przelicza zbędne tokeny, nagrzewa się, a odpowiedź pojawia się po minucie, zostawiając 15% baterii mniej.
Dwustopniowy filtr zamiast dodatkowego modelu
Metoda CORE podchodzi do tego inaczej i to jest kluczowa różnica wobec wcześniejszych prób kompresji promptów. Nie używa dodatkowego małego modelu językowego (SLM) do oceny, które zdania są ważne, bo taki model sam w sobie zżerałby zasoby telefonu. Zamiast tego pracuje dwuetapowo.
Pierwszy etap to analiza nazw własnych (NER) w tekście źródłowym i budowanie zbioru odpowiedzi, czyli esencji tego, co faktycznie może być potrzebne do udzielenia odpowiedzi. Jednocześnie, poprzez dopasowanie semantyczne, tworzy zbiór wskazówek zdań najbardziej podobnych do pytania. Drugi etap robi porządek: ortogonalne wyszukiwanie resztkowe szuka informacji, które uzupełniają zbiór odpowiedzi, ale go nie powielają, a filtr bliskości przestrzennej wyrzuca encje, które są redundantne. Efekt jest taki, że do modelu trafia nie dziesięć akapitów, ale dwa, trzy precyzyjnie wybrane zdania.
Cztery godziny nauki na jednym ładowaniu
Liczby z testów na smartfonie Huawei Nova robią wrażenie. W porównaniu do konkurencyjnej metody LLMLingua2, CORE zużywa o 95,74% mniej energii. W praktyce oznacza to, że student z Madagaskaru może przepytać swój telefon z biologii przez całą podróż i nadal mieć baterię na wieczorne notatki. Na urządzeniu brzegowym NVIDIA Jetson AGX Orin CORE redukuje zużycie pamięci o co najmniej połowę i przyspiesza wnioskowanie prawie dwukrotnie. Dla taniego smartfona to różnica między aplikacją, która działa, a taką, która zawiesza system po pięciu pytaniach.
Dokładność odpowiedzi rośnie o ponad 30% przy budżecie 2000 tokenów. Nie dlatego, że model jest lepszy, ale dlatego, że dostaje czystszy sygnał. Mniej szumu to mniej halucynacji i trafniejsze odpowiedzi, co dla ucznia weryfikującego swoją wiedzę ma znaczenie fundamentalne.
Scenariusz wdrożenia w szkole z ograniczonym budżetem
Weźmy sieć szkół średnich w północnej Nigerii, gdzie łącze internetowe jest dostępne tylko w pracowni komputerowej przez dwie godziny dziennie. Szkoła dostaje grant na sto tabletów z Androidem za 300 złotych sztuka. Celem jest aplikacja do nauki matematyki, która działa offline i odpowiada na pytania uczniów na podstawie lokalnie zapisanych podręczników.
Bez kompresji promptów każdy tablet musiałby mieć model SLM do oceny ważności zdań, co wyklucza sprzęt z 2 GB RAM. Z CORE aplikacja ładuje tylko jeden model LLM skompresowany do działania na urządzeniu, a cała logika filtrowania kontekstu opiera się na lekkim NER i analizie semantycznej. Uczeń pyta: “Jak rozwiązać równanie kwadratowe z ujemną deltą?” Aplikacja przeszukuje rozdział o funkcjach kwadratowych, ale zamiast podawać cały rozdział, wyciąga tylko zdania o wzorze na deltę, pierwiastkach zespolonych i jednym przykładzie. Odpowiedź pojawia się w trzy sekundy, a bateria tabletu spada o niecały procent.
ROI, który nie potrzebuje Excela
Koszty wdrożenia asystenta edukacyjnego opartego na CORE są dramatycznie niższe niż alternatyw wymagających serwerów lub mocniejszych urządzeń. Szkoła z setką tabletów nie musi kupować sprzętu z 8 GB RAM ani płacić za chmurę. Oszczędność na samym sprzęcie to minimum 40% budżetu, jeśli porównamy tablety za 300 zł z modelami za 800 zł, które udźwignęłyby standardowego RAG-a z dodatkowym modelem kompresji. Do tego dochodzi brak kosztów transferu danych i serwerów pośredniczących. Z mojego doświadczenia z pilotażami edtech w Afryce Wschodniej wynika, że największą barierą nie jest cena urządzeń, tylko ich całkowity koszt posiadania, a CORE uderza właśnie w ten parametr.
Od pilotażu do skalowania: co warto wiedzieć
Jeśli planujesz pilotaż w swojej organizacji, zacznij od jednego przedmiotu i jednego rocznika. Wybierz podręcznik, który ma jasno wydzielone sekcje i dużo nazw własnych, bo na nich CORE działa najlepiej. Unikaj na start materiałów mocno narracyjnych, gdzie granice między faktami są rozmyte. Przetestuj na próbce 50 uczniów przez dwa tygodnie, mierząc nie tylko dokładność odpowiedzi, ale przede wszystkim czas pracy na baterii i subiektywną satysfakcję. Dopiero potem skaluj na pozostałe przedmioty. To nie jest technologia, która wymaga armii inżynierów, ale wymaga przemyślanego doboru treści do kompresji.
- 95,74% mniej energii niż konkurencyjna metoda kompresji na smartfonie
- Dokładność odpowiedzi wyższa o ponad 30% przy budżecie 2000 tokenów
- Brak dodatkowego modelu SLM obniża wymagania sprzętowe
- Działa w pełni offline na tabletach za 300 złotych
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Less is More: Lightweight Prompt Compression for Question Answering Applications on Edge Devices
Autorzy: Zihuai Xu, Ruofei Hou, Yang Xu, Hongli Xu, Yunming Liao i in.
In agent-driven question answering (QA) applications, retrieval-augmented generation (RAG) is commonly introduced to enhance the response accuracy of large language models (LLMs) by providing additional context. Due to the inherent noise in retrieval results and the coarse granularity of document…
arXiv: arxiv.org/abs/2606.20571
Czytaj więcej o tej technologii: Podszept wolny od balastu: jak odchudzić RAG-a dla telefonu
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
