Kiedy lekarz na wizycie domowej potrzebuje szybko sprawdzić najnowsze wytyczne leczenia, a sieć komórkowa ledwo zipie, to tablet czy smartfon z asystentem AI staje się bezużyteczny. Nawet jeśli aplikacja działa lokalnie, to modele językowe zżerają baterię tak, że po czterech godzinach urządzenie pada. To codzienność w terenowej opiece medycznej. Nowa metoda kompresji promptów o nazwie CORE może to zmienić.
Jak działa CORE i dlaczego obejdzie się bez dodatkowego modelu
W typowym systemie RAG asystent pobiera fragmenty z bazy wiedzy, a potem doładowuje nimi zapytanie do dużego modelu. Problem w tym, że tych fragmentów jest za dużo, pełno w nich szumu, co spowalnia działanie modelu i zżera pamięć. Dotychczasowe metody kompresji wykorzystywały dodatkowy, mniejszy model językowy (SLM), który oceniał, które zdania są ważne. Tyle że taki SLM sam jest ciężki, a na smartfonie z 4 GB RAM nie bardzo ma gdzie się zmieścić. CORE wywraca to do góry nogami: używa prostszych technik przetwarzania języka, takich jak rozpoznawanie encji (NER) i analiza podobieństwa semantycznego, by z gąszczu dokumentów wyłowić tylko te zdania, które faktycznie pasują do pytania. Dzięki temu nie potrzebuje dodatkowego SLM-a, a na telefonie zostaje więcej miejsca na główny model LLM. W testach na smartfonie Huawei Nova zużycie energii spadło o 95,74% w porównaniu do LLMLingua2, a w pamięci zajmowało średnio o połowę mniej.
Scenariusz: przychodnia na wsi, gdzie zasięg bywa tylko na zewnątrz
Pani doktor Katarzyna pracuje w ośrodku zdrowia w gminie Lutowiska. Pacjent przychodzi z bólem stawów i rumieniem wędrującym, podejrzenie boreliozy. Lekarka chce szybko odświeżyć sobie schemat antybiotykoterapii według aktualnych wytycznych Polskiego Towarzystwa Epidemiologów i Lekarzy Chorób Zakaźnych. Otwiera aplikację na swoim dwuletnim smartfonie, która ma lokalną kopię wytycznych. Wpisuje: borelioza wczesna, dorosły, leczenie doustne i po 0,8 sekundy dostaje odpowiedź: Doksycyklina 100 mg dwa razy dziennie przez 14 do 21 dni (poziom wiarygodności I, siła zaleceń A) wraz z cytatem paragrafu. Całość działa w trybie offline, bateria spadła o niecały 1%. Wcześniej, gdy próbowała użyć ogólnego asystenta AI z chmury, albo nie było zasięgu, albo po dwóch godzinach pracy bateria siadała.

Konkretne oszczędności: od energii po czas pacjenta
Zespół badaczy pokazał, że CORE poprawia trafność odpowiedzi o co najmniej 30,19% przy limicie 2000 tokenów, a w pamięci potrzebuje o połowę mniej. W warunkach przychodni wiejskiej, gdzie dziennie wykonuje się 30 zapytań, roczne zużycie energii na same kompresje to mniej niż 5 złotych. Dla porównania, rozwiązanie oparte na SLM-ie kosztowałoby około 100 złotych rocznie w samej energii, a do tego bateria padałaby po 4 godzinach. Do tego dochodzi czas: odpowiedź przychodzi w ułamku sekundy, a nie po 3 sekundach oczekiwania na chmurę. Jeśli lekarz oszczędza średnio 2 minuty na każdą konsultację, to przy 15 pacjentach dziennie daje to pół godziny dziennie, którą można przeznaczyć na dokładniejszy wywiad.
Jak zacząć testy i uniknąć rozczarowań
Żeby sprawdzić CORE w swojej placówce, nie trzeba kupować drogiego sprzętu. Wystarczy zwykły smartfon z Androidem i 4 GB RAM oraz lokalna baza wytycznych w formacie tekstowym. Najpierw wybierz 50 rzeczywistych pytań klinicznych, które lekarze zadają najczęściej, i przepuść je przez system, mierząc poprawność odpowiedzi i czas reakcji. Potem porównaj ze standardowym RAG bez kompresji oraz z wersją chmurową. Jeśli wyniki potwierdzą oszczędności, można wdrożyć pilotaż na jednym telefonie na tydzień, monitorując zużycie baterii. Dopiero po tym decydować o szerszym rolloucie. Warto pamiętać, że CORE sprawdza się tam, gdzie wytyczne są dość ustrukturyzowane i zawierają dużo nazw własnych, bo algorytm opiera się m.in. na encjach. W przeciwnym razie może nie dawać tak spektakularnych zysków.
Czy to działa wszędzie? Nie do końca
Mobilny asystent z CORE to nie cudowna pigułka na wszystkie problemy, ale dla lekarzy w terenie, którzy codziennie walczą z brakiem zasięgu i padającą baterią, może być realnym narzędziem. W połączeniu z małym, lokalnym modelem językowym daje dostęp do wiedzy medycznej bez uzależnienia od chmury. To oznacza szybsze decyzje i mniej frustracji. Jeśli zarządzasz przychodnią w regionie o słabej infrastrukturze, warto rozważyć jednodniowy test na własnym telefonie.
- 95,74% mniejsze zużycie energii na smartfonie w porównaniu do LLMLingua2
- Działa offline na zwykłym telefonie z 4 GB RAM
- O 30% wyższa trafność odpowiedzi medycznych przy tym samym budżecie tokenów
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Less is More: Lightweight Prompt Compression for Question Answering Applications on Edge Devices
Autorzy: Zihuai Xu, Ruofei Hou, Yang Xu, Hongli Xu, Yunming Liao i in.
In agent-driven question answering (QA) applications, retrieval-augmented generation (RAG) is commonly introduced to enhance the response accuracy of large language models (LLMs) by providing additional context. Due to the inherent noise in retrieval results and the coarse granularity of document…
arXiv: arxiv.org/abs/2606.20571
Czytaj więcej o tej technologii: Podszept wolny od balastu: jak odchudzić RAG-a dla telefonu
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
