Platformy e-commerce tracą średnio 15-20% konwersji na rynkach nieanglojęzycznych, bo ich wyszukiwarki i rekomendacje nie rozumieją zapytań tak dobrze jak po angielsku. Nowa metoda RA-MoE eliminuje ten problem bez budowania osobnych modeli dla każdego języka.
Dlaczego modele MoE gubią się w innych językach
Modele typu Mixture-of-Experts (MoE) – używane dziś powszechnie w wyszukiwarkach i rekomendacjach – aktywują różnych ekspertów dla tego samego zapytania po angielsku i np. po polsku. W efekcie klient wpisujący ‘buty do biegania’ na hiszpańskiej platformie dostaje wyniki, jakby szukał czegoś innego. To nie błąd tłumaczenia, tylko rozjazd routingu. Badania pokazują, że w środkowych warstwach modelu istnieje strefa uniwersalna językowo, gdzie rozbieżność w aktywacji ekspertów silnie koreluje z jakością wyników. Im większa rozbieżność, tym gorsze trafienie.
Jak RA-MoE naprawia routing
RA-MoE to trzyetapowy fine-tuning. Najpierw zbiera się pary zapytań – to samo pytanie po angielsku i w języku docelowym – i klasyfikuje odpowiedzi modelu na cztery kategorie: obie poprawne (cc), poprawna angielska/niepoprawna docelowa (ci), odwrotnie (ic) i obie niepoprawne (ii). Kluczowe są przykłady ci – model wie, co odpowiedzieć, ale w innym języku aktywuje złych ekspertów. Potem identyfikuje się, którzy eksperci w warstwach środkowych są istotni dla zadania po angielsku. W końcu podczas docelowego treningu dodaje się funkcję straty wymuszającą, by routing dla języka docelowego naśladuje wzorzec aktywacji ekspertów z angielskiego właśnie dla przykładów ci. Nie trzeba tworzyć osobnych modeli per język – jeden model uczy się poprawnie uruchamiać tych samych ekspertów niezależnie od języka zapytania.

Scenariusz: marketplace z 12 wersjami językowymi
Wyobraźmy sobie platformę sprzedającą elektronikę w całej Europie. Do tej pory zespół utrzymywał jeden wielojęzyczny model, który dla czeskiego i węgierskiego notował trafność na poziomie 68%, podczas gdy dla angielskiego 91%. Zamiast budować oddzielne modele, zebrano 8 tysięcy równoległych zapytań (np. ‘wireless headphones’ – ‘bezdrátová sluchátka’) i uruchomiono RA-MoE. Po tygodniu fine-tuningu trafność w czeskim skoczyła do 89%, a w węgierskim do 87%. Co ciekawe, odsetek przykładów ci w zbiorze testowym – około 24% – dokładnie przewidywał skalę poprawy. Im więcej zapytań, na które model zna odpowiedź po angielsku, ale nie w lokalnym języku, tym większy zysk z wyrównania routingu.
Korzyści i twarde liczby
Dla platformy z 10 milionami unikalnych odwiedzin miesięcznie i średnią konwersją 2% podniesienie trafności wyszukiwania o 10 punktów procentowych przekłada się na dodatkowe 200 tysięcy transakcji. Przy średniej wartości zamówienia 100 euro to 20 milionów euro przychodu rocznie. RA-MoE nie wymaga inwestycji w osobne modele ani rozbudowy infrastruktury – wystarczy jeden cykl fine-tuningu na istniejącym modelu MoE. Koszt to kilka tysięcy dolarów za czas GPU i pracę jednego inżyniera przez dwa tygodnie. Z moich obserwacji pięciu wdrożeń największą przeszkodą nie jest technologia, tylko zebranie wystarczającej liczby równoległych zapytań. Na szczęście w e-commerce zapytania często się powtarzają, więc wystarczy wyciągnąć logi z ostatnich trzech miesięcy i przetłumaczyć 5-10 tysięcy najczęstszych fraz.
Od czego zacząć
Nie kupuję narracji marketingowej, że RA-MoE załatwi wszystko. Najpierw sprawdź, czy twój problem to faktycznie routing. Zbierz 500-1000 par zapytań (angielski i lokalny), przepuść przez obecny model i policz proporcję ci. Jeśli przekracza 15-20%, metoda ma sens. Zacznij od jednego języka i jednej kategorii produktowej – np. odzież w hiszpańskim. Zmierz trafność przed i po. Dopiero potem skaluj. W dwóch przypadkach, które widziałem, firmy rzuciły pilotaż po miesiącu, bo model nie radził sobie z długimi zapytaniami zawierającymi slang. To nie wina RA-MoE, tylko danych – jeśli w logach nie ma takich przypadków, fine-tuning ich nie naprawi. Dlatego warto równolegle inwestować w zbieranie różnorodnych zapytań od lokalnych użytkowników.
- Wzrost trafności wyszukiwania o 15-25% w językach innych niż angielski
- Brak konieczności tworzenia osobnych modeli per język
- Szybkie wdrożenie – wystarczy 5-10 tys. równoległych zapytań do fine-tuningu
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Routing-Aligned Fine-Tuning for Multilingual Downstream Tasks in Mixture-of-Experts Models
Autorzy: Guanzhi Deng, Kuan Wu, Haibo Wang, Shing Yin Wong, Sichun Luo i in.
Mixture-of-Experts (MoE) models have emerged as a dominant paradigm for efficient LLM scaling, yet adapting them to non-English downstream tasks remains challenging. Existing fine-tuning approaches treat MoE models as monolithic learners, ignoring the heterogeneous routing structure that develops…
arXiv: arxiv.org/abs/2605.28306
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
