RA-MoE: trenowanie modeli AI, aby rozumiały więcej niż tylko angielski
Wielkie modele językowe radzą sobie świetnie po angielsku, ale kiedy przychodzi do polskiego, arabskiego czy indonezyjskiego, często zawodzą. Naukowcy znaleźli przyczynę w architekturze Mixture-of-Experts i proponują RA-MoE – metodę, która nakierowuje 'ekspertów' modelu na to,…
