Rodzic w edukacji domowej stawia piątkę za wypracowanie, uczeń twierdzi, że zasłużył na maksa, a kuratorium podczas wizyty kontrolnej pyta o obiektywne standardy. W sądzie ostatniej instancji, jakim jest domowy stół, brakuje bezstronnego sędziego. Badania nad modelami językowymi pokazują, że już teraz mogą one oceniać prace uczniów zgodniej z konsensusem egzaminatorów państwowych niż sami egzaminatorzy między sobą.
Subiektywny widelec, czyli gdzie rodzic traci obiektywizm
Z moich rozmów z rodzicami w edukacji domowej wynika, że największym problemem nie jest brak materiałów ani czasu. To moment, gdy trzeba wystawić ocenę opisową lub cyfrową, która trafi do dokumentacji dla kuratorium. Rodzic-nauczyciel, nawet z najlepszymi intencjami, wpada w pułapkę podwójnej roli. Z jednej strony widzi rozwój dziecka i chce go nagrodzić, z drugiej musi zachować standard porównywalny z egzaminem państwowym.
W praktyce oznacza to, że wypracowanie z historii, które w domu dostało 85%, na egzaminie ósmoklasisty dostałoby raczej 60%. Różnica nie wynika ze złej woli, tylko z braku dostępu do skali, którą posługują się egzaminatorzy. Dochodzi do tego czynnik emocjonalny: rodzic widzi, ile pracy dziecko włożyło w tekst, i podświadomie zawyża ocenę. To nie jest zarzut, to mechanizm psychologiczny.
Model, który zgadza się z egzaminatorami bardziej niż oni sami ze sobą
Badanie opublikowane przez Malachy’ego Foxa i współpracowników przeanalizowało 32 534 podwójnie ocenionych odpowiedzi uczniów na próbnych egzaminach GCSE. Każdą pracę sprawdzało dwóch niezależnych egzaminatorów, co dało punkt odniesienia: poziom zgodności między dwoma ludźmi. Następnie te same prace oceniły gotowe, nie dostrajane modele językowe. Wynik był zaskakujący: najlepsze modele zgadzały się z konsensusem egzaminatorów bardziej niż egzaminatorzy zgadzali się między sobą.
Co istotne, dotyczyło to nie tylko testów zamkniętych czy matematyki z jednoznaczną odpowiedzią. Modele radziły sobie równie dobrze z wypracowaniami z angielskiego, gdzie ocena jest z natury subiektywna, oraz z niestarannie zapisanymi rozwiązaniami matematycznymi. W kontekście edukacji domowej to przełom: dostajesz narzędzie, które ocenia pracę dziecka tak, jak zrobiłby to egzaminator państwowy, ale bez konieczności zatrudniania go i bez opóźnienia.

Scenariusz: raportowanie postępów do kuratorium przestaje być loterią
Wyobraź sobie sytuację: koniec semestru, musisz wysłać do kuratorium zestawienie ocen z pięciu przedmiotów. Twoje dziecko napisało wypracowanie o “Panu Tadeuszu”, rozwiązało arkusz z matematyki i przygotowało projekt z biologii. Każdą z tych prac wrzucasz do systemu opartego na modelu sprawdzonym w badaniu Foxa. System zwraca nie tylko ocenę, ale też szczegółowy komentarz: dlaczego praca dostała tyle punktów, gdzie są braki, jak wypada na tle próby krajowej.
Podczas wizyty kontrolnej pokazujesz kuratorowi nie swoje notatki, ale raport wygenerowany przez model, który ma udokumentowaną zgodność z linią egzaminatora na poziomie wyższym niż międzyludzka. To zmienia dynamikę rozmowy: z “proszę udowodnić, że uczy Pan/i rzetelnie” na “oto wyniki według standardu państwowego”. Rodzic przestaje być stroną w sporze, staje się dostawcą obiektywnych danych.
Koszty i zwrot z inwestycji
Badanie Foxa podkreśla, że zgodność modeli z egzaminatorami nie zależy silnie od rozmiaru modelu. Nie potrzebujesz największego, najdroższego klastra GPU. Mniejsze, tańsze modele radzą sobie niemal równie dobrze. Szacunkowo, koszt oceny jednej pracy przez API modelu to około 0,20 do 0,50 zł, przy czasie odpowiedzi poniżej 10 sekund.
Dla porównania, korepetytor lub egzaminator pobiera od 80 do 150 zł za godzinę, a sprawdzenie jednego wypracowania zajmuje mu 15 do 20 minut. Dla rodzica oceniającego 30 prac miesięcznie, model zwraca się w pierwszym miesiącu. Platformy wspierające homeschooling mogą zaoferować tę funkcję jako element abonamentu, zwiększając swoją wartość bez proporcjonalnego wzrostu kosztów. A przede wszystkim, zyskujesz spokój przy kontroli kuratoryjnej, co jest trudne do przeliczenia na złotówki.
- Ocena zgodna z linią egzaminatora państwowego, eliminująca subiektywizm rodzica
- Obsługa pisma odręcznego i niestarannych zapisów matematycznych
- Koszt poniżej 0,50 zł za pracę przy czasie odpowiedzi do 10 sekund
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: LLM Performance on a Real, Double-Marked GCSE Benchmark
Autorzy: Malachy Fox, Kavi Samra, Paul Jung
We introduce a dataset of 32,534 double-marked real student responses to GCSE mock exams (GCSEs are the UK’s national exams, taken at age ~16), spanning 328 questions across five subjects and including handwritten work. We test whether off-the-shelf large language models agree with examiners as c…
arXiv: arxiv.org/abs/2606.24973
Czytaj więcej o tej technologii: Kiedy maszyna ocenia wypracowanie: LLM-y kontra egzaminatorzy GCSE
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
