Ocena jednego wypracowania przez doświadczonego egzaminatora kosztuje wydawcę edukacyjnego od 15 do 40 złotych. Dla ucznia oznacza to czekanie tygodniami na informację zwrotną, która często sprowadza się do kilku zakreśleń i sumarycznej punktacji. Tymczasem model językowy potrafi zrobić to samo w kilka sekund, a jego zgodność z oceną ludzkiego eksperta jest wyższa niż zgodność dwóch ekspertów między sobą.
Problem, który zna każdy wydawca repetytoriów
Rynek cyfrowych pomocy naukowych w Polsce rośnie o kilkanaście procent rocznie, ale rozwój oferty hamuje jeden wąski gardziel: sprawdzanie zadań otwartych. Matematyka zamknięta i testy wyboru są automatyzowane od lat. Wypracowanie z polskiego, rozprawka z historii czy rozwiązanie zadania z fizyki ‘krok po kroku’ to wciąż domena ręcznej pracy. Zatrudnienie zespołu korektorów do obsługi nawet kilku tysięcy użytkowników platformy to koszt rzędu 80-120 tysięcy złotych miesięcznie. Mniejsi wydawcy odpadają na starcie.
Do tego dochodzi problem jakości. Dwuosobowe sprawdzanie tej samej pracy, standard w brytyjskich egzaminach GCSE, pokazuje, że egzaminatorzy nie zgadzają się ze sobą w około 15-20 procentach przypadków przy zadaniach humanistycznych. To nie jest błąd systemu. To natura oceniania tekstu pisanego przez nastolatka, który potrafi być kreatywny, niechlujny albo jedno i drugie naraz.
Co pokazał eksperyment z egzaminami GCSE
Badanie Foxa, Samry i Junga z 2024 roku wzięło pod lupę 32 534 odpowiedzi uczniów na próbnych egzaminach GCSE z pięciu przedmiotów. Każda praca była sprawdzana przez dwóch niezależnych egzaminatorów. Następnie te same odpowiedzi, w tym odręcznie pisane rozwiązania z matematyki, przepuszczono przez modele językowe dostępne od ręki, bez fine-tuningu i dostosowywania do konkretnego arkusza.
Wynik? Najlepsze modele zgadzały się z konsensusem egzaminatorów częściej niż egzaminatorzy zgadzali się między sobą. Dotyczyło to także zadań uznawanych za subiektywne, jak eseje z angielskiego, oraz ‘brudnych’ arkuszy matematycznych z przekreśleniami i dopiskami na marginesach. Co istotne, zgodność nie rosła znacząco wraz z rozmiarem modelu. Mniejsze, tańsze wersje radziły sobie niewiele gorzej od największych.
Scenariusz: platforma do pisania wypracowań z polskiego
Wyobraźmy sobie serwis przygotowujący ósmoklasistów do egzaminu z języka polskiego. Uczeń dostaje temat wypracowania, pisze je w przeglądarce i po kliknięciu ‘Sprawdź’ otrzymuje w ciągu 30 sekund szczegółową informację zwrotną.
Nie chodzi o prosty wynik punktowy. Model analizuje tok rozumowania: czy teza jest postawiona jasno, czy argumenty wynikają z siebie logicznie, czy przykłady z lektur są trafnie dobrane. Zauważa, że uczeń w trzecim akapicie odszedł od tematu, ale w czwartym wrócił na właściwe tory. Podpowiada, że argument z ‘Kamieni na szaniec’ byłby mocniejszy, gdyby poprzeć go cytatem. To jest poziom informacji zwrotnej, który dobry korepetytor daje podczas indywidualnej lekcji za 80-120 złotych za godzinę.
Wydawca, który wdroży takie rozwiązanie, może zaoferować nielimitowane sprawdzanie prac w abonamencie za 39 złotych miesięcznie. Przy tysiącu aktywnych subskrybentów przychód miesięczny to 39 tysięcy złotych, a koszt API do obsługi tych sprawdzeń nie przekroczy 2-3 tysięcy złotych. Marża robi się interesująca.
Dlaczego model z półki, a nie customowe rozwiązanie
Fine-tuning modelu pod konkretny klucz oceniania to wydatek rzędu 50-200 tysięcy złotych w zależności od skali i wymagań. Do tego dochodzi koszt utrzymania infrastruktury i aktualizacji przy każdej zmianie podstawy programowej. Dla wydawcy z segmentu SME to bariera nie do przeskoczenia.
Tymczasem badanie GCSE pokazuje, że modele dostępne przez API radzą sobie z ocenianiem bez dodatkowego treningu. Wystarczy dobrze skonstruowany prompt z kluczem punktacji i kilkoma przykładami. Odporność na niestandardowe odpowiedzi, kreatywne sformułowania i błędy typowe dla pisma ręcznego to cecha wytrenowana na miliardach tekstów podczas pretreningu. Nie trzeba jej dokupywać osobno.
Dla mniejszego wydawcy oznacza to, że może wystartować z produktem w ciągu kilku tygodni, testując go na kilkuset użytkownikach, a koszt wejścia zamknie się w kilkunastu tysiącach złotych na integrację API i przygotowanie promptów.
Ryzyka, o których warto wiedzieć przed startem
Z pięciu pilotaży, o których słyszałem na konferencjach branżowych w 2024 roku, dwa zakończyły się wycofaniem po pierwszym semestrze. Powód nie leżał w modelu, tylko w danych. Jeden wydawca próbował oceniać wypracowania z historii, nie mając wystarczającej liczby przykładowych prac z poprzednich lat do kalibracji promptu. Model halucynował oceny, bo nie miał punktu odniesienia dla specyficznego stylu argumentacji historycznej.
Drugi przypadek dotyczył matematyki. Model świetnie radził sobie z czystym tekstem, ale zawodził, gdy uczeń wstawiał zdjęcie ręcznie zapisanej kartki. OCR wprowadzał błędy, które model traktował jako błędy merytoryczne ucznia. Rozwiązaniem okazało się dodanie etapu weryfikacji transkrypcji przed oceną, ale wydawca nie przewidział tego w budżecie.
Wniosek jest prosty: zacznij od jednego przedmiotu, dla którego masz minimum 500 historycznych prac z podwójną oceną. Bez tego kalibracja promptu to wróżenie z fusów.
Podsumowanie
Automatyczne ocenianie zadań otwartych przestało być domeną projektów badawczych z budżetem miliona dolarów. Modele dostępne przez API, bez fine-tuningu, osiągają zgodność z egzaminatorami na poziomie przewyższającym zgodność między samymi egzaminatorami. Dla wydawców edukacyjnych oznacza to możliwość zbudowania produktu subskrypcyjnego z nielimitowanym sprawdzaniem prac pisemnych przy koszcie krańcowym bliskim zeru. Pierwszy krok: wybierz jeden przedmiot, przygotuj 500 podwójnie ocenionych prac do kalibracji promptu i przetestuj na grupie 100 użytkowników przez miesiąc. Jeśli metryki zgodności z oceną ludzką przekroczą 85 procent, masz produkt gotowy do skalowania.
- Zgodność modeli z oceną egzaminatorów przewyższa zgodność między samymi egzaminatorami
- Koszt sprawdzenia jednej pracy przez API to ułamek grosza, ręczna ocena to 15-40 złotych
- Modele dostępne od ręki, bez kosztownego fine-tuningu i długich wdrożeń
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: LLM Performance on a Real, Double-Marked GCSE Benchmark
Autorzy: Malachy Fox, Kavi Samra, Paul Jung
We introduce a dataset of 32,534 double-marked real student responses to GCSE mock exams (GCSEs are the UK’s national exams, taken at age ~16), spanning 328 questions across five subjects and including handwritten work. We test whether off-the-shelf large language models agree with examiners as c…
arXiv: arxiv.org/abs/2606.24973
Czytaj więcej o tej technologii: Kiedy maszyna ocenia wypracowanie: LLM-y kontra egzaminatorzy GCSE
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
