Kiedy maszyna ocenia wypracowanie: LLM-y kontra egzaminatorzy GCSE

Egzaminatorzy GCSE spierają się o oceny. Dwie osoby patrzą na ten sam arkusz, a punkty potrafią się różnić. Tymczasem model językowy wrzucony w ich rolę zgadza się z konsensusem częściej niż oni sami między sobą. Tak wynika z testu na 32 tysiącach prawdziwych prac uczniów.

Czym są egzaminy GCSE i podwójne ocenianie?

GCSE to brytyjskie egzaminy zdawane przez 16-latków. Żeby oceny były sprawiedliwe, każdą pracę sprawdza niezależnie dwóch egzaminatorów; to tak zwane podwójne ocenianie. Jeśli ich punktacja się rozmija, do akcji wkracza trzeci. Badacze zebrali 32 534 takie podwójnie ocenione odpowiedzi z pięciu przedmiotów, w tym z matematyki i angielskiego. Część arkuszy była pisana odręcznie, z kreślonymi wzorami i nie zawsze czytelnym pismem.

Maszyna w roli egzaminatora

Do testów użyto gotowych modeli językowych, bez dodatkowego trenowania pod kątem oceniania. Każdy model dostawał to samo pytanie i odpowiedź ucznia, a potem musiał wystawić ocenę. Porównywano, na ile ta ocena pokrywa się z konsensusem dwóch żywych egzaminatorów. Bazą porównawczą była zgodność między samymi egzaminatorami; jeśli oni różnili się średnio o pewną wartość, model nie mógł wypaść gorzej.

Modele w przeważającej mierze dobrze zgadzają się z konsensusem egzaminatorów w różnych przedmiotach, a najlepsze z nich zgadzają się z egzaminatorami bliżej niż egzaminatorzy między sobą.

Malachy Fox, Kavi Samra, Paul Jung

Abstract

Wyniki: model kontra człowiek

Najlepsze modele, jak GPT-4o, osiągnęły zgodność z egzaminatorami wyższą niż zgodność między dwoma losowymi egzaminatorami. Innymi słowy, gdyby postawić przed takim modelem nieznaną pracę, jego ocena byłaby bliższa konsensusowi niż ocena przeciętnego egzaminatora. Co ciekawe, przewaga ta utrzymywała się nawet przy zadaniach subiektywnych, na przykład przy ocenie wypracowań z angielskiego, gdzie nie ma jednej poprawnej odpowiedzi.

Modele radziły sobie również z odręcznymi zapisami matematycznymi, pełnymi skreśleń i niestandardowych oznaczeń. Zgadzały się z ludźmi szczególnie tam, gdzie ocena była jednoznaczna, w pobliżu tak zwanej linii egzaminatora, czyli idealnej zgodności.

Czy rozmiar ma znaczenie?

Okazało się, że nie trzeba największych i najdroższych modeli, by uzyskać przyzwoite wyniki. Mniejsze, tańsze wersje też trzymały się blisko konsensusu. Różnice w zgodności między modelami o różnej liczbie parametrów były niewielkie. To dobra wiadomość dla szkół i firm edtech: automatyczne ocenianie nie musi kosztować fortuny.

  • Najlepsze modele językowe przewyższają zgodność między ludzkimi egzaminatorami.
  • Działają nawet na subiektywnych zadaniach, takich jak wypracowania z angielskiego.
  • Radzą sobie z odręcznym pismem i niechlujnymi zapisami matematycznymi.
  • Jakość oceniania nie wymaga największych modeli, co obniża koszty.

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Podsumowanie

Technologia może trafić do klas jako narzędzie wspomagające nauczycieli, zwłaszcza przy sprawdzaniu setek prac domowych. W egzaminach państwowych mogłaby pełnić rolę trzeciego oceniającego, rozstrzygającego spory między ludźmi. Firmy oferujące platformy edukacyjne już mogą testować tanie modele do szybkiej informacji zwrotnej dla uczniów.

Metryka artykułu źródłowego

Tytuł oryginalny: LLM Performance on a Real, Double-Marked GCSE Benchmark

Autorzy: Malachy Fox, Kavi Samra, Paul Jung

Data publikacji: 25 czerwca 2026

arXiv: arxiv.org/abs/2606.24973

PDF: https://arxiv.org/pdf/2606.24973.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *