Gdy syntetyczny użytkownik przestaje być sobą, czyli dlaczego eksperymenty na LLM-ach to nie RCT
Wyobraź sobie, że testujesz dwa interfejsy aplikacji. Rekrutujesz grupę '30-letnich mężczyzn', każdemu pokazujesz inną wersję i mierzysz zadowolenie. Problem? Twoi testerzy nie są prawdziwi — to modele językowe. I właśnie okazuje się, że w zależności…
