Eksperymenty społeczne w symulacji: czy polityka działa, czy zmienia respondentów?

Zespoły behawioralne w administracji coraz chętniej testują komunikaty zdrowotne i reformy podatkowe na syntetycznych populacjach generowanych przez modele językowe. Nowe badanie pokazuje jednak, że takie symulacje mogą być jak krzywe zwierciadło: respondenci zmieniają się pod wpływem samego testu, a nie polityki. Metoda wykrywania tego dryfu może uchronić instytucje przed kosztownymi błędami.

Symulowani obywatele to nie probówka

Modele językowe tworzą dziś wiarygodnych ‘syntetycznych obywateli’, którym urzędy zadają pytania o akceptację nowych przepisów czy skuteczność komunikatu. Problem w tym, że te persony nie są statyczne. Gdy ulotka o szczepieniach używa sformułowania ‘jako odpowiedzialny rodzic’, symulowana osoba może niejawnie przyjąć bardziej rodzinny światopogląd i zacząć inaczej odpowiadać na pozornie neutralne pytania. To zjawisko naukowcy z MIT i Haverford College nazwali user drift – dryfem użytkownika. W praktyce sprawia ono, że grupy ‘poddane działaniu’ i ‘kontrolna’ przestają być porównywalne, a cały syntetyczny eksperyment zamienia się w badanie obserwacyjne z ukrytym zaburzeniem. Dla analityka politycznego oznacza to, że zmierzony efekt interwencji może być w dużej mierze artefaktem, a nie reakcją na samą politykę.

Autorzy badania formalizują problem w języku wnioskowania przyczynowego. Pokazują, że obserwowany efekt to nie tylko rzeczywisty wpływ interwencji, ale również obciążenie wynikające z selekcji – czyli różnic w ukrytych cechach person między ramionami eksperymentu. Polityka ‘testująca’ może więc zmienić nie tylko odpowiedź, ale i samego respondenta.

Negatywne kontrole – papierkiem lakmusowym dryfu

Rozwiązanie zaproponowane w paperze opiera się na diagnostyce z użyciem tzw. negatywnych zmiennych kontrolnych. Są to cechy, na które interwencja nie powinna mieć wpływu – na przykład obywatelstwo, staż pracy czy stan cywilny – ale które są wrażliwe na ten sam ukryty dryf. Jeśli w grupie, która widziała nową kampanię podatkową, nagle znacząco rośnie odsetek osób samozatrudnionych, mamy sygnał, że profile ‘popłynęły’. Diagnostic mierzy się przy pomocy całkowitej odległości wariacyjnej (TVD) między rozkładami tych zmiennych w grupach. Wysoka wartość TVD oznacza, że porównanie między grupami jest niewiarygodne.

Kolejny krok to iteracyjne dopytywanie person o dodatkowe cechy – tzw. elicytacja zakłócaczy – i dodawanie ich do opisu profilu. Proces powtarza się, aż TVD spadnie do akceptowalnego poziomu. W ten sposób ‘usztywniamy’ persony, blokując dryf i odzyskując kontrolę nad eksperymentem. Co ważne, badanie pokazało, że same ogólne zmienne demograficzne (wiek, płeć) czasem pogłębiają dryf, dlatego potrzebne są też atrybuty specyficzne dla kontekstu, np. zaufanie do instytucji czy skłonność do ryzyka.

Scenariusz: kampania antynikotynowa w 48 godzin zamiast 3 miesięcy

Wyobraźmy sobie zespół behawioralny przy Ministerstwie Zdrowia. Ma przetestować dwie wersje cyfrowej ulotki: jedna odwołuje się do strachu przed chorobą, druga do norm społecznych. Tworzą 200 syntetycznych person z podstawowymi cechami: wiek, płeć, województwo. W naiwnym eksperymencie ulotka ‘strasząca’ wypada imponująco – deklarowana chęć rzucenia palenia rośnie o 12 punktów procentowych. Zespół sięga jednak po opisaną metodę i sprawdza negatywną kontrolę ‘posiadanie wykształcenia medycznego’. Okazuje się, że w grupie eksperymentalnej jest o 15% więcej person z takim wykształceniem – a więc grupy nie są równoważne.

Następuje iteracyjna elicytacja: system ‘dopytuje’ persony o wykonywany zawód, poziom wiedzy o zdrowiu, wcześniejsze próby rzucenia palenia. Te cechy trafiają do profilu i eksperyment jest uruchamiany ponownie. Po czterech iteracjach TVD dla wszystkich zmiennych kontrolnych spada poniżej progu. Efekt ulotki straszącej kurczy się wtedy do 4 punktów procentowych z przedziałem ufności zahaczającym o zero – wynik jest nieistotny statystycznie. Cała analiza zamknęła się w 48 godzinach i kosztowała niespełna 20 000 PLN, oszczędzając 3-miesięczny pilotaż terenowy wart 300 000 PLN i ryzyko nietrafionej kampanii ogólnopolskiej.

Korzyści i rachunek ekonomiczny

Metoda pozwala administracji szybko prototypować dziesiątki wariantów polityki. Tradycyjny pilotaż behawioralny z firmą badawczą to wydatek 150 000–500 000 PLN i 8–12 tygodni pracy. Syntetyczny pilot z komercyjnymi API modeli językowych kosztuje 15 000–50 000 PLN i trwa kilka dni – przy założeniu 200 person i 30 powtórzeń na warunek. Główna wartość leży jednak w unikaniu kosztownych błędów. Wdrożenie nieskutecznej kampanii zdrowotnej to wydatek rzędu 2–5 mln PLN, nie licząc utraconego zaufania publicznego. Dla ministerstwa finansów testującego komunikat o uproszczeniu rozliczeń, wczesne wykrycie dryfu może uchronić przed reformą, która zamiast wzrostu compliance wywoła opór społeczny.

Z perspektywy analityka politycznego, narzędzie daje twardy liczbowy próg: jeśli TVD na wybranych zmiennych kontrolnych przekracza 0.15, nie warto ufać wynikowi. Takie sito decyzyjne redukuje ryzyko fałszywie pozytywnych wniosków o około 70% – według wewnętrznych symulacji autorów – i sprawia, że zespoły mogą testować nie 2–3, a 20 wariantów komunikatu w tym samym czasie.

Od czego zacząć?

Pierwszym krokiem jest wybór 3–5 twardych zmiennych kontrolnych pasujących do kontekstu interwencji – np. staż pracy, status zatrudnienia, wykształcenie – i włączenie ich do szablonu persony. Następnie warto przeprowadzić kalibrację na małej próbce 50 person, porównując TVD przed i po interwencji. Dopiero gdy mechanizm diagnostyczny działa, można skalować eksperyment. Dla instytucji publicznych niskim progiem wejścia są dostępne modele open-source (jak Llama-3) uruchamiane na serwerach administracji, co dodatkowo rozwiązuje kwestie ochrony danych. Syntetyczne eksperymenty nie zastąpią badań na realnych obywatelach, ale z tą metodą przestają być loterią – stają się narzędziem o znanej i mierzonej niepewności.

  • Wykrywa dryf próby przed podjęciem decyzji o kosztownym pilotażu terenowym
  • Skraca cykl testowania interwencji z tygodni do godzin
  • Redukuje ryzyko wdrożenia nieskutecznej polityki o około 70%
  • Pozwala zespołom behawioralnym analizować do 20 wariantów komunikatu zamiast 2–3

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study

Autorzy: Victoria Lin, Taedong Yun, Maja Matari’c, John Canny, Arthur Gretton i in.

Large language models (LLMs) show potential as simulators of human behavior, offering a scalable way to study responses to interventions. However, because LLMs are trained largely on observational data, interventions in experiments with LLM-simulated synthetic users can induce unintended shifts i…

arXiv: arxiv.org/abs/2605.20767

Czytaj więcej o tej technologii: Gdy syntetyczny użytkownik przestaje być sobą, czyli dlaczego eksperymenty na LLM-ach to nie RCT

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *