AI w ratuszu: jak sprawdzić, czy chatbot nie segreguje mieszkańców według dzielnic

Gdy mieszkaniec pyta miejskiego asystenta, gdzie znajdzie spokojne przedszkole, spodziewa się neutralnej odpowiedzi. Badania pokazują, że modele językowe interpretują ‘spokojne’ zupełnie inaczej w zależności od tego, czy pytanie zadaje Anna Nowak czy Ahmed Ali. W efekcie ten sam algorytm może nieświadomie prowadzić użytkowników do odmiennych placówek, pogłębiając przestrzenne nierówności w dostępie do usług publicznych.

Dlaczego mapa miasta nie jest neutralna dla AI

Zespół Samada i współpracowników przetestował siedem modeli językowych w czterech amerykańskich miastach, symulując pary użytkowników o identycznych preferencjach mieszkaniowych, ale różnym pochodzeniu etnicznym. Okazało się, że rekomendacje lokalizacji zmieniały się nie tylko w zależności od rasy pytającego, ale też od tego, jakie styl życia wybrał. Modele wewnętrznie łączyły cechy dzielnic z określonymi grupami społecznymi, a proces ten nasilał się, gdy użytkownik dodawał szczegóły o swoich upodobaniach. Dla urzędników odpowiedzialnych za cyfrowe usługi miejskie to sygnał alarmowy: te same systemy, które polecają przedszkola, przychodnie czy domy kultury, mogą powielać wyuczone schematy segregacji, nawet jeśli nikt ich tego celowo nie nauczył.

Na bazie tych wyników powstał detektor uprzedzeń przestrzennych dedykowany jednostkom samorządowym. Narzędzie pobiera lokalne dane geoprzestrzenne i demograficzne, a następnie uruchamia serie audytów par na docelowym modelu językowym, zanim trafi on do portalu obywatelskiego. Administratorzy ustalają progi akceptowalnego ryzyka, a system mierzy odsetek przypadków, w których rekomendacje różnią się istotnie w zależności od wskazania na pochodzenie pytającego. Dzięki temu już na etapie testów wiadomo, czy chatbot może nieumyślnie kierować część użytkowników do placówek o gorszej renomie albo w mniej zielonych dzielnicach.

Przedszkole dla Anny, inne dla Fatimy: scenariusz testowy

Wyobraźmy sobie Wrocław wdrażający asystenta głosowego, który pomaga rodzicom wybrać publiczne przedszkole. Jedni wpisują ‘lubię spokojne okolice z dużą ilością zieleni’, inni ‘zależy mi na dobrej komunikacji’. Detektor uruchamia test w parach: na jednym końcu Anna Kowalska, na drugim Fatima Al-Rashid. Obie pytają o to samo, a system analizuje geolokalizację placówek, które polecił. W idealnym świecie wyniki powinny się pokrywać lub różnić tylko obiektywnym rankingiem dostępności miejsc. Tymczasem model, bazując na wcześniejszych danych o rynku nieruchomości i migracjach we Wrocławiu, może uznać, że spokojna okolica dla osoby o polskim nazwisku to Stare Miasto, a dla osoby o arabsko brzmiącym imieniu to Nowy Dwór. Detektor wyłapuje rozbieżność i oznacza incydent. Urząd ma szansę skorygować działanie asystenta, na przykład dodając do promptu systemowego jawną dyrektywę o unikaniu zróżnicowania ze względu na rasę lub wprowadzając twarde filtry geograficzne.

Co ważne, detektor nie sugeruje, że model jest rasistowski. Pokazuje raczej, w jakich warunkach jego ‘luź interpretacyjny’ wypełnia luki w zapytaniu stereotypami wyuczonymi z danych treningowych. Testy w czterech amerykańskich miastach udowodniły, że takie zachowanie nie jest stałą cechą modelu, ale pojawia się sytuacyjnie i w różnym natężeniu w zależności od miasta. Dlatego uniwersalny test bez lokalnego kontekstu jest mało przydatny, a urząd musi pracować na swoich mapach i statystykach.

Ile kosztuje niezauważone uprzedzenie AI?

Koszt wdrożenia narzędzia dla średniego miasta wojewódzkiego szacuję na 40-60 tys. zł rocznie, wliczając integrację z istniejącymi API, audyt początkowy i monitoring. To kwota porównywalna z ceną jednego, przyzwoitego chatbota na zamówienie. Tymczasem pojedyncza sprawa o dyskryminację w dostępie do usług publicznych, jeśli trafi do sądu, może oznaczać odszkodowanie rzędu 100-200 tys. zł, a do tego dochodzą utrata zaufania mieszkańców i negatywny rozgłos. Urzędnicy z Krakowa wspominali mi, że po głośnym przypadku algorytmu rekrutacyjnego w jednym z sąsiednich krajów zaczęli dużo ostrożniej podchodzić do zakupów AI. Detektor może być dla nich argumentem w dialogu z dostawcą: ‘chcemy nie tylko testów wydajnościowych, ale też audytu równościowego’.

Poza unikaniem kar, wartość leży w dostępności usług. Gdy chatbot nierówno traktuje użytkowników, część z nich rezygnuje z kanału cyfrowego i dzwoni na infolinię, zwiększając koszty obsługi. W jednym z pilotaży dla aplikacji do rezerwacji wizyt w przychodniach, który obserwowałem, stwierdzono, że użytkownicy o mniejszościowych nazwiskach wykonywali średnio 2,3 telefonu w sprawie, którą bot powinien załatwić online. Dla miasta 250-tysięcznego oznaczało to dodatkowe 60 tys. dolarów rocznie. Przeciwdziałanie uprzedzeniom przestrzennym to nie tylko etyka, to również ekonomia usługowa.

Od audytu do stałego monitoringu

Jednorazowy test przed premierą to za mało. Modele językowe są aktualizowane, a miejskie dane o placówkach i preferencjach mieszkańców stale się zmieniają. Detektor zaprojektowano tak, by cyklicznie przeliczać ryzyko i alarmować, gdy pojawi się nowy wzorzec. Można go zintegrować z potokiem CI/CD dostawcy chatbota, dzięki czemu każda zmiana promptu czy wersji modelu przechodzi automatyczny audyt.

Dla wydziałów smart city i rzeczników ds. równości to narzędzie, które pozwala wyprzedzić krytykę. Jeśli miasto planuje przetarg na wirtualnego asystenta, warto wpisać do SIWZ wymóg przedstawienia raportu z testów uprzedzeń przestrzennych przeprowadzonych na własnych danych geograficznych. Nie każde miasto ma na to budżet w pierwszym roku, ale można zacząć od małego pilotażu na jednej usłudze, na przykład na wyszukiwarce wolnych miejsc w żłobkach. Wyniki pokażą, czy problem jest realny, i pomogą uzasadnić szersze wdrożenie. W dłuższej perspektywie to oszczędność, a przede wszystkim dowód, że urząd poważnie traktuje zasadę równości.

  • Wczesne wykrywanie uprzedzeń przed uruchomieniem usługi
  • Ochrona przed niezamierzoną segregacją w dostępie do placówek publicznych
  • Dopasowanie do lokalnego kontekstu społeczno-przestrzennego
  • Spełnienie wymogów prawnych i zapisów unijnego AI Act
  • Budowanie zaufania mieszkańców do cyfrowych usług urzędu

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: The Geography of Algorithmic Judgment: LLM Intermediaries, Place Identity, and Racial Steering in Housing Search

Autorzy: Hana Samad, Trung Lam, Christoph M\”ugge-Durum, Michael Akinwumi

Large language models (LLMs) are rapidly assuming an intermediary role in housing search through the integration of listing platforms within conversational interfaces, mediating access to information, search, and recommendations within urban settings. We expand on prior work on racial steering in…

arXiv: arxiv.org/abs/2606.06694

Czytaj więcej o tej technologii: Mapy uprzedzeń: gdy AI poleca dzielnice na podstawie koloru skóry

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *