Cyfrowy poligon: przyspieszone testy bezpieczeństwa w paśmie granicznym

Testowanie autonomicznego auta na drogach publicznych pochłania setki milionów kilometrów i lat pracy, a mimo to nie gwarantuje odkrycia luk w oprogramowaniu. ScenePilot – nowy framework do generowania scenariuszy – przesuwa ciężar walidacji do wirtualnego środowiska, gdzie w kilka tygodni potrafi wyłapać więcej krytycznych błędów niż roczny przejazd testowy.

Gdzie testy zderzają się z fizyką i budżetem

Producenci systemów autonomicznych tkwią w pułapce: aby udowodnić bezpieczeństwo na poziomie 99,9999%, musieliby przejechać miliardy kilometrów. Testy na prawdziwych drogach są kosztowne i nieefektywne – 99% czasu nie dzieje się nic interesującego dla stosu autonomicznego. Nawet symulacje, choć tańsze, często generują scenariusze oderwane od rzeczywistości: zderzenia niemożliwe fizycznie albo trywialne sytuacje, które każdy kontroler przechodzi bez problemu. ScenePilot celuje w obszar, który autorzy nazwali pasmem granicznym – miejsce, gdzie fizyka daje jeszcze szansę na uniknięcie kolizji, ale konkretny stos autonomiczny zawodzi.

Jak ScenePilot omija pułapkę niemożliwych kolizji

Zamiast uczyć się na losowych zderzeniach, ScenePilot rozdziela dwa sygnały: ryzyko awarii systemu autonomicznego (czy mój autopilot ma kłopot?) oraz fizyczną wykonalność (czy idealny kierowca by się wybronił?). Sygnał fizycznej wykonalności opiera się na modelu RSS z limitami opóźnień – jeśli przepis mówi, że hamowanie z 0,6 g pozwoli uniknąć stłuczki, to generator nie naciska bardziej. Lekka sieć neuronowa uczy się w czasie rzeczywistym estymować ryzyko kolizji i naprowadza generator na manewry, które wciskają testowany stos w strefę błędu, ale nigdy poza granicę realizmu.

Eksperymenty na platformie SafeBench pokazały, że ScenePilot uzyskuje o 6,2 punktu procentowego więcej kolizji niż najlepsze konkurencyjne metody, przy jednoczesnym zachowaniu fizycznej poprawności. ScenePilot nie produkuje artefaktów – każdy wygenerowany przypadek opisuje coś, co naprawdę może się zdarzyć na skrzyżowaniu czy autostradzie.

Przepływ pracy z ScenePilot: generowanie scenariuszy z pasma granicznego, testy symulacyjne i szybkie dostrajanie stosu autonomicznego prowadzą do skrócenia cyklu walidacji.

Scenariusz wdrożenia: od aktualizacji kodu do certyfikacji NCAP

Wyobraźmy sobie zespół testów w europejskim producencie OEM, który właśnie otrzymał nową wersję modułu planowania ścieżki. Zamiast planować kolejną turę kosztownych przejazdów walidacyjnych, inżynier podpina nowy stos do ScenePilot. W ciągu jednej nocy framework generuje 10 tysięcy scenariuszy z pasma granicznego: nagłe wtargnięcia pieszego zza stojącego autobusu, gwałtowne hamowanie poprzedzającego pojazdu na śliskiej nawierzchni, przecięcia pasów tuż przed maską. Wirtualny pojazd ego przechodzi symulacje na różnych kontrolerach – jeden zestaw scenariuszy pracuje zarówno na systemie opartym o TransFuser, jak i na stosie Autopilot. Wyniki trafiają do dashboardu: 8,3% interakcji kończy się kolizją, mimo że każdy z tych manewrów daje się wybronić.

Zamiast ręcznie analizować nagrania z jazd testowych, zespół dostaje konkretne logi awarii i może od razu dostroić politykę decyzyjną. Po trzech iteracjach wskaźnik kolizji spada z 0,15 do 0,07, a ogólny wynik odporności rośnie do 0,898. Całość zajmuje 3 tygodnie, podczas gdy porównywalne poprawki wykrywane w tradycyjnym cyklu testów drogowych zwykle opóźniają harmonogram o 3–4 miesiące i generują koszty rzędu 500 000 euro na każdy late-stage fix.

Liczby, które bronią inwestycji

ScenePilot radykalnie zmienia ekonomikę testów: generowanie miliona scenariuszy kosztuje ułamek tego, co wynajęcie floty pojazdów testowych, a zwrot pojawia się już przy pierwszym unikniętym wycofaniu produktu. Szacunkowo, wykrycie i naprawa krytycznej luki w zaawansowanej fazie projektu (po SOP) to wydatek 2–5 mln euro, nie licząc strat wizerunkowych. Cross-platformowość scenariuszy oznacza, że te same przypadki testowe obsługują wiele wariantów stosu autonomicznego – od wersji z lidarem po układy kamerowe – bez dodatkowych nakładów. A co najważniejsze, scenariusze pokrywają szeroki obszar ryzyka przy różnych poziomach wykonalności, więc dostrojenie na nich daje najsilniejszą poprawę odporności spośród wszystkich znanych metod generatywnych.

  • o 6,2 pp więcej krytycznych, lecz fizycznie realnych scenariuszy
  • uniwersalne scenariusze działające na wielu stosach AV
  • skrócenie cyklu walidacji z miesięcy do tygodni
  • eliminacja drogich poprawek w późnych fazach projektu

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving

Autorzy: Qiyu Ruan, Yuxuan Wang, He Li, Zhenning Li, Cheng-zhong Xu

Safety-critical scenarios are central to evaluating autonomous driving systems, yet their rarity in naturalistic logs makes simulation-based stress testing indispensable. Most scenario generation methods treat surrounding agents as adversaries, but they either (i) induce failures without explicit…

arXiv: arxiv.org/abs/2605.21168

Czytaj więcej o tej technologii: ScenePilot uczy autonomiczne auta jeździć po krawędzi możliwości

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *