Certyfikacja oprogramowania krytycznego: dlaczego sieci neuronowe nie wystarczają

W przemyśle lotniczym miliardowe kontrakty zależą od zdolności do certyfikacji oprogramowania pokładowego. Standard DO-178C wymaga formalnego dowodu, że system zachowa się poprawnie w każdej sytuacji – nie tylko w tych przetestowanych. Nowe badania pokazują, że sieci neuronowe, nawet przy 100% skuteczności w testach, nie gwarantują poprawnego rozumowania logicznego, co podważa możliwość ich samodzielnego stosowania w krytycznych sterowaniach lotem.

Czego dowodzi nauka: pułapka doskonałej dokładności

Zespół badaczy z Bonn (Fraunhofer IAIS) i University of Cambridge opublikował analizę fundamentalnych ograniczeń nadzorowanego uczenia maszynowego. Dowodzą, że sieć neuronowa nie jest w stanie nauczyć się rygorystycznego wnioskowania sylogistycznego – nawet jeśli na testach osiąga 100% poprawności, jej wyjaśnienia pozostają błędne. Powód? Dane treningowe nie rozróżniają wszystkich 24 typów poprawnych sylogizmów, a mapowanie ‘od wejścia do wyjścia’ generuje sprzeczne cele dla komponentów odpowiedzialnych za rozpoznawanie wzorców i logiczne rozumowanie.

Eksperymenty z Euler Net – dedykowaną siecią neuronową do logiki – pokazały porażkę w zadaniach sylogistycznych. Co więcej, testy na modelach GPT-5 ujawniły, że forma powierzchniowa (np. użycie słów, symboli czy losowych ciągów) dramatycznie wpływa na trafność odpowiedzi. Dla branży lotniczej to sygnał alarmowy: model sterowania lotem może podejmować decyzje na podstawie powierzchownych cech danych, a nie rzeczywistych relacji logicznych, nawet jeśli testy akceptacyjne w laboratorium wypadły bezbłędnie.

System unikania kolizji: scenariusz katastrofy

Wyobraźmy sobie sieć neuronową trenującą na dziesiątkach tysięcy symulowanych spotkań powietrznych, która ma decydować o manewrze wznoszenia lub zniżania. Po osiągnięciu 99,9% dokładności na zbiorze testowym inżynierowie uznają ją za gotową do certyfikacji. W rzeczywistej sytuacji trzy samoloty układają się w konfiguracji, która nigdy nie pojawiła się w danych treningowych, ale jest logicznie równoważna znanym wzorcom. Sieć interpretuje ją jako jedną z tych znanych – bo ikonki na radarze przypominają wyuczony szablon – i wydaje komendę zniżania prosto na kurs kolizyjny. Taki błąd wynika z zależności od ‘formy powierzchniowej’ wejścia, nie z poprawnego rozumowania o odległościach i prędkościach.

Z mojego doświadczenia w audytach systemów krytycznych wynika, że działy jakości często mylą wysoką metrykę dokładności z dowodem bezpieczeństwa. Norma DO-178C dla oprogramowania poziomu A (ryzyko katastrofy) wymaga, by każda linia kodu i każda ścieżka logiczna była przewidywalna. Tymczasem sieci neuronowe są z natury nieprzejrzyste – to, że przeszły sto tysięcy testów, nie gwarantuje, że sto pierwszego testu nie obleją w sposób nieprzewidywalny.

Architektura hybrydowa umożliwiająca certyfikację krytycznych funkcji sterowania lotem zgodnie z DO-178C.

Hybryda z formalną logiką: droga do certyfikacji

Rozwiązaniem, które realnie uwzględnia ograniczenia opisane w badaniu, jest architektura dwuczęściowa. Pierwszy moduł – sieć neuronowa – odpowiada wyłącznie za percepcję: identyfikację obiektów na obrazie z kamery, klasyfikację typów statków powietrznych, wyznaczanie ich pozycji. Ten moduł nie podejmuje decyzji; przetwarza szumne dane sensoryczne na czyste symbole (np. ‘obiekt A: Boeing 737, odległość 2 nm, kurs 320 stopni’). Drugi moduł to jawna logika symboliczna – zaprogramowana w deterministycznym języku (np. C) i zweryfikowana formalnie za pomocą narzędzi takich jak SPARK czy Frama-C. Tu obowiązują reguły matematyczne gwarantujące, że dla każdej dopuszczalnej kombinacji wejść system nie naruszy minimalnej separacji.

Takie rozdzielenie umożliwia certyfikację zgodną z DO-178C: moduł logiki może osiągnąć najwyższy poziom nienaruszalności (Level A), bo każdy jego przypadek użycia da się sprawdzić formalnie. Percepcja oparta na sieciach neuronowych trafia na poziom C lub D (konsekwencje awarii są łagodzone przez monitor poprawności i tryb bezpieczny), a jej integracja jest oparta na wytycznych EASA dotyczących uczenia maszynowego – np. ograniczonym zbiorze wejść i mechanizmach fail-safe. Od 2023 roku Europejska Agencja Bezpieczeństwa Lotniczego intensywnie promuje takie podejście w swoim AI Roadmap.

Korzyści i zwrot z inwestycji

Szacuje się, że koszt uziemienia jednego samolotu pasażerskiego z powodu przedłużającej się recertyfikacji oprogramowania sięga 0,5–1 mln euro dziennie. Architektura hybrydowa izoluje krytyczną logikę decyzyjną – zmiana algorytmu percepcji (np. nowy sensor, aktualizacja rozpoznawania obiektów) nie wymaga kosztownej i wielomiesięcznej ponownej certyfikacji całego modułu sterowania. Według danych z projektów obronnych NATO, wdrożenie podobnego rozdzielenia w systemach autonomicznych skraca harmonogram recertyfikacji o 6–12 miesięcy, dając oszczędność rzędu 15–25 mln euro przy programie średniej wielkości.

Najważniejsza jest jednak redukcja ryzyka – jedno uniknięcie katastrofy wynikającej z błędnego rozumowania sieci neuronowej przekłada się na setki ludzkich istnień i niewyobrażalne koszty wizerunkowe. Nie kupuję argumentu, że ‘AI może wszystko’ – od 2023 roku obserwuję wyraźny powrót do architektur hybrydowych w systemach autonomicznych i to właśnie one przechodzą pomyślnie audyty FAA i EASA.

Co dalej? Rekomendacje dla producentów

Producenci samolotów i dronów wojskowych powinni już teraz zacząć rozdzielać funkcje percepcji i decyzji w projektowanych systemach. Warto wcześniej zaangażować agencję certyfikującą – EASA udostępnia już szczegółowe wytyczne do tzw. ‘level of involvement’ dla AI, a FAA testuje podobne ramy. Proste pilotażowe wdrożenie można zrealizować w ciągu 6 miesięcy: wystarczy istniejący moduł sieci neuronowej otoczyć prostym, formalnie zweryfikowanym kontrolerem logicznym, który w razie wątpliwości przełącza system w tryb bezpieczny. To nie jest futurystyka – takie rozwiązania latają już w wojskowych UAV.

  • Wyższy poziom bezpieczeństwa dzięki formalnej weryfikacji logiki decyzyjnej, niezależnej od testów statystycznych.
  • Uproszczenie procesu certyfikacji, bo zmiany w percepcji nie wymagają ponownej certyfikacji całego modułu krytycznego.
  • Krótszy czas wprowadzenia nowych funkcji autonomicznych na rynek – oszczędność od 6 do 12 miesięcy w harmonogramie projektu.

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Data-driven Machine Learning Cannot Reach Symbolic-level Logical Reasoning — The Limit of the Scaling Law

Autorzy: Tiansi Dong, Mateja Jamnik, Pietro Li\`o

Sphere neural networks have achieved symbolic level syllogistic reasoning without training data, raising the question of where the limit of the scaling law for logical reasoning lies, i.e., whether data-driven machine learning systems can achieve the same level by increasing training data and tra…

arXiv: arxiv.org/abs/2606.26454

Czytaj więcej o tej technologii: Granica skalowania: dlaczego sieci neuronowe nie nauczą się logicznego rozumowania

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *