Wypadek autonomicznego auta, awaria rozrusznika serca czy błędne odczyty z systemu kontroli lotu. Każda z tych sytuacji ma wspólny mianownik: lukę w oprogramowaniu, której nie wyłapały testy. Branża systemów safety-critical od dekad tkwi w pułapce – testowanie nigdy nie daje 100% pewności, a procesy certyfikacji są horrendalnie drogie. Nowa metoda, łącząca duże modele językowe z asystentem dowodzenia Lean, przenosi ciężar z szukania błędów na generowanie matematycznego dowodu, że błędu po prostu nie ma.
Od testowania do dowodzenia – zmiana paradygmatu
Testy w systemach krytycznych przypominają sprawdzanie wytrzymałości mostu poprzez jeżdżenie po nim coraz cięższymi ciężarówkami. To działa, ale zawsze istnieje ryzyko, że nie przetestowano odpowiedniego obciążenia. Formalna weryfikacja to odpowiednik obliczeń inżynierskich, które matematycznie gwarantują, że most nie runie.
Do tej pory tworzenie formalnych dowodów poprawności kodu było domeną wysoko wyspecjalizowanych matematyków i kosztowało fortune. Praca Tsoukalasa i jego zespołu pokazuje, że agent AI oparty na LLM może samodzielnie generować dowody w asystencie Lean, rozwiązując otwarte problemy matematyczne za kilkaset dolarów od sztuki. Agent rozwiązał 9 z 353 otwartych problemów Erdősa i udowodnił 44 z 492 hipotez z OEIS. To nie jest akademicka ciekawostka – to dowód, że maszyna potrafi przeprowadzić formalny wywód logiczny tam, gdzie człowiek potrzebowałby tygodni pracy.
Rozrusznik serca z certyfikatem poprawności
Wyobraźmy sobie moduł oprogramowania sterującego rozrusznikiem serca. Jego specyfikacja mówi: ‘jeśli rytm serca spadnie poniżej 40 uderzeń na minutę, wyślij impuls elektryczny w ciągu 10 milisekund’. Tradycyjne testy sprawdzą kilka scenariuszy: rytm 39, 38, 30, nagły spadek. Ale co z sytuacją, gdy rytm oscyluje między 39 a 41 przez 50 cykli? Albo gdy czujnik zwraca szum? Tester pisze kolejne przypadki, rośnie macierz testowa, a pewność wciąż nie jest pełna.
Agent AI pracujący z Lean podchodzi do tego inaczej. Otrzymuje specyfikację w języku formalnym i generuje dowód, że logika modułu jest z nią w 100% zgodna dla wszystkich możliwych stanów wejściowych. Nie dla wybranych – dla wszystkich. Jeśli dowód przejdzie weryfikację w Lean, moduł jest matematycznie poprawny. Koniec. Żadnych przeoczonych edge-case’ów.

Szybsza certyfikacja, szybszy rynek
Standard DO-178C w lotnictwie wymaga od producentów oprogramowania udowodnienia, że kod jest zgodny ze specyfikacją. Dla poziomu DAL A (najwyższy poziom krytyczności, gdzie awaria oznacza katastrofę) proces weryfikacji pochłania średnio 40-50% całkowitego budżetu projektu. Mówimy o milionach euro i miesiącach opóźnień.
Włączenie agenta dowodzącego do pipeline’u projektowego zmienia te liczby. Zamiast armii testerów piszących przypadki brzegowe, inżynier definiuje formalną specyfikację modułu – to wymaga dyscypliny, ale jest wykonalne dla zespołów z doświadczeniem w systemach krytycznych. Agent generuje dowód w Lean. Jeśli dowód się nie powiedzie, oznacza to konkretną lukę w logice – i to na wczesnym etapie, gdy naprawa kosztuje grosze w porównaniu z poprawką po certyfikacji.
Szacunkowy ROI: projekt modułu kontrolera lotu, który standardowo wymaga 6 miesięcy testów i 2 milionów euro, może przejść formalną weryfikację w 3 miesiące przy koszcie rzędu 800 tysięcy euro, licząc czas inżynierów na przygotowanie specyfikacji i nadzór nad agentem. Oszczędność 1,2 miliona euro i 3 miesięcy time-to-market dla jednego modułu.
Diagram procesu: od specyfikacji do certyfikowanego modułu
Poniższy diagram pokazuje, jak agent dowodzący wpina się w proces wytwarzania oprogramowania dla systemów safety-critical, zastępując żmudną fazę testowania formalną weryfikacją.
- Matematyczna gwarancja braku błędów logicznych – nie ‘prawdopodobnie’, tylko ‘na pewno’.
- Redukcja kosztów weryfikacji o 40-60% w porównaniu z tradycyjnymi testami dla poziomu DAL A.
- Wykrywanie luk na etapie projektu, gdy poprawka kosztuje ułamek kosztu poprawki pocertyfikacyjnej.
- Przyspieszenie certyfikacji DO-178C i ISO 26262 o 3-6 miesięcy dla krytycznych modułów.
Informacje o artykule
Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.
Paper: Advancing Mathematics Research with AI-Driven Formal Proof Search
Autorzy: George Tsoukalas, Anton Kovsharov, Sergey Shirobokov, Anja Surina, Moritz Firsching i in.
Large language models (LLMs) increasingly excel at mathematical reasoning, but their unreliability limits their utility in mathematics research. A mitigation is using LLMs to generate formal proofs in languages like Lean. We perform the first large-scale evaluation of this method’s ability to sol…
arXiv: arxiv.org/abs/2605.22763
Artykuł wygenerowany ze wsparciem sztucznej inteligencji.
