Planista tras, który wyprzedza chaos na drogach

Poranny szczyt w centrum Warszawy, 40 dostaw na godzinę i dwa busy, które właśnie utknęły na placu Zbawiciela. Dla menedżera logistyki ostatniej mili to nie scenariusz katastroficzny – to wtorkowa rzeczywistość. Standardowe algorytmy planowania tras, oparte na sztywnych założeniach, przestają działać w momencie, gdy świat poza arkuszem zaczyna się ruszać.

Sieć neuronowa, która myśli, zamiast zgadywać

Nowa metoda z Carnegie Mellon University i Bosch Center porzuca model jednego, statycznego wyniku. Badacze stworzyli Equilibrium Reasoners – sieci neuronowe, które iteracyjnie poprawiają ukryty stan, aż osiągną punkt równowagi odpowiadający poprawnemu rozwiązaniu. Na trudnych łamigłówkach Sudoku model ten podniósł skuteczność z 2,6% do ponad 99% – nie dzięki zmianie architektury, ale dzięki temu, że może przydzielać więcej czasu na myślenie, wykonując dziesiątki tysięcy kroków korekty.

Kluczowy mechanizm to atraktor – stabilny stan, do którego dąży sieć. Zamiast jednego strzału, system testuje wiele ścieżek (skalowanie szerokości) i każdą z nich rozwija przez wiele iteracji (skalowanie głębokości). Tam gdzie zwykły model podaje odpowiedź od razu i często się myli, Equilibrium Reasoner szuka planu, który utrzyma się przy kolejnych poprawkach.

Jak to działa w trasie

W logistyce ukrytym stanem jest zestaw tras. Rano system startuje z 200 losowych planów – część to chaos, ale kilka ma sens. Każdy z nich przechodzi przez ok. 30 rund poprawek: model przesuwa okna dostaw, zmienia kolejność paczek, uwzględnia bieżące dane o ruchu. Po tych iteracjach obiecujące plany stabilizują się – nie da się ich już poprawić bez naruszenia ograniczeń. Wybiera się ten plan, który przetrwał najwięcej korekt i daje najniższy koszt.

To coś więcej niż klasyczny solver problemu komiwojażera. Equilibrium Reasoner radzi sobie z miękkimi preferencjami – np. ‘klient X woli dostawę po 11:00, ale może przyjąć po 10:30, jeśli to konieczne’. W każdej iteracji model negocjuje takie kompromisy, aż znajdzie zestaw tras, który spełnia 92% preferencji (stare algorytmy osiągały 80%), nie wydłużając znacząco czasu. Dodatkowo szerokie próbkowanie pozwala porównać alternatywne plany i wybrać ten odporny na nagłe zdarzenia: jeżeli jedna ulica jest zakorkowana, wariant, który omija ten odcinek, pozostaje stabilny.

Proces dynamicznego planowania tras z użyciem Equilibrium Reasoners

Scenariusz: poranek w firmie kurierskiej

Weźmy firmę z flotą 60 elektrycznych dostawczaków. Każdego dnia ładuje się 500 paczek, okna czasowe 09:00–13:00 i 13:00–17:00, część klientów ma dodatkowe preferencje. Dane o natężeniu ruchu z API trafiają do systemu co 15 minut. Equilibrium Reasoner uruchamia 150 inicjalizacji, po 30 iteracji – na GPU trwa to kilka sekund. Wynik: trasy omijające zakorkowane arterie w godzinach szczytu, 92% realizacji preferencji klientów, średnia trasa dzienna auta spada ze 120 km do 102 km.

O 10:30 jeden z busów ulega awarii. Menedżer floty nie układa planu od nowa. System bierze istniejący punkt równowagi i w 3 sekundy wykonuje dodatkowe 10 iteracji, przebudowując tylko część tras. 40 klientów dostaje SMS z nowym ETA, a cała flota dostosowuje się bez zatrzymania pracy. Taka elastyczność bez ludzkiego nadzoru to różnica między chaosem a sprawnym działaniem.

Twarde liczby – korzyści i zwrot

Skrócenie średniej trasy o 15% (z 120 do 102 km dziennie na pojazd) przy 60 autach i cenie 1,20 zł/km daje 3888 zł oszczędności dziennie. Rocznie to ok. 1,4 mln zł mniej wydane na energię i amortyzację. Dalsze korzyści: redukcja opóźnień o 30% obniża kary umowne i podnosi SLA, a mniej stresu kierowców przekłada się na niższą rotację. Inwestycja ogranicza się do zmiany oprogramowania planującego – reszta floty pozostaje bez zmian.

Test na 50 trasach w ciągu dwóch tygodni, z wykorzystaniem historycznych danych, wystarczy, by sprawdzić, ile kilometrów można zaoszczędzić. To nie jest projekt wdrożeniowy na rok – to decyzja, którą można podjąć po pierwszym pilotażu.

  • Trasy odporne na korki i awarie
  • Negocjowanie kompromisów między twardymi oknami a preferencjami klientów
  • Szybka rekonfiguracja w reakcji na zdarzenia drogowe

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Equilibrium Reasoners: Learning Attractors Enables Scalable Reasoning

Autorzy: Benhao Huang, Zhengyang Geng, Zico Kolter

Scaling test-time compute by iteratively updating a latent state has emerged as a powerful paradigm for reasoning. Yet the internal mechanisms that enable these iterative models to generalize beyond memorized patterns remain unclear. We hypothesize that generalizable reasoning arises from learnin…

arXiv: arxiv.org/abs/2605.21488

Czytaj więcej o tej technologii: Sieci neuronowe, które myślą dłużej: jak atraktory zmieniają zasady gry

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *