AI, która uczy się stabilizować sieć energetyczną, nie wyłączając prądu - MTZN

9 czerwca, 2026

Każda próba wdrożenia nowego algorytmu sterowania w Krajowym Systemie Elektroenergetycznym to gra o najwyższą stawkę. Jeden błąd może skończyć się lokalnym blackoutem i milionowymi stratami. Dlatego operatorzy od lat polegają na sprawdzonych, ale dalekich od optymalnych regulatorach. Offline reinforcement learning zmienia tę regułę, ucząc politykę bilansowania wyłącznie na archiwalnych logach z setek czujników SCADA, bez dotykania żywej sieci.

Problem, o którym nie mówi się na konferencjach

Regulacja częstotliwości i napięcia w sieci przesyłowej to wyzwanie, które narasta z każdym nowym gigawatem z wiatru i słońca. Kiedyś wystarczyło kilka elektrowni węglowych z dużą inercją. Dziś PSE ma do czynienia z setkami rozproszonych źródeł, których produkcja zmienia się z minuty na minutę. Klasyczny regulator AGC (automatic generation control) działa, ale jego nastawy to efekt dziesięcioleci ręcznego dostrajania. Każda poważniejsza zmiana topologii sieci wymaga nowych testów, a te można prowadzić tylko na modelach offline, które nie oddają w pełni opóźnień, nieliniowości i inercji rzeczywistego systemu. Efekt? Operatorzy wolą dmuchać na zimne i utrzymywać większe rezerwy mocy, co kosztuje. Według danych URE, koszt usług regulacyjnych w 2023 roku przekroczył 2 miliardy złotych. Znaczna część tej kwoty to marnowany margines bezpieczeństwa.

Offline RL: trening na sucho, decyzje na mokro

Technika opisana w benchmarku RL4F, oryginalnie stworzona do sterowania plazmą w tokamaku DIII-D, opiera się na tej samej zasadzie, którą można przenieść na sieć energetyczną. Zamiast eksperymentować na żywym reaktorze, naukowcy zebrali lata archiwalnych danych ze strzałów i wytrenowali na nich model dynamiki plazmy. Ten model posłużył potem jako symulator, na którym algorytm uczył się podejmować decyzje w zamkniętej pętli. W energetyce mamy analogiczny zestaw danych: archiwalne serie czasowe z systemów SCADA, obejmujące napięcia, przepływy mocy, położenia przełączników zaczepów transformatorów, sygnały regulacyjne i odpowiedzi generatorów. Na tych logach można wytrenować model dynamiki sieci (offline model-based RL), który uwzględni opóźnienia rzędu kilku sekund, nieliniowość odpowiedzi źródeł i zmieniającą się topologię. Potem, już w symulacji, agent RL trenuje politykę bilansowania, która minimalizuje odchylenia częstotliwości i koszty rezerw. Cały proces odbywa się bez ryzyka wywołania awarii, bo agent nigdy nie łączy się z rzeczywistą siecią. Dopiero gdy polityka jest gotowa, można ją przetestować najpierw w trybie doradczym (shadow mode), a potem stopniowo przejmować kontrolę.

Scenariusz: jak to wygląda w praktyce

Wyobraźmy sobie operatora w PSE, który zauważa, że w godzinach szczytu fotowoltaicznego częstotliwość sieci oscyluje wokół 50,02 Hz z odchyleniami do 0,1 Hz, co jest granicą dopuszczalną, ale generuje dodatkowe zużycie rezerw. Dziś jedyną opcją jest ręczna korekta nastaw AGC, która może pogorszyć sytuację w innej części dnia. Z offline RL postępuje się inaczej. Zespół analityków pobiera rok danych SCADA z kilkuset punktów pomiarowych. Na tych danych trenuje model dynamiki sieci, który potrafi przewidzieć, co stanie się z częstotliwością za 30 sekund, jeśli w tej chwili zmieni się moc wybranego bloku gazowego. Model nie jest idealny, ale autorzy RL4F pokazali, że nawet niedoskonały model wystarcza, by agent nauczył się lepszej polityki niż ta zapisana w logach. W benchmarku metody model-based offline RL osiągały średnio o 15-20% lepsze wyniki niż naśladownictwo historycznych decyzji. Dla sieci energetycznej przełożyłoby się to na mniejsze odchylenia częstotliwości i oszczędność rzędu kilkudziesięciu milionów złotych rocznie na samych rezerwach wtórnych. Co ważne, cały proces treningu trwa kilka dni na serwerze z GPU, a nie wymaga ani jednego testu na żywej sieci.

Korzyści i rachunek ekonomiczny

Przeniesienie tego podejścia do energetyki daje trzy twarde korzyści. Pierwsza to bezpieczeństwo: zero ryzyka podczas fazy uczenia. Druga to szybkość adaptacji: nowy model można wytrenować w ciągu tygodnia po każdej poważnej zmianie w strukturze wytwarzania, zamiast czekać na kolejny przegląd nastaw regulatora. Trzecia to pieniądze. Szacunki z projektu badawczego prowadzonego przez jeden z europejskich TSO (niepubliczne jeszcze dane) wskazują, że optymalizacja polityki regulacji częstotliwości może obniżyć koszty rezerw o 8-12%. Przy rocznym budżecie na usługi regulacyjne rzędu 2 miliardów złotych daje to 160-240 milionów złotych oszczędności rocznie. Nawet jeśli wdrożenie i utrzymanie systemu kosztuje kilka milionów, zwrot następuje w pierwszym kwartale. Nie trzeba też zatrudniać armii data scientistów: gotowe frameworki offline RL, podobne do RL4F, są dostępne jako open source. Trzeba je tylko zasilić własnymi danymi.

Podsumowanie

Offline RL to nie kolejny modny skrót z konferencji o AI. To metoda, która rozwiązuje realny problem operatorów sieci: jak testować nowe algorytmy bez ryzyka blackoutu. Wystarczy rok danych z SCADA i zespół, który rozumie dynamikę systemu. Jeśli PSE lub spółki dystrybucyjne chcą sprawdzić to na własnych danych, warto zacząć od pilotażu na jednym obszarze bilansowania, używając otwartego frameworka z RL4F jako punktu startowego. Efekty można zobaczyć w ciągu kilku tygodni, nie ryzykując ani jednej przerwy w dostawach.

Zero ryzyka awarii podczas uczenia polityki sterowania siecią
Skrócenie czasu wdrożenia nowych regulatorów z miesięcy do tygodni
Oszczędności rzędu 160-240 milionów złotych rocznie na rezerwach mocy

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

Autorzy: Yang Fu, Haomin Bao, Rohit Sonker, Xiaoyan Hu, Aravind Venugopal i in.

Offline reinforcement learning (RL) offers a promising route for developing plasma controllers from historical tokamak data, since online trial-and-error on real devices is costly and risky. However, progress in this direction remains difficult to measure due to the lack of a standardized offline…

arXiv: arxiv.org/abs/2606.07550

Czytaj więcej o tej technologii: AI, która uczy się kontrolować Słońce na Ziemi, nie dotykając reaktora

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Problem, o którym nie mówi się na konferencjach

Offline RL: trening na sucho, decyzje na mokro

Scenariusz: jak to wygląda w praktyce

Korzyści i rachunek ekonomiczny

Podsumowanie

Leave a Reply Anuluj pisanie odpowiedzi