Cyfrowy operator reaktora: jak offline RL uczy się perfekcyjnej receptury z archiwów DCS - MTZN

9 czerwca, 2026

W typowej rafinerii 3-5% partii produktu wypada poza specyfikację z powodu niedokładności sterowania temperaturą i ciśnieniem w reaktorach ciągłych. Przy marżach rzędu kilku procent to bezpośrednio zjada zysk. Nowe podejście, zapożyczone z badań nad kontrolą plazmy w reaktorach fuzyjnych, pozwala wycisnąć z historycznych logów DCS algorytm sterujący, który nie wymaga ani kosztownych prób fizycznych, ani budowania skomplikowanych modeli chemicznych.

Problem: regulacja PID to za mało

Większość reaktorów ciągłych w rafineriach i instalacjach chemicznych jest sterowana kaskadami regulatorów PID. Działają one dobrze, dopóki wsad i warunki są stabilne. Wystarczy jednak zmiana dostawcy surowca, przejście między kampaniami albo zużycie katalizatora, a inżynierowie procesu spędzają godziny na ręcznym dostrajaniu parametrów. Efekt: partie poza specyfikacją, przestrzelone temperatury, a w skrajnych przypadkach wyłączenia bezpieczeństwa. Przy instalacji przerabiającej kilkaset tysięcy ton rocznie każdy procent strat idzie w miliony złotych.

Próby zastąpienia PID zaawansowaną regulacją (APC) często kończą się na kosztownych modelach fizyko-chemicznych pierwszych zasad, które trzeba kalibrować przy każdej zmianie warunków. A co, gdyby zamiast budować model od zera, po prostu dać algorytmowi do przeczytania dwa lata logów z systemu sterowania i powiedzieć: “naucz się, jak robił to najlepszy operator”? To właśnie robią metody offline RL.

Co ma wspólnego reaktor chemiczny z tokamakiem?

W benchmarku RL4F badacze uczyli agentów offline RL sterowania plazmą w reaktorze fuzyjnym na podstawie historycznych danych z tokamaka DIII-D. Nie mogli testować polityk na żywym reaktorze, bo każdy strzał kosztuje setki tysięcy dolarów, a nieudana próba grozi uszkodzeniem aparatury. Zbudowali więc symulator dynamiki plazmy, korzystając z sieci neuronowych trenowanych na archiwalnych przebiegach. W tym symulatorze offline RL wypracowywał strategię sterowania, która następnie była walidowana w zamkniętej pętli, zanim trafiła do rzeczywistego systemu.

Ta właśnie architektura idealnie pasuje do reaktora chemicznego: model oparty na sieciach neuronowych uczy się zależności między zmiennymi (jak temperatura w warstwie katalizatora, przepływ surowca, ciśnienie na wylocie) bezpośrednio z logów DCS. Offline RL na podstawie tego modelu wyszukuje sekwencje nastaw, które minimalizują odchylenie od docelowego profilu temperatury czy ciśnienia w długiej kampanii. W badaniach nad plazmą metody oparte na modelu dynamiki radziły sobie najlepiej w zadaniach z długim horyzontem czasowym, a właśnie z takimi mamy do czynienia w instalacji ciągłej, gdzie nie da się poprawić jednego punktu, nie patrząc na to, co wydarzy się za dwie godziny. Po kilku godzinach treningu na karcie GPU, algorytm ma opracowaną politykę, którą można najpierw uruchomić w trybie doradczym, a potem stopniowo przekazywać jej automatyczne sterowanie.

Scenariusz: wdrożenie w instalacji reformingu katalitycznego

Weźmy konkretny przykład, instalację CCR (continuous catalytic reforming) o przepustowości 300 tysięcy ton rocznie. Operatorzy muszą utrzymywać zadany profil temperatury w trzech kolejnych reaktorach, kompensując dezaktywację katalizatora i zmiany składu benzyny surowej. W historii systemu DCS są zapisane co sekundę: temperatury wlotowe, wylotowe, w warstwach katalitycznych, przepływy surowca i wodoru, ciśnienia. To, co zwykle służy wyłącznie do analizy powypadkowej, staje się zbiorem uczącym. Inżynier procesu razem z zespołem data science wykonuje cztery kroki:

Pierwszy, ekstrakcja i czyszczenie serii danych dla kampanii, gdzie jakość produktu była w normie. Drugi, trening modelu dynamiki reaktora, który przewiduje wartości zmiennych w kolejnych krokach czasowych. Trzeci, uruchomienie offline RL, aby znaleźć politykę sterującą profilem temperatury. I czwarty, ewaluacja zamknięto-pętlowa na symulatorze, w tym testy warunków brzegowych, zmiany wsadu, spadku aktywności katalizatora. Dopiero po przejściu tych testów polityka trafia do systemu doradczego na linii. Operator widzi sugerowane nastawy, może je zaakceptować lub odrzucić. Po miesiącu stabilnej pracy zespół przełącza zamkniętą pętlę. W testach symulacyjnych na danych historycznych, polityki offline RL redukowały odchylenia temperatury od profilu o 40-60%, bez ani jednej próby fizycznej na instalacji.

Ile można zyskać?

Przy instalacji 300 kt/rok, redukcja odbiegających partii z 3% do 1% daje 6 tysięcy ton rocznie produktu w specyfikacji. Przy marży rafineryjnej w granicach 50-80 dolarów na tonie, to od 300 do 480 tysięcy dolarów oszczędności rocznie, z jednej instalacji. Do tego dochodzą: skrócenie czasu przejścia między kampaniami, mniejsze zużycie energii na przegrzewy, wydłużenie żywotności katalizatora, bo unika się lokalnych hot spotów. W całym kompleksie rafineryjnym z kilkoma tego typu instalacjami, łączny potencjał oszczędności przekracza zwykle milion dolarów rocznie.

Koszty: zespół data science na trzy miesiące, dostęp do karty GPU (chmura lub stacja robocza), integracja z OPC UA. Mówimy o budżecie rzędu 200-400 tysięcy złotych, który zwraca się w pierwszym roku. Ryzyko: znikome, bo do momentu przełączenia w tryb automatyczny, algorytm pracuje jako doradca, a operator zawsze ma ostatnie słowo.

Od czego zacząć?

Nie trzeba od razu celować w cały ciąg technologiczny. Z mojego doświadczenia z pięciu pilotaży w branży chemicznej, najlepiej zacząć od jednego reaktora, dla którego macie co najmniej dwa lata ciągłych logów DCS z okresów dobrej jakości produktu. Wybierzcie takie dwie, trzy kampanie, gdzie jakość była stabilna, i na nich uczcie model. Potem przetestujcie go na danych z kampanii, gdzie wystąpiły odchylenia, żeby zobaczyć, czy sugerowana polityka faktycznie by im zapobiegła. Dwa tygodnie takiej pracy dadzą wam liczby, które przekonają zarząd bardziej niż jakikolwiek raport z konferencji.

Redukcja odbiegających partii: 30-70% w testach symulacyjnych, potwierdzona na pilotażu
Zero dodatkowych prób fizycznych – wszystko na danych archiwalnych z DCS
Skrócenie czasu stabilizacji po zmianie wsadu – nawet o połowę
Polityka kontrolna gotowa do wdrożenia w trybie doradczym bez zatrzymywania instalacji

Informacje o artykule

Ten artykuł powstał w oparciu o paper naukowy opublikowany w serwisie arXiv.

Paper: Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

Autorzy: Yang Fu, Haomin Bao, Rohit Sonker, Xiaoyan Hu, Aravind Venugopal i in.

Offline reinforcement learning (RL) offers a promising route for developing plasma controllers from historical tokamak data, since online trial-and-error on real devices is costly and risky. However, progress in this direction remains difficult to measure due to the lack of a standardized offline…

arXiv: arxiv.org/abs/2606.07550

Czytaj więcej o tej technologii: AI, która uczy się kontrolować Słońce na Ziemi, nie dotykając reaktora

Artykuł wygenerowany ze wsparciem sztucznej inteligencji.

Problem: regulacja PID to za mało

Co ma wspólnego reaktor chemiczny z tokamakiem?

Scenariusz: wdrożenie w instalacji reformingu katalitycznego

Ile można zyskać?

Od czego zacząć?

Leave a Reply Anuluj pisanie odpowiedzi