PhyDrawGen: Sztuczna inteligencja, która nie łamie praw fizyki

Poprosiłem znajomego grafika, żeby narysował mi równię pochyłą z klockiem i wektorem siły tarcia – dostałem obrazek, na którym siła tarcia działa zgodnie z kierunkiem ruchu. Dokładnie tak zachowują się dzisiejsze generatory obrazów, a PhyDrawGen wreszcie stawia temu kres.

Dlaczego AI nie rozumie fizyki

Widziałem już naprawdę dużo ładnych diagramów wygenerowanych przez najnowsze modele. I za każdym razem, kiedy patrzyłem na nie oczami nauczyciela fizyki, coś zgrzytało. Wektor siły skierowany pod takim kątem, jakby grawitacja działała w bok, promień światła odbijający się od zwierciadła wbrew prawu odbicia, linie pola magnetycznego przecinające się w dwóch miejscach – takie błędy są powszechne, to reguła.

Zespół Haque, Saknusa i Armana z PhyDrawGen mówi o tym wprost: ‘Obecne modele generatywne tworzą wizualnie przekonujące obrazy, ale systematycznie halucynują wektory sił, ignorują prawa zachowania i łamią ograniczenia geometryczne’. I to jest sedno. Sieci neuronowe uczą się z obrazków, nie z równań. Widziały miliony diagramów fizycznych, ale nigdy nie rozwiązały ani jednego zadania z dynamiki. Efekt? Potrafią odtworzyć estetykę diagramu, ale nie jego logikę.

W praktyce oznacza to, że uczeń, który dostanie taki obrazek jako pomoc dydaktyczną, ma sporą szansę nauczyć się błędnych zależności. A nauczyciel może nawet nie zauważyć, że ilustracja jest zła – bo wygląda profesjonalnie.

Przepis na diagram idealny: trzy etapy PhyDrawGen

Twórcy PhyDrawGen poszli inną drogą. Zamiast liczyć, że jedna sieć neuronowa nauczy się jednocześnie kompozycji obrazu i zasad fizyki, rozdzielili te zadania na trzy współpracujące ze sobą elementy. Można to porównać do pracy zespołu: lingwista czyta opis zadania, inżynier rysuje precyzyjny szkic, a grafik dopracowuje szczegóły.

Najpierw do akcji wchodzi duży model językowy. Jego zadaniem jest wyłuskanie z opisu słownego tak zwanego typowanego grafu sceny – listy obiektów (klocki, soczewki, magnesy), ich typów i relacji między nimi. To trochę jakby ktoś przeczytał przepis i wypisał składniki: ‘równia o kącie 30 stopni, klocek o masie 2 kg, siła tarcia w dół równi’. Ten etap dostarcza semantyczną mapę sytuacji, ale nie zawiera jeszcze żadnych współrzędnych.

Drugi etap to deterministyczny solver, który przekształca graf sceny w Planarny Graf Prostoliniowy (PSLG). Brzmi groźnie, ale chodzi o to, że solver rysuje odcinki i punkty tak, żeby każda linia i każdy kąt były matematycznie poprawne. Jeśli na klocek działają trzy siły, solver umieszcza je geometrycznie tak, aby spełniały warunek równowagi. Światło odbija się pod kątem równym kątowi padania, a linie pola nie przecinają się w nieodpowiednich miejscach. Solver nie zgaduje – wie, bo ma zapisane równania z podręczników.

Ostatni krok to finezyjne poprawki. Wytrenowany model Qwen-VL ogląda wygenerowany PSLG i sprawdza, czy gdzieś nie wkradł się błąd, którego sztywne reguły nie wyłapały. Jeśli znajdzie, proponuje poprawkę, po czym weryfikuje ją i znów przegląda rysunek. Ta pętla proponowania i weryfikacji działa jak korektor w redakcji – rysunek wraca do autora (modelu), dopóki wszystkie uwagi nie zostaną wyjaśnione.

Obecne modele generatywne tworzą wizualnie przekonujące obrazy, ale systematycznie halucynują wektory sił, ignorują prawa zachowania i łamią ograniczenia geometryczne.

Haque et al.

PhyDrawGen abstract

Testy na 1449 zadaniach: jak wypadł PhyDrawGen?

Brzmi obiecująco, ale czy to działa w skali? Autorzy przetestowali swój pipeline na 1449 problemach z mechaniki, optyki i elektromagnetyzmu. Wzięli opisy z zadań – od klasycznych ‘znajdź siłę nacisku’ po te z nietypowymi obiektami, jak drabina oparta o ścianę czy promień lasera przechodzący przez akwarium.

Wyniki są jednoznaczne. PhyDrawGen znacząco przewyższa GPT-5-image, Gemini 2.5 Flash i Gemini 3 Pro. ‘PhyDrawGen […] wykazuje solidną dokładność fizyczną nawet w przypadku problemów z nietypowymi obiektami‘ – piszą autorzy. Nie chodzi o to, że obrazy są ładniejsze – one po prostu nie łamią praw fizyki. Model językowy z solverem nie próbuje odgadnąć, jak wygląda prawidłowy rysunek. On go konstruuje, krok po kroku, na podstawie równań.

Szczególnie ciekawy jest przypadek nietypowych obiektów. Generatory obrazów wyszkolone na standardowych przykładach (klocki, soczewki) kompletnie zawodzą, gdy trzeba narysować coś rzadko spotykanego. PhyDrawGen radzi sobie, bo nie polega na schematach – tylko na strukturze opisu. Dopóki opis zawiera informację o typie obiektu i jego właściwościach fizycznych, solver może umieścić go na diagramie.

Przebieg potoku PhyDrawGen – od opisu słownego do poprawnego fizycznie rysunku.

Co to oznacza dla edukacji i inżynierii?

Wyobrażam sobie, jak takie narzędzie mogłoby zmienić pracę autorów podręczników. Zamiast ręcznie rysować każdy wariant zadania, wystarczyłoby opisać je słowami. System automatycznie wygenerowałby ilustracje do tysięcy zadań, każda poprawna fizycznie. To oszczędność czasu i gwarancja spójności – wszystkie warianty tego samego problemu miałyby identyczne proporcje i kąty.

W inżynierii aplikacje są podobne. Prototypowe obrazki koncepcyjne, które dziś tworzy się ręcznie w programach CAD, mogłyby powstawać w kilka sekund. Oczywiście nie zastąpią one szczegółowych rysunków technicznych, ale na etapie burzy mózgów dałyby inżynierom wspólny punkt wyjścia.

Jest też ciekawa perspektywa dla platform e-learningowych. Gdyby połączyć PhyDrawGen z bazą zadań, każdy uczeń mógłby otrzymać zarówno losowe dane liczbowe, jak i losowy, ale zawsze poprawny diagram. To zmienia dynamikę nauki – zamiast zapamiętywać konkretny rysunek, uczeń musi zrozumieć reguły, które go kształtują.

  • Obecne modele generatywne systematycznie łamią zasady fizyki, mimo że produkują estetyczne obrazy.
  • PhyDrawGen oddziela zrozumienie semantyczne opisu od matematycznego spełnienia ograniczeń fizycznych.
  • Deterministyczny solver zamienia graf sceny na Planarny Graf Prostoliniowy, gwarantując zgodność z prawami mechaniki, optyki i elektromagnetyzmu.
  • Pętla proponowania i weryfikacji z modelem Qwen-VL koryguje resztki błędów, które mogły wymknąć się sztywnym regułom.
  • Na 1449 zadaniach PhyDrawGen znacząco pokonał GPT-5-image, Gemini 2.5 Flash i Gemini 3 Pro, zwłaszcza dla nietypowych obiektów.

Praktyczne zastosowania

Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:

Podsumowanie

PhyDrawGen to most pomiędzy językiem a rygorem praw fizyki. W edukacji może zautomatyzować tworzenie poprawnych diagramów do podręczników i platform e-learningowych, eliminując ryzyko błędów dydaktycznych. W inżynierii przyspieszy generowanie koncepcyjnych ilustracji przed przejściem do programów CAD. Obie dziedziny zyskają narzędzie, które nie tylko rysuje ładnie, ale rysuje zgodnie z rzeczywistością.

Metryka artykułu źródłowego

Tytuł oryginalny: PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

Autorzy: Nafiul Haque, Syed Nazmus Sakib, Shifat E Arman

Data publikacji: 1 czerwca 2026

arXiv: arxiv.org/abs/2605.30512

PDF: https://arxiv.org/pdf/2605.30512.pdf

Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *