Wyobraź sobie analityka, który jednym okiem śledzi wykresy EKG pacjenta, a drugim czyta jego historię choroby – i od razu łączy objawy z zapisem pracy serca. Właśnie tak działa Chronicle, nowy model od badaczy z York University i Borealis AI. To pierwsza multimodalna sztuczna inteligencja, która potrafi jednocześnie ‘czytać’ tekst i ‘czuć’ rytm danych czasowych, znajdując między nimi związki niedostępne dla ludzi i wcześniejszych algorytmów.
Dwa światy, które dotąd się nie spotykały
Dane tekstowe i szeregi czasowe to dwa filary współczesnej informatyki. Komunikatory, raporty medyczne, artykuły – to świat języka. Z kolei ceny akcji, fale mózgowe, odczyty z czujników fabrycznych – to świat czasu. Dotychczas modele AI specjalizowały się w jednym z nich. Rozumiały słowa albo analizowały krzywe. Nigdy nie robiły tego razem w jednej, spójnej architekturze.
Chronicle to zmienia. Model traktuje tekst i dane czasowe jako dwa dialekty tego samego języka informacji. Sam znajduje punkty styku między opisem a pomiarem – na przykład, gdy analizuje wpis na Twitterze o awarii fabryki, jednocześnie widzi spadek ciśnienia na wykresie z tej samej minuty. Dla Chronicle to jedna historia opowiedziana na dwa sposoby.
‘To fundamentalna zmiana w podejściu do danych multimodalnych’ – mówi Paul Quinlan, główny autor badania. ‘Zamiast sklejać dwa modele, stworzyliśmy jeden, który od podstaw uczy się korelacji między językiem a dynamiką czasową’.
Klocki zamiast słów – jak to działa w środku
Architektura Chronicle opiera się na pomyśle, który inżynierowie nazywają ‘tokenizacją’. W tradycyjnych modelach językowych zdanie jest dzielone na małe fragmenty – tokeny. Chronicle robi to samo, ale z wykresami. Dzieli szereg czasowy na małe, znaczące ‘klocki’ (ang. patches), które niosą informację o lokalnym kształcie krzywej – czy rośnie, opada, czy jest płaska.
Te klocki trafiają do wspólnej przestrzeni z tokenami tekstowymi. Model uczy się, że ‘gorączka’ w notatce lekarza i pik na wykresie temperatury to dwie reprezentacje tego samego zjawiska. Dzięki temu Chronicle może szukać odpowiedzi na pytania w stylu: ‘Czy w tekście raportu jest mowa o zdarzeniu, które widać na wykresie jako nagły skok?’.
Co istotne, model został wytrenowany na ogromnym, specjalnie stworzonym zbiorze danych łączącym tekst i szeregi czasowe. Badacze opracowali też zestaw testów porównawczych, które sprawdzają nie tylko rozumienie każdej modalności osobno, ale przede wszystkim umiejętność łączenia ich ze sobą.
Zamiast sklejać dwa modele, stworzyliśmy jeden, który od podstaw uczy się korelacji między językiem a dynamiką czasową.
Paul Quinlan
York University / Chronicle paper

Test, którego nie zdałby żaden specjalista
Aby sprawdzić możliwości Chronicle, zespół stworzył szereg zadań. Jedno z nich polegało na dopasowaniu wykresu do opisu słownego spośród kilku podobnych. Wyobraźmy sobie cztery prawie identyczne krzywe – różnią się tylko jednym, kilkusekundowym załamaniem. Człowiek ma problem z ich rozróżnieniem ‘na oko’. Model musi wskazać, która krzywa pasuje do zdania ‘nastąpił gwałtowny spadek, po którym nastąpiło powolne odbicie’.
Chronicle osiągnął w tych testach wyniki znacznie przewyższające wcześniejsze podejścia. ‘Kluczowe było to, że model nie tylko widzi dane, ale naprawdę rozumie kontekst czasowy’ – wyjaśnia Jeremy Levasseur, współautor badania. ‘Potrafi odróżnić trend od szumu i powiązać go z semantycznym znaczeniem słów, a nie tylko ich statystycznym wystąpieniem’.
W innym teście model miał odpowiadać na pytania wymagające przeanalizowania obu typów danych jednocześnie. Na przykład: ‘Który czujnik jako pierwszy zareagował na opisaną w raporcie awarię?’. Chronicle musiał przeskanować tekst, znaleźć godzinę zdarzenia, a następnie przejrzeć wiele strumieni danych czasowych, by wskazać ten, który zareagował najwcześniej.
Od fabryki po giełdę – gdzie to się przyda
Praktyczne zastosowania Chronicle są szerokie. W medycynie model może przeglądać dokumentację pacjenta i jednocześnie analizować zapisy z monitorów, by wykryć subtelne korelacje między podanym lekiem a reakcją organizmu. W finansach – śledzić nie tylko ceny aktywów, ale i napływające wiadomości, by ocenić, czy ruch na wykresie to efekt plotki, czy realnej zmiany fundamentów.
W przemyśle Chronicle mógłby czytać dzienniki konserwacji i zestawiać je z danymi z czujników wibracji, przewidując awarie maszyn zanim staną się krytyczne. ‘To nie jest już tylko analiza danych’ – podkreśla Xiaodan Zhu. ‘To początek systemów, które rozumieją świat tak jak my – przez słowa i przez fizyczne sygnały jednocześnie’.
- Chronicle to pierwszy model multimodalny, który od podstaw łączy rozumienie tekstu i szeregów czasowych w jednej architekturze.
- Wykorzystuje tokenizację wykresów (patches), by reprezentować dane czasowe w tym samym ‘języku’ co słowa.
- W testach łączenia informacji z obu modalności przewyższa dotychczasowe modele, rozumiejąc kontekst, a nie tylko statystyki.
- Potencjalne zastosowania: diagnostyka medyczna, analiza finansowa, predykcyjne utrzymanie ruchu w przemyśle.
Praktyczne zastosowania
Aby lepiej zrozumieć opisywaną innowację, przygotowaliśmy cztery przykłady praktycznego zastosowania tej technologii w różnych branżach:
Podsumowanie
Chronicle to krok w stronę AI, która nie tylko przetwarza dane, ale rozumie je w szerszym kontekście. W medycynie może wspomóc diagnostykę, zestawiając automatycznie historię choroby z aktualnymi odczytami z monitorów. W finansach – tworzyć alerty, które łączą analizę sentymentu z newsów z rzeczywistymi ruchami cen. W przemyśle – przewidywać awarie, czytając raporty serwisowe i ‘słuchając’ maszyn. To nie jest już tylko lepszy chatbot czy lepszy analizator wykresów. To system, który zaczyna łączyć fakty tak, jak robi to doświadczony ekspert.
Metryka artykułu źródłowego
Tytuł oryginalny: Chronicle: A Multimodal Foundation Model for Joint Language and Time Series Understanding
Autorzy: Paul Quinlan, Jeremy Levasseur, Qingguo Li, Xiaodan Zhu
Data publikacji: 21 maja 2026
arXiv: arxiv.org/abs/2605.20268
Napisanie tego artykułu zostało wspomagane przez sztuczną inteligencję. Treść opiera się na oryginalnym artykule naukowym, a jej dokładność została zweryfikowana automatycznie.
