圖1 Chronos的高層次描述。(左)輸入時間序列被縮放和量化以獲得一系列令牌。(中)令牌被饋送到語言模型中,該模型可以是編碼器-解碼器模型或解碼器模型。使用交叉熵損失訓(xùn)練模型。(右)在推理期間,我們從模型自動采樣的令牌并將其映射回數(shù)值值。從模型中采樣多個軌跡以獲得預(yù)測分布

Chronos使用分類模型對觀測值進行分類分布建模,執(zhí)行回歸分類。該模型不需要針對時間序列進行特定設(shè)計或特征,而是將時間序列值標(biāo)記化到固定詞匯表上,并在這些標(biāo)記上訓(xùn)練現(xiàn)有的語言模型架構(gòu)。其他時間序列任務(wù)。最近的研究已經(jīng)研究了適用于時間序列任務(wù)的一般性模型,包括填補、預(yù)測、分類和異常檢測。這些模型基于CNN的Inception模型和掩碼預(yù)訓(xùn)練框架,將一維時間序列轉(zhuǎn)換為二維圖像表示,并基于周期性對時間序列進行分段和堆疊。這些模型在未見過的時間序列數(shù)據(jù)上表現(xiàn)出色,可以應(yīng)用于預(yù)測之外的任務(wù),如分類和異常檢測。

2  工作背景及相關(guān)工作時間序列預(yù)測

可以使用經(jīng)典預(yù)測方法和深度學(xué)習(xí)方法,其中經(jīng)典預(yù)測方法如ETS、ARIMA等為每個時間序列獨立地擬合模型,而深度學(xué)習(xí)方法在給定的數(shù)據(jù)集中學(xué)習(xí)時間序列。這些方法在建模目標(biāo)上有所不同,一些模型直接預(yù)測一組分位數(shù),而其他模型則建模密度函數(shù)。并非所有模型都產(chǎn)生概率預(yù)測。

大型語言模型(LLM在自然語言處理任務(wù)中表現(xiàn)出色,基于transformer架構(gòu),通常在文本語料庫上進行訓(xùn)練,參數(shù)數(shù)量從數(shù)百萬到數(shù)百億不等。它們旨在通過建模條件分布來預(yù)測下一個標(biāo)記。目前,BART和T5等模型在許多流行的語言模型中。建議讀者參考Zhao等人(2023年)的最新研究。

基于預(yù)訓(xùn)練LLM的預(yù)測模型包括將數(shù)值時間序列數(shù)據(jù)視為原始文本,利用預(yù)訓(xùn)練的LLM進行微調(diào),或?qū)?shù)值數(shù)據(jù)編碼為數(shù)字字符串,在預(yù)訓(xùn)練的LLM上進行零樣本設(shè)置來獲取預(yù)報。其中,周等(2023a)提出了一種通用的“一刀切”模型,使用預(yù)訓(xùn)練的GPT-2模型作為骨干,僅對位置嵌入和層歸一化的參數(shù)進行微調(diào)以適應(yīng)每個任務(wù)。此外,還有重新利用LLM進行時間序列預(yù)報的方法,如將時間序列補丁嵌入與文本原型對齊,并將這些對齊嵌入和描述任務(wù)的自然語言前綴提示給凍結(jié)的LLM。而Chronos從頭開始訓(xùn)練語言模型在一個大型時間序列集合上,通過縮放和量化進行標(biāo)記化。

零樣本學(xué)習(xí)。Chronos模型是一種概率性的時間序列預(yù)測方法,它使用分類模型對觀測值進行分類分布建模,執(zhí)行回歸分類。該模型不需要針對時間序列進行特定設(shè)計或特征,而是將時間序列值標(biāo)記化到固定詞匯表上,并在這些標(biāo)記上訓(xùn)練現(xiàn)有的語言模型架構(gòu)。

其他時間序列任務(wù)。最近的研究已經(jīng)研究了適用于時間序列任務(wù)的一般性模型,包括填補、預(yù)測、分類和異常檢測。這些模型基于CNN的Inception模型和掩碼預(yù)訓(xùn)練框架,將一維時間序列轉(zhuǎn)換為二維圖像表示,并基于周期性對時間序列進行分段和堆疊。這些模型在未見過的時間序列數(shù)據(jù)上表現(xiàn)出色,可以應(yīng)用于預(yù)測之外的任務(wù),如分類和異常檢測。

3  Chronos:用于時間序列的語言建??蚣?/strong>

Chronos是一個框架,用于調(diào)整現(xiàn)有語言模型架構(gòu)和訓(xùn)練過程以進行概率時間序列預(yù)測。盡管語言和時間序列都是順序的,但它們在表示上存在差異,自然語言由有限詞匯量的單詞組成,而時間序列是實值的。這種差異需要對現(xiàn)有語言建??蚣苓M行特定修改,特別是與分詞有關(guān)的修改,以便它們適用于時間序列數(shù)據(jù)。然而,由于現(xiàn)有的變換器模型在語言任務(wù)上表現(xiàn)出色,Chronos的設(shè)計理念是進行最小化的修改。

3.1  時間序列標(biāo)記

考慮時間序列x1:C+H,其中前C個步驟是歷史上下文,后H個步驟是預(yù)測時域。由于語言模型處理有限令牌,我們需要將實值觀察值xi∈R映射到令牌集合。這涉及縮放和量化。為優(yōu)化深度學(xué)習(xí)模型,我們標(biāo)準(zhǔn)化時間序列,選擇均值縮放,將每個條目按歷史上下文的平均絕對值標(biāo)準(zhǔn)化。量化則是將實值轉(zhuǎn)換為離散令牌,使用B個bin中心和邊界。我們選擇數(shù)據(jù)無關(guān)的一致binning,以避免未見數(shù)據(jù)集與訓(xùn)練分布的差異。時間序列詞匯表Vts包括令牌{1, 2, …, B}以及PAD和EOS特殊標(biāo)記,用于填充缺失值、標(biāo)識序列結(jié)束。雖然時間和頻率信息常用于時間序列建模,但在Chronos中,我們只考慮序列本身。我們主要關(guān)注編碼器-解碼器T5模型的各種變體(Raffel等,2020),并額外使用GPT-2模型(Radford等,2019)進行實驗,證明方法可擴展至僅解碼器模型。為量化調(diào)整bin數(shù)量,需調(diào)整語言模型詞匯量,涉及截斷或擴展輸入輸出嵌入層。

3.2  目標(biāo)函數(shù)

Chronos模型使用分類交叉熵損失函數(shù),將分詞時間序列作為輸入,預(yù)測下一個詞的分類分布。Chronos模型的目標(biāo)是最小化真實標(biāo)簽的分布和預(yù)測分布之間的交叉熵。損失函數(shù)為:?(θ) = -H+1 X h=1 |Vts| X i=1 1(zC+h+1=i) log pθ(zC+h+1 = i|z1:C+h)。其中pθ(zC+h+1 = i|z1:C+h)表示由模型參數(shù)化θ預(yù)測的分類分布。分類交叉熵損失不是距離感知的目標(biāo)函數(shù),而是根據(jù)訓(xùn)練數(shù)據(jù)集中桶索引的分布將相鄰?fù)瓣P(guān)聯(lián)在一起。Chronos通過分類進行回歸,與典型的概率時間序列預(yù)測模型不同。選擇分類輸出分布有兩個關(guān)鍵優(yōu)勢:不需要修改語言模型架構(gòu)或訓(xùn)練目標(biāo),允許模型學(xué)習(xí)任意分布,包括多模態(tài)分布。

3.3  預(yù)測

時序模型通過自回歸采樣,捕捉預(yù)測分布的未來多種可能性,并精確映射預(yù)測令牌到實際值。反標(biāo)化階段調(diào)整預(yù)測值,與原始數(shù)據(jù)尺度保持一致。在均值標(biāo)定情境下,通過乘以適當(dāng)?shù)某叨纫蜃觭,確保預(yù)測結(jié)果既準(zhǔn)確又實用。

4  數(shù)據(jù)增強

公共時間序列數(shù)據(jù)在自然語言處理領(lǐng)域的相對匱乏,可以通過混合增強數(shù)據(jù)多樣性和使用合成數(shù)據(jù)來補充訓(xùn)練來解決零樣本預(yù)測模型面臨的挑戰(zhàn)。

4.1  TSMix:時間序列混合器

混合時間序列數(shù)據(jù)增強方法(TSMix)是一種將Mixup思想擴展到超過兩個數(shù)據(jù)點的時間序列領(lǐng)域的數(shù)據(jù)增強方案。它從訓(xùn)練數(shù)據(jù)集中隨機采樣特定長度的時間序列,對其進行縮放,并取其凸組合,生成示例增強。該方法通過混合來自不同時間序列的模式來增強數(shù)據(jù)的多樣性,有助于緩解深度學(xué)習(xí)模型中的過度擬合和過擬合問題。該方法還展示了如何混合不同的模式,并生成示例增強。

圖2 k={1,2,3}時的TSmix增強示例。TSmix通過從不同數(shù)據(jù)集隨機抽樣的時間序列中取加權(quán)的組合來提高模式多樣性

4.2  KernelSynth:使用高斯過程生成合成數(shù)據(jù)

KernelSynth是一種使用高斯過程生成合成時間序列的方法,通過隨機組合高斯過程的核函數(shù)來生成新的時間序列。核函數(shù)指定了協(xié)方差函數(shù),可以生成各種模式。我們構(gòu)建了一個基核函數(shù)的集合,包括用于趨勢的線性核,用于平滑局部變化的RBF核,以及用于在典型時間序列頻率中找到季節(jié)性的周期性核。合成時間序列是通過從GP先驗中抽取樣本來生成的。這種方法可以補充訓(xùn)練數(shù)據(jù)集。

圖3 (a)KernelSynth的示意圖,KernelSynth是一種基于高斯過程(GP)的合成時間序列生成方法。從核庫中采樣核函數(shù),然后使用二進制操作(×或+)隨機組合。生成的合成時間序列在高斯過程的前置中使用了組合后的核函數(shù)。圖中展示了每個步驟中來自不同核函數(shù)的隨機樣本,顏色分別為紅色和藍色。(b)KernelSynth生成的合成時間序列示例

5  實驗

這一部分展示了常用基準(zhǔn)數(shù)據(jù)集的實驗結(jié)果。首先,概述了數(shù)據(jù)集、訓(xùn)練策略、基準(zhǔn)和評估指標(biāo)。接著,評估了Chronos模型在領(lǐng)域內(nèi)和零樣本設(shè)置下的性能,并與局部模型和特定任務(wù)深度學(xué)習(xí)模型進行了比較。然后,分析了各種設(shè)計選擇對Chronos模型性能的影響。最后,分析了Chronos模型的定性性能,并強調(diào)了其局限性。實驗細節(jié)已歸入附錄。

5.1  數(shù)據(jù)集

為了訓(xùn)練和評估Chronos模型,我們收集了來自多個應(yīng)用領(lǐng)域的大量公開可用數(shù)據(jù)集,包括能源、運輸、醫(yī)療保健、零售、網(wǎng)絡(luò)、天氣、金融等。數(shù)據(jù)集總共有55個,來自多個來源,包括莫納什時間序列預(yù)測存儲庫、M競賽和Kaggle上的公共領(lǐng)域數(shù)據(jù)集。我們將數(shù)據(jù)集分類為三類:僅用于訓(xùn)練的數(shù)據(jù)集(13個),用于訓(xùn)練和評估的基準(zhǔn)I數(shù)據(jù)集(15個),僅用于評估的基準(zhǔn)II數(shù)據(jù)集(27個)。我們使用28個數(shù)據(jù)集來訓(xùn)練Chronos模型,包括約89萬個一維時間序列,總共有約84億個觀察值。對于域內(nèi)(I)和零樣本(II)基準(zhǔn)數(shù)據(jù)集,我們使用每個時間序列的最后H觀察值作為留出測試集,所有模型的準(zhǔn)確性都通過它們在留出集合上的預(yù)測來判斷。預(yù)測長度H是任務(wù)特定的,我們將任務(wù)定義為數(shù)據(jù)集和預(yù)測長度的配對。兩個基準(zhǔn)的任務(wù)在數(shù)據(jù)集大小、頻率、歷史長度和預(yù)測長度方面表現(xiàn)出不同的屬性,使其成為豐富的基準(zhǔn),反映了現(xiàn)實世界的場景。

5.2  訓(xùn)練策略

我們選擇了T5作為Chronos的主要架構(gòu),因為它有多種尺寸可供選擇。我們訓(xùn)練了T5模型4種尺寸,分別為Mini(20M)、Small(46M)、Base(200M)和Large(710M),以及GPT-2基礎(chǔ)模型(90M)。我們在由28個訓(xùn)練數(shù)據(jù)集生成的10M TSMix增強上訓(xùn)練了這些模型,并在訓(xùn)練過程中從增強數(shù)據(jù)和合成數(shù)據(jù)中采樣時間序列的比例為9:1。每個模型使用實際批次大小為256個序列進行訓(xùn)練,使用分布式數(shù)據(jù)并行和梯度積累。我們使用AdamW優(yōu)化器,使用權(quán)重衰減為0.01的Adam優(yōu)化器對模型進行了為期200K步的訓(xùn)練。學(xué)習(xí)率在訓(xùn)練步驟中從初始值0.001線性降至0。我們使用具有8個A100(40GB)GPU的AWS EC2實例來訓(xùn)練所有Chronos模型。

5.3  基準(zhǔn)值

我們評估了Chronos模型的性能,并將其與多種時間序列預(yù)測基準(zhǔn)進行了比較。這些基準(zhǔn)包括天真模型、季節(jié)性天真模型、自動ETS、自動ARIMA和AutoTheta等統(tǒng)計預(yù)測模型,以及WaveNet、DeepAR、N-BEATS、TFT、DLinear、PatchTST、N-HiTS和GPT4TS等神經(jīng)預(yù)測模型。我們還評估了ForecastPFN,這是一個僅使用合成時間序列數(shù)據(jù)進行預(yù)訓(xùn)練的轉(zhuǎn)換器模型。我們將Chronos模型和基準(zhǔn)分為三組:本地模型、任務(wù)特定模型和預(yù)訓(xùn)練模型。更多詳細信息請參閱附錄C。

5.4  評估指標(biāo)

我們評估了模型的概率和點預(yù)報性能,使用加權(quán)分位數(shù)損失(WQL)評估概率預(yù)報,平均絕對比例誤差(MASE)評估點預(yù)報。WQL衡量預(yù)測分布與地面真實觀察的兼容性,針對9個分位數(shù)級別計算。分位數(shù)預(yù)報器直接在這些分位數(shù)級別上進行訓(xùn)練,對于需要采樣的方法,使用20個樣本預(yù)報路徑來估計分位數(shù)。MASE定義為預(yù)報的絕對誤差與時間序列的歷史季節(jié)誤差之比。對于概率預(yù)報器,我們使用中位數(shù)預(yù)報(0.5分位數(shù))來計算MASE。我們采用幾何平均值聚合分?jǐn)?shù),因為其對基準(zhǔn)的選擇不敏感,且模型排序保持不變。對于無法完成評估的模型,我們賦予其相對分?jǐn)?shù)為1。我們在匯總過程中給所有任務(wù)賦予了相同的權(quán)重。

5.5  主要結(jié)果

本節(jié)展示了42個數(shù)據(jù)集上的主要結(jié)果,包括Benchmark I(15個數(shù)據(jù)集)和Benchmark II(27個數(shù)據(jù)集)。Chronos模型在內(nèi)部域數(shù)據(jù)集(Benchmark I)上超過了經(jīng)典統(tǒng)計基線和特定任務(wù)的深度學(xué)習(xí)模型。在零樣本數(shù)據(jù)集(Benchmark II)上,Chronos模型超過了統(tǒng)計基線,與最佳深度學(xué)習(xí)模型表現(xiàn)相當(dāng)。通過微調(diào)方案,Chronos-T5(Small)模型在Benchmark II上取得了最佳成績,顯著超過所有基線。

5.5.1  基準(zhǔn)I:域內(nèi)結(jié)果

基準(zhǔn)I包含15個數(shù)據(jù)集,用于評估Chronos模型的領(lǐng)域內(nèi)性能。所有模型在留出的測試窗口上的概率和點預(yù)測性能,以聚合相對分?jǐn)?shù)和平均排名為指標(biāo)。Chronos-T5模型(基礎(chǔ)版和大模型)顯著優(yōu)于基準(zhǔn)模型,獲得了最佳的聚合相對分?jǐn)?shù)和平均排名。Chronos-T5模型的小型版本(Mini和Small)以及Chronos-GPT2也優(yōu)于大多數(shù)基準(zhǔn)模型。這些結(jié)果表明,使用跨多個數(shù)據(jù)集僅進行一次訓(xùn)練的模型比為每個任務(wù)單獨訓(xùn)練的任務(wù)特定模型更有優(yōu)勢。這種模型可以通過消除為每個任務(wù)訓(xùn)練單獨模型的必要性,簡化生產(chǎn)預(yù)測系統(tǒng)中的預(yù)報工作。

圖4 在基準(zhǔn)I上的不同模型性能,包括15個數(shù)據(jù)集,這些數(shù)據(jù)集也包含在Chronos模型的訓(xùn)練數(shù)據(jù)中?;鶞?zhǔn)展示了Chronos模型相對于本地統(tǒng)計模型在域內(nèi)性能,這些模型為每個時間序列單獨擬合參數(shù),以及針對每個任務(wù)專門訓(xùn)練的模型。使用季節(jié)性樸素貝葉斯基線的分?jǐn)?shù)對概率(WQL)和點(MASE)預(yù)報指標(biāo)進行歸一化,并通過幾何平均值聚合以獲得聚合相對WQL和MASE。Chronos和任務(wù)特定模型(除GPT4TS外)的平均結(jié)果涵蓋了3個隨機種子。僅根據(jù)MASE對產(chǎn)生點預(yù)報的模型(GPT4TS)進行比較。

5.5.2  基準(zhǔn)II:零樣本結(jié)果

基準(zhǔn)II由27個數(shù)據(jù)集組成,這些數(shù)據(jù)集在Chronos模型訓(xùn)練過程中未被使用過,用于評估模型的零樣本性能。Chronos模型在基準(zhǔn)II上的表現(xiàn)優(yōu)于本地統(tǒng)計模型,在概率預(yù)報方面取得第二和第三名,點預(yù)測性能排名第三。Chronos模型還顯著優(yōu)于ForecastPFN和GPT4TS。微調(diào)后的Chronos-T5(小型)模型在基準(zhǔn)II上總體排名第一,超過了更大的(零樣本)Chronos模型和最佳特定任務(wù)模型。

圖5 在基準(zhǔn)II上的不同模型性能,包含在訓(xùn)練過程中沒有看到Chronos模型的27個數(shù)據(jù)集。基準(zhǔn)提供了對Chronos模型與本地統(tǒng)計模型、針對每個時間序列單獨擬合參數(shù)的任務(wù)特定模型以及預(yù)訓(xùn)練ForecastPFN模型的零樣本性能的見解。概率性(WQL)和點(MASE)預(yù)報度量值使用季節(jié)性樸素貝葉斯基線的分?jǐn)?shù)進行歸一化,并通過幾何平均值聚合以獲得聚合相對WQL和MASE,分別進行比較。Chronos和任務(wù)特定模型(除GPT4TS)的性能結(jié)果平均了3個隨機種子。僅基于MASE對產(chǎn)生點預(yù)報的模型(GPT4TS和ForecastPFN)進行比較。

圖6 在來自基準(zhǔn)II的各個數(shù)據(jù)集上進行微調(diào)時,Chronos-T5(小型)相對于零樣本性能顯著提升,并且平均而言成為表現(xiàn)最佳的模型(見圖5)。

5.6  超參數(shù)分析

我們研究了不同設(shè)計選擇,如模型大小、初始化、訓(xùn)練步驟、合成數(shù)據(jù)比例、上下文長度和詞匯表大小,對下游模型性能的影響。在每次實驗中,我們只調(diào)整一個參數(shù),保持其他因素不變,以評估其對Chronos-T5(小型)性能的單獨影響。模型大?。?/strong>我們試驗了從20M到710M參數(shù)的四種模型大小。發(fā)現(xiàn)隨著模型容量的增加,訓(xùn)練損失逐漸降低,域內(nèi)和零樣本基準(zhǔn)的性能也相應(yīng)提升。這表明更大的模型可能進一步提高性能。但考慮到推理時間的限制,我們沒有進一步探索更大的模型。

圖7 模型大小。(a)不同大小的Chronos模型訓(xùn)練損失曲線。(b)Chronos模型隨模型大小變化的域內(nèi)和零樣本性能。初始化:我們研究了使用T5語言模型權(quán)重初始化Chronos模型的效果。結(jié)果顯示,隨機初始化的模型收斂到較低訓(xùn)練損失的趨勢更為明顯。對于大型模型,使用語言模型權(quán)重初始化的模型在初始階段訓(xùn)練損失下降較快,但最終收斂到較高的損失??傮w來說,在語言模型背景下,隨機初始化可能更優(yōu)。

圖8?不同模型大小下,使用語言模型權(quán)重初始化(標(biāo)記為星號)的模型和三個隨機初始化的模型(標(biāo)記為圓圈)的域內(nèi)和零樣本性能的比較。

圖9 初始化。不同大小的隨機初始化的Chronos模型與使用語言模型權(quán)重的初始化的Chronos模型之間的訓(xùn)練損失的比較。TSMix增強:我們在TSMix增強的時間序列上訓(xùn)練了Chronos模型,并研究了其對下游性能的影響。結(jié)果顯示,使用TSMix增強的模型在零樣本性能上有所提升,這表明TSMix增強了訓(xùn)練數(shù)據(jù)多樣性,提高了對未見數(shù)據(jù)集的性能。隨著合成數(shù)據(jù)量的增加,零樣本性能進一步提升。

圖10 (a)使用TSMix增強訓(xùn)練的Chronos-T5(Small)模型在域內(nèi)和零樣本性能之間的比較,以及沒有TSMix增強的模型。(b)Chronos-T5(Small)模型在訓(xùn)練語料庫中KernelSynth數(shù)據(jù)不同比例下的域內(nèi)和零樣本性能。

合成數(shù)據(jù)比例:我們探索了KernelSynth對下游模型性能的影響。實驗表明,在訓(xùn)練中加入合成數(shù)據(jù)可以提高域內(nèi)和零樣本指標(biāo)的性能。最穩(wěn)定的改進出現(xiàn)在大約10%的合成數(shù)據(jù)比例時,進一步提高比例通常會降低性能。盡管僅使用合成數(shù)據(jù)訓(xùn)練的模型表現(xiàn)略遜于同時使用真實數(shù)據(jù)的模型,但其絕對性能表現(xiàn)相當(dāng)不錯。

訓(xùn)練步驟:我們對Chronos-T5(小型,46M)進行了1百萬步的訓(xùn)練,以研究更長的訓(xùn)練對模型性能的影響。結(jié)果顯示,隨著訓(xùn)練的進行,下游模型性能在域內(nèi)和零樣本基準(zhǔn)上均有所提高。這表明,對于更大的模型,更長的訓(xùn)練可能有助于提高性能。

圖11 Chronos-T5(小型)模型在訓(xùn)練步數(shù)、訓(xùn)練上下文長度和詞匯量上的內(nèi)域和零樣本性能隨時間的變化情況。

上下文長度:我們研究了上下文長度對下游性能的影響,通過訓(xùn)練Chronos-T5模型,觀察到隨著上下文長度的增加,性能有所改善。然而,由于大多數(shù)基準(zhǔn)數(shù)據(jù)集頻率較低且時間序列長度小于1000步,需要進一步評估更長上下文長度的效果。推測高頻數(shù)據(jù)集可能會受益于更長的上下文,有助于捕捉長期季節(jié)性模式。

詞匯量:我們通過不同詞匯量的Chronos-T5模型訓(xùn)練,發(fā)現(xiàn)隨著詞匯量的增加,點預(yù)測指標(biāo)MASE持續(xù)提高,而WQL在較大詞匯量時開始改善后惡化。MASE與單個系列規(guī)模無關(guān),與訓(xùn)練損失緊密相關(guān),而WQL與規(guī)模相關(guān),表現(xiàn)不太可預(yù)測。這些指標(biāo)特性的討論詳見附錄D。

5.7  定性分析和局限性

在此部分,我們對Chronos模型生成的預(yù)測進行定性分析,并指出標(biāo)記化技術(shù)的局限性。我們主要關(guān)注合成時間序列的生成,以進行不同類型時序模式的受控分析。如需了解實際數(shù)據(jù)集的預(yù)測,請參考附錄E中的圖22至圖24。

獨立同分布噪聲:我們生成了由兩種高斯觀測值組成的時間序列,并用Chronos-T5(基礎(chǔ)版)進行預(yù)測。結(jié)果顯示,模型預(yù)測準(zhǔn)確,80%的預(yù)測區(qū)間與真實區(qū)間相吻合。

圖12 Chronos-T5(基礎(chǔ)版)對合成模式生成的預(yù)測。(a) 噪聲:Chronos對于高斯噪聲生成了合理的預(yù)測,80%的預(yù)測區(qū)間與底層分布區(qū)間匹配(由水平虛線藍色線表示)。(b) 趨勢:Chronos正確地預(yù)測了線性趨勢(頂部),但對于指數(shù)趨勢(底部)則難以應(yīng)對。(c) 季節(jié)性:Chronos能夠準(zhǔn)確建模不同復(fù)雜程度的季節(jié)性模式(頂部為單季節(jié)性,底部為三季節(jié)性)。(d) 組合模式:Chronos對通過添加(頂部)或乘法(底部)組合趨勢和季節(jié)性模式生成的時間序列進行準(zhǔn)確預(yù)測。

趨勢和季節(jié)性:Chronos能夠準(zhǔn)確預(yù)測線性趨勢,但對指數(shù)趨勢的預(yù)測較為困難。當(dāng)上下文不足時,模型在估計趨勢方面可能過于保守。然而,隨著上下文增長,模型能夠準(zhǔn)確識別模式和趨勢。此外,模型在識別季節(jié)性模式方面表現(xiàn)優(yōu)秀。

圖13 當(dāng)上下文不夠長時,Chronos-T5(基礎(chǔ)版)往往會低估趨勢,如經(jīng)典航空旅客數(shù)據(jù)(月度)和24個月預(yù)測時間跨度下的例子所示。上圖:只有120個觀測值作為上下文時,預(yù)測中位數(shù)與前一趨勢相比趨于平緩。下圖:有完整的上下文,即144個觀測值時,預(yù)測更緊密地跟隨趨勢。

自回歸過程:我們對不同階數(shù)的平穩(wěn)AR過程生成的時間序列進行了預(yù)測,并將Chronos-T5(基礎(chǔ)版)的預(yù)測結(jié)果與真實AR模型、正確階數(shù)的AR模型和AutoARIMA模型的預(yù)測結(jié)果進行了比較。結(jié)果顯示,Chronos在所有四個AR過程中都生成了令人信服的預(yù)測。

圖14 Chronos-T5(基礎(chǔ)版)針對AR(1)和AR(4)過程生成的時序的預(yù)測結(jié)果,與真實世界AR模型、正確階數(shù)的擬合AR模型和AutoARIMA模型生成的預(yù)測結(jié)果進行比較。Chronos-T5(基礎(chǔ)版)在這兩種情況下都能生成可信的預(yù)測和預(yù)測區(qū)間。所有AR模型都能正確擬合更簡單的AR(1)過程,并且相對于Chronos-T5(基礎(chǔ)版),具有更好的MSE;然而,在AR(4)過程中,其復(fù)雜性增加,Chronos-T5(基礎(chǔ)版)在真實世界AR模型之后排名第二。

靈活的預(yù)測分布:使用分類分布為Chronos提供了生成不同形狀預(yù)測分布的靈活性。模型輸出的預(yù)測分布形狀各異,包括多模態(tài)分布。

圖15 來自Chronos模型對NN5(每日)、交通和醫(yī)院數(shù)據(jù)集的序列的預(yù)測分布分布圖。每個圖都顯示了五個預(yù)測步驟(h=1,…,5)的預(yù)測分布:密度是通過核密度估計從樣本預(yù)測中獲得的。盡管交叉熵不關(guān)心距離,但模型學(xué)會了估計鄰近標(biāo)記的分布,以及各種形狀的分布,包括多模態(tài)分布。

溢出和精度損失:Chronos的一個限制是其分詞方法(見第3.1節(jié))。具體來說,標(biāo)記代表的數(shù)據(jù)范圍是[-15s, 15s],其中s為數(shù)據(jù)的尺度。若s過小,某些觀察值會超出范圍,如圖16a的稀疏系列。而s過大則會導(dǎo)致精度損失,因為接近的值可能被映射到同一標(biāo)記上,如圖16b所示。盡管有這些限制,但第5.5節(jié)的結(jié)果表明,Chronos模型在現(xiàn)實數(shù)據(jù)上表現(xiàn)良好。未來的工作將關(guān)注如何改進分詞方法以克服這些邊緣情況。

圖16 由于縮放和量化導(dǎo)致的精度損失。在(a)中,數(shù)據(jù)由每隔n=10、20、50個觀察值(從上到下)的單位尖峰組成:這里的尺度是1/n,因此最大可表示值為15/n。當(dāng)1>15/n時,模型不可能恰當(dāng)?shù)夭蹲降郊夥澹ǔ俗罡咔闆r),因為它們的值沒有被標(biāo)記準(zhǔn)確地代表。在(b)中,數(shù)據(jù)是一個正弦波,它向上移動了μ=1、10、50:這里的尺度是μ,隨著信號的方差相對于μ變得越來越小,標(biāo)記的精度就會下降。

6  討論及展望

Chronos作為實用預(yù)訓(xùn)練時間序列預(yù)測模型的先驅(qū)之一,在綜合測試數(shù)據(jù)集上展示了顯著的零樣本性能,打開了多種研究途徑。

6.1  超越單變量零步預(yù)測

我們在單變量時間序列預(yù)測上評估了Chronos的性能,并發(fā)現(xiàn)它在特定任務(wù)上表現(xiàn)優(yōu)異。雖然可以通過微調(diào)提高性能,但預(yù)測任務(wù)通常需要考慮協(xié)變量。未來研究可探索將協(xié)變量融入預(yù)訓(xùn)練模型中,或結(jié)合其他輕量級模型以提高性能。此外,Chronos也可能有助于其他時間序列分析任務(wù)。

6.2  推斷

Chronos模型的推理速度可能較慢,但其優(yōu)點在于可以部署在各種數(shù)據(jù)集上,簡化了預(yù)測流程。為提高推理速度,可考慮使用優(yōu)化的CUDA內(nèi)核、量化、更快解碼技術(shù)等。同時,長上下文語言模型的發(fā)展也可能提高Chronos在捕捉季節(jié)性模式方面的性能。其他文本語言模型技術(shù)也有望提高預(yù)報質(zhì)量。

圖17 不同模型對單個時間序列預(yù)測的推理時間,對每個數(shù)據(jù)集進行了平均,同時突出了模型所需的計算要求。

6.3  數(shù)據(jù)

大模型在大規(guī)模時序數(shù)據(jù)集上訓(xùn)練可獲得出色的性能,但公開時序數(shù)據(jù)有限。為解決此問題,時序社區(qū)需獲取更大規(guī)模的數(shù)據(jù)集,或開發(fā)更好的合成時序生成方法。我們已在這方面取得進展,使用高斯過程生成的合成數(shù)據(jù)可改善模型性能。未來研究可進一步探索模型失敗模式,并提出改進方案以縮小真實數(shù)據(jù)和合成數(shù)據(jù)之間的差距。

本文章轉(zhuǎn)載微信公眾號@算法進階

#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費