圖1 說明與之前的解決方案相比,擴(kuò)散模型如何在經(jīng)典的代理-環(huán)境-緩沖區(qū)循環(huán)中發(fā)揮不同的作用。(1) 當(dāng)用作規(guī)劃器時(shí),擴(kuò)散模型在每個(gè)去噪步驟中優(yōu)化整個(gè)軌跡,而自回歸模型僅根據(jù)先前規(guī)劃的部分子序列生成下一步輸出。(2)當(dāng)用作策略時(shí),擴(kuò)散模型可以對任意動(dòng)作分布進(jìn)行建模,而高斯策略只能將可能多樣化的數(shù)據(jù)集分布與單峰分布進(jìn)行擬合。(3) 當(dāng)用作數(shù)據(jù)合成器時(shí),擴(kuò)散模型使用從學(xué)習(xí)的數(shù)據(jù)集分布中采樣的生成數(shù)據(jù)來增強(qiáng)數(shù)據(jù)集,而隨機(jī)擾動(dòng)的增強(qiáng)可能會(huì)生成偏離數(shù)據(jù)樣本的樣本。

圖2 擴(kuò)散模型在RL中的不同作用。(a)擴(kuò)散模型作為規(guī)劃器。采樣目標(biāo)是軌跡的一部分,其成分可能因特定任務(wù)而異。(b)擴(kuò)散模型作為策略。采樣目標(biāo)是在狀態(tài)條件下采取的行動(dòng),通常由Q函數(shù)通過策略梯度式指導(dǎo)或直接從訓(xùn)練目標(biāo)中減去。(c)擴(kuò)散模型作為數(shù)據(jù)合成器。采樣目標(biāo)也是軌跡,真實(shí)數(shù)據(jù)和合成數(shù)據(jù)都用于下游策略改進(jìn)。為了更好的可視化,我們省略了(c)中N去噪迭代的箭頭,只顯示了隨機(jī)采樣的噪聲生成的合成數(shù)據(jù)。

4.1 規(guī)劃器

強(qiáng)化學(xué)習(xí)的規(guī)劃是在想象環(huán)境中做出決策,以最大化累積獎(jiǎng)勵(lì)信號(hào)。規(guī)劃通常應(yīng)用于多智能體強(qiáng)化學(xué)習(xí)框架,但自回歸生成的決策序列可能導(dǎo)致復(fù)合誤差。擴(kuò)散模型可以解決此問題,因?yàn)樗鼈兛梢酝瑫r(shí)生成整個(gè)序列。

4.2 策略

與傳統(tǒng)強(qiáng)化學(xué)習(xí)分類法相比,擴(kuò)散模型作為規(guī)劃器與MBRL類似,作為策略則遵循無模型強(qiáng)化學(xué)習(xí)框架。離線政策學(xué)習(xí)框架的主要缺點(diǎn)是過于保守和對多樣化數(shù)據(jù)集的能力較差,而擴(kuò)散模型由于其出色的多模態(tài)分布表達(dá)能力,被用于解決這些問題。

4.3 數(shù)據(jù)合成器

擴(kuò)散模型在計(jì)算機(jī)視覺和強(qiáng)化學(xué)習(xí)(RL)中廣泛用于生成更多訓(xùn)練樣本。在RL中,擴(kuò)散模型作為數(shù)據(jù)合成器,可生成與環(huán)境動(dòng)態(tài)一致的多樣化數(shù)據(jù),提高策略性能和樣本效率。Lu等人的研究表明,擴(kuò)散模型生成的數(shù)據(jù)質(zhì)量高于顯式數(shù)據(jù)增強(qiáng)生成的數(shù)據(jù)。此外,He等人[2023a]使用擴(kuò)散模型增強(qiáng)多任務(wù)離線數(shù)據(jù)集,實(shí)現(xiàn)了更好的性能。

4.4 其他

Hegde等人采用超網(wǎng)絡(luò)思想,為質(zhì)量多樣性強(qiáng)化學(xué)習(xí)生成策略參數(shù),訓(xùn)練后的擴(kuò)散模型將策略參數(shù)壓縮到潛在空間中。Mazoure等人結(jié)合學(xué)習(xí)獎(jiǎng)勵(lì)估計(jì)器,使用擴(kuò)散模型估計(jì)價(jià)值函數(shù),并根據(jù)定義直接計(jì)算價(jià)值函數(shù)。Venkatraman等人遵循潛在擴(kuò)散模型,將高級(jí)軌跡編碼為語義豐富的表示,然后對其應(yīng)用擴(kuò)散模型,實(shí)現(xiàn)更高的能力。

5 擴(kuò)散模型在RL的應(yīng)用

擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中相關(guān)應(yīng)用可分為四類:離線強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、軌跡生成和數(shù)據(jù)增強(qiáng)。

5.1 離線強(qiáng)化學(xué)習(xí)

離線 RL 旨在從靜態(tài)數(shù)據(jù)集 D 中學(xué)習(xí)策略,而無需在線交互。離線 RL 的基本挑戰(zhàn)是分布轉(zhuǎn)變,即函數(shù)近似器(例如策略、價(jià)值函數(shù))在一個(gè)分布下訓(xùn)練,但在不同的分布上進(jìn)行評估,導(dǎo)致學(xué)習(xí)策略的性能不佳。高維和表達(dá)性的函數(shù)近似通常會(huì)加劇這個(gè)問題。

擴(kuò)散模型被用于解決或避免RL中的挑戰(zhàn),如克隆行為策略與真實(shí)行為策略之間的近似誤差。方法包括使用分類器引導(dǎo)采樣的迭代去噪過程、將策略表示為擴(kuò)散模型以捕獲多模態(tài)分布、使用無分類器指導(dǎo)的低溫度采樣來消除分布偏移的風(fēng)險(xiǎn)、提高擴(kuò)散模型對RL的生成能力、保證規(guī)劃軌跡的安全生成、解決長期決策問題、計(jì)劃準(zhǔn)確地匹配期望的軌跡、利用一致性模型進(jìn)行快速訓(xùn)練和采樣、通過使用單步模型預(yù)測作為動(dòng)作近似來獲得加速,以及用于提取獎(jiǎng)勵(lì)函數(shù)或價(jià)值函數(shù)。盡管取得了進(jìn)展,但使RL代理泛化到多任務(wù)和多代理場景仍然是一個(gè)挑戰(zhàn)。

多任務(wù)離線RL。擴(kuò)散模型具有解決多任務(wù)強(qiáng)化學(xué)習(xí)挑戰(zhàn)的潛力,He等人擴(kuò)展了條件擴(kuò)散模型,LCD利用層次結(jié)構(gòu)實(shí)現(xiàn)長期多任務(wù)控制,Ni等人和Liang等人將擴(kuò)散器擴(kuò)展到更具體的情境中。MetaDiffuser和AdaptDiffuser分別將條件擴(kuò)散模型整合到任務(wù)推理和適應(yīng)未見過的任務(wù)中,優(yōu)于之前的元強(qiáng)化學(xué)習(xí)方法。

多智能體離線RL。擴(kuò)散模型在多智能體RL中用于建模智能體差異行為,減少近似誤差。MADiff和DOM2分別使用注意力擴(kuò)散模型和整合到策略類中的擴(kuò)散模型來學(xué)習(xí)復(fù)雜的多智能體交互和推廣到變化環(huán)境。

5.2 模仿學(xué)習(xí)

模仿學(xué)習(xí)通過提取專家演示中的知識(shí),在環(huán)境中再現(xiàn)專家行為。擴(kuò)散模型已被證明能有效表示策略,提高采樣行為質(zhì)量。Pearce等人將其應(yīng)用于順序環(huán)境,Chi等人則應(yīng)用于機(jī)器人動(dòng)作空間。擴(kuò)散模型擅長預(yù)測閉環(huán)動(dòng)作序列,保證時(shí)間一致性。受益于其強(qiáng)大的生成能力,擴(kuò)散模型有望獲取處理多個(gè)操縱任務(wù)的多樣化技能。擴(kuò)散模型已應(yīng)用于目標(biāo)條件RL,解決目標(biāo)導(dǎo)向?qū)Ш胶湍繕?biāo)無關(guān)探索問題。

5.3 軌跡生成

軌跡生成是根據(jù)一組約束條件推導(dǎo)動(dòng)態(tài)可行路徑的過程,特別是關(guān)于人類姿勢和機(jī)器人交互的決策場景。許多研究顯示,條件擴(kuò)散模型在運(yùn)動(dòng)生成方面比使用GAN或Transformer的方法更有效。該框架利用去噪擴(kuò)散和條件上下文實(shí)現(xiàn)多樣化和精細(xì)的運(yùn)動(dòng)生成。近期研究使用擴(kuò)散模型合成未來幀并提取控制動(dòng)作,使得僅基于RGB視頻訓(xùn)練策略并應(yīng)用至多種機(jī)器人任務(wù)成為可能。UniSim利用擴(kuò)散模型整合多種數(shù)據(jù)集,構(gòu)建通用模擬器來訓(xùn)練高級(jí)視覺語言規(guī)劃器和低級(jí)RL策略,展示強(qiáng)大的仿真能力。

5.4 數(shù)據(jù)增強(qiáng)

擴(kuò)散模型已被用于強(qiáng)化學(xué)習(xí)數(shù)據(jù)增強(qiáng),可精確模擬原始數(shù)據(jù)分布,生成不同數(shù)據(jù)點(diǎn)擴(kuò)展原始分布,保持動(dòng)態(tài)準(zhǔn)確性。近期研究使用文本引導(dǎo)的擴(kuò)散模型增強(qiáng)機(jī)器人控制觀察,保持相同動(dòng)作。SynthER和MTDiff-s通過擴(kuò)散模型生成訓(xùn)練任務(wù)完整轉(zhuǎn)換,為在線和離線強(qiáng)化學(xué)習(xí)帶來顯著政策改進(jìn)。

6 RL中擴(kuò)散模型的挑戰(zhàn)

本節(jié)討論了強(qiáng)化學(xué)習(xí)中擴(kuò)散模型的三個(gè)限制,以及與基于Transformer的自回歸方法的比較。

在線強(qiáng)化學(xué)習(xí)中的應(yīng)用。擴(kuò)散模型在線強(qiáng)化學(xué)習(xí)面臨挑戰(zhàn),因?yàn)閿?shù)據(jù)分布隨時(shí)間變化。當(dāng)前策略采樣的數(shù)據(jù)分布可能會(huì)隨著時(shí)間變化,需要大量新數(shù)據(jù)來適應(yīng)。在線強(qiáng)化學(xué)習(xí)需要平衡適應(yīng)性需求和大量數(shù)據(jù)需求。通過更輕量級(jí)的擴(kuò)散模型有望解決這一困境,該模型可以在數(shù)據(jù)分布發(fā)生變化時(shí)保持一致性。

迭代采樣成本。擴(kuò)散模型采樣成本高,盡管有DDIM和DPM-Solver等加速技術(shù),但在在線交互中仍受限。陳等人提出的一致性模型,通過一兩個(gè)擴(kuò)散步驟即可實(shí)現(xiàn)與50個(gè)步驟的DDPM或DDIM相當(dāng)?shù)男阅堋?/p>

隨機(jī)抽樣的方差。傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法使用高斯表示的連續(xù)控制策略,但當(dāng)使用擴(kuò)散模型作為策略類時(shí),確定性策略是不可能的。擴(kuò)散采樣的隨機(jī)性來自初始噪聲和每步隨機(jī)去噪,高方差策略可能對精度或安全要求較高的環(huán)境產(chǎn)生負(fù)面影響。現(xiàn)有的工作很少討論這一限制,并期望減少方差的采樣方法。

與基于Transformer的方法的比較。擴(kuò)散模型和Transformer是兩種不同的強(qiáng)化學(xué)習(xí)方法。擴(kuò)散模型利用分布擬合能力,擅長多模態(tài)、多樣化和準(zhǔn)確的輸出,而Transformer擅長長時(shí)域序列建模和時(shí)間相關(guān)性理解。擴(kuò)散模型更適合學(xué)習(xí)復(fù)雜的多模態(tài)任務(wù),而Transformer更傾向于時(shí)間或代理維度的相關(guān)序列建模。

7 展望

這綜述概述了擴(kuò)散模型在RL領(lǐng)域的應(yīng)用,將其分為規(guī)劃器、政策、數(shù)據(jù)合成器等角色。與傳統(tǒng)方法相比,擴(kuò)散模型解決了RL中的表現(xiàn)力、數(shù)據(jù)稀缺、復(fù)合誤差和多任務(wù)泛化問題。盡管有局限性,但擴(kuò)散模型在RL中仍有許多值得探索的研究方向,如結(jié)合變換器、檢索增強(qiáng)生成、整合安全約束和組合不同技能。

組合變換器。現(xiàn)有工作使用UNet進(jìn)行軌跡建模,但UNet不適合軌跡建模??紤]軌跡生成和預(yù)測的最新進(jìn)展,用變換器代替UNet可能更有效地學(xué)習(xí)軌跡中的順序關(guān)系,輸出更一致的結(jié)果,有助于具有強(qiáng)時(shí)間相關(guān)性的任務(wù)的長期規(guī)劃和執(zhí)行。

檢索增強(qiáng)生成。檢索技術(shù)在推薦系統(tǒng)和大型語言模型等領(lǐng)域廣泛應(yīng)用,以提高模型處理長尾分布式數(shù)據(jù)集的能力。一些研究利用檢索數(shù)據(jù)促進(jìn)文本到圖像和文本到動(dòng)作擴(kuò)散生成,以更好地覆蓋罕見條件信號(hào)。在在線交互過程中,通過檢索相關(guān)狀態(tài)作為模型輸入,擴(kuò)散決策模型的性能可以得到改善。此外,如果檢索數(shù)據(jù)集不斷更新,擴(kuò)散模型有可能在不進(jìn)行重新訓(xùn)練的情況下生成新行為。

整合安全約束。將RL模型用于實(shí)際應(yīng)用需要遵守安全約束,幾種安全的RL方法將受約束的RL問題轉(zhuǎn)化為無約束的等價(jià)問題,然后由通用的RL算法求解。最近的研究將決策轉(zhuǎn)換器的適用性擴(kuò)展到安全約束設(shè)置的環(huán)境中,從而使單個(gè)模型能夠通過調(diào)整輸入成本來適應(yīng)不同的閾值。擴(kuò)散模型在安全RL領(lǐng)域具有巨大的部署潛力,基于擴(kuò)散的規(guī)劃器可以結(jié)合不同的移動(dòng)技能來產(chǎn)生新的行為,分類器引導(dǎo)的采樣可以為生成的樣本添加新的條件。

組合不同的技能。擴(kuò)散模型在原始狀態(tài)和動(dòng)作空間上部署生成能力,基于技能的強(qiáng)化學(xué)習(xí)將其分解為更小、更易于管理的子技能。擴(kuò)散模型擅長對多模態(tài)分布進(jìn)行建模,適合處理子技能。結(jié)合分類器指導(dǎo)或無分類器指導(dǎo),擴(kuò)散模型可以生成適當(dāng)技能完成任務(wù)。離線RL實(shí)驗(yàn)表明,擴(kuò)散模型可以在技能之間共享知識(shí),并將其組合起來,具有通過組合不同技能進(jìn)行零樣本適應(yīng)或連續(xù)RL的潛力。

參考資料:

《 Diffusion Models for Reinforcement Learning: A Survey》

文章轉(zhuǎn)自微信公眾號(hào)@算法進(jìn)階

上一篇:

10大機(jī)器學(xué)習(xí)聚類算法實(shí)現(xiàn)(Python)

下一篇:

深度學(xué)習(xí)時(shí)間序列的綜述
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)