image

VBench榜單

image

技術(shù)創(chuàng)新

基于主流的DiT和線性噪聲軌跡Flow Matching范式,萬(wàn)相大模型通過(guò)一系列技術(shù)創(chuàng)新實(shí)現(xiàn)了生成能力的重大進(jìn)步。包括自研高效的3D因果VAE、可擴(kuò)展的預(yù)訓(xùn)練策略、大規(guī)模數(shù)據(jù)鏈路構(gòu)建以及自動(dòng)化評(píng)估指標(biāo),這些創(chuàng)新共同提升了模型的最終性能表現(xiàn)。自研高效的3D因果VAEWan2.1基于3D因果VAE模塊,實(shí)現(xiàn)了256倍無(wú)損視頻隱空間壓縮。為高效支持任意長(zhǎng)度視頻的編碼與解碼,我們?cè)?D VAE的因果卷積模塊中引入了特征緩存機(jī)制。該機(jī)制通過(guò)分塊處理視頻并緩存每塊尾幀特征,避免了直接對(duì)長(zhǎng)視頻進(jìn)行端到端的編解碼,從而實(shí)現(xiàn)無(wú)限長(zhǎng)1080P視頻的高效編解碼。此外,Wan2.1通過(guò)將空間降采樣壓縮提前,在不損失性能的情況下進(jìn)一步減少了29%的推理時(shí)內(nèi)存占用。

image

視頻VAE實(shí)驗(yàn)結(jié)果

通義萬(wàn)相大模型視頻VAE實(shí)驗(yàn)結(jié)果表明,通義萬(wàn)相的視頻VAE在視頻質(zhì)量和處理效率上均表現(xiàn)出色。在相同硬件環(huán)境(單個(gè)A800 GPU)下,通義萬(wàn)相視頻VAE重建速度比現(xiàn)有最先進(jìn)方法快2.5倍,且在較小模型參數(shù)下實(shí)現(xiàn)業(yè)內(nèi)領(lǐng)先的壓縮重構(gòu)質(zhì)量。得益于小尺寸設(shè)計(jì)和特征緩存機(jī)制,高分辨率下的性能優(yōu)勢(shì)更為顯著。

image

Diffusion Transformer

Wan2.1基于主流的視頻DiT結(jié)構(gòu),通過(guò)Full Attention機(jī)制有效建模長(zhǎng)時(shí)程時(shí)空依賴(lài),生成時(shí)空一致的高質(zhì)量視頻。在噪聲采樣策略上,采用Flow Matching方法,不僅確保模型快速收斂,還提升了訓(xùn)練效率。模型首先利用多語(yǔ)言u(píng)mT5編碼器對(duì)輸入文本進(jìn)行語(yǔ)義編碼,并通過(guò)逐層交叉注意力層將文本特征注入每個(gè)Transformer Block,實(shí)現(xiàn)細(xì)粒度語(yǔ)義對(duì)齊。此外,通過(guò)共享參數(shù)的MLP模塊將時(shí)間步特征映射為可學(xué)習(xí)參數(shù),顯著降低了計(jì)算量和參數(shù)規(guī)模。

image

視頻架構(gòu)圖

image

訓(xùn)練策略

在訓(xùn)練策略上,我們采用6階段分步訓(xùn)練法:從256P圖像數(shù)據(jù)的初始預(yù)訓(xùn)練,到逐步引入低分辨率、高時(shí)長(zhǎng)視頻數(shù)據(jù),再到480P、720P的高分辨率數(shù)據(jù)訓(xùn)練,最后通過(guò)Post-training階段使用高質(zhì)量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),進(jìn)一步提升生成效果。這種漸進(jìn)式訓(xùn)練策略讓模型在不同分辨率和復(fù)雜場(chǎng)景下都能表現(xiàn)出色。數(shù)據(jù)處理Wan2.1 的訓(xùn)練依賴(lài)于大規(guī)模、高質(zhì)量的數(shù)據(jù)集,在預(yù)訓(xùn)練階段,我們的目標(biāo)是從龐大但嘈雜的初始數(shù)據(jù)集中選取高質(zhì)量且多樣化的數(shù)據(jù),以促進(jìn)有效的訓(xùn)練。如下圖所示,我們?cè)O(shè)計(jì)了一個(gè)四步數(shù)據(jù)清洗流程,重點(diǎn)關(guān)注基礎(chǔ)維度、視覺(jué)質(zhì)量和運(yùn)動(dòng)質(zhì)量。對(duì)應(yīng)的整個(gè)預(yù)訓(xùn)練過(guò)程也分為四個(gè)階段,每個(gè)階段逐漸增加分辨率和視頻時(shí)長(zhǎng),讓模型在一定算力限制下得到更充分的訓(xùn)練。最終的SFT階段,我們進(jìn)行了更嚴(yán)格的數(shù)據(jù)過(guò)濾,保障模型穩(wěn)定收斂到高質(zhì)量視頻輸出。

image

數(shù)據(jù)處理

模型訓(xùn)練和推理效率優(yōu)化訓(xùn)練階段,對(duì)于文本、視頻編碼模塊,我們使用DP和FSDP組合的分布式策略;DiT模塊,我們采用DP、FSDP、RingAttention、Ulysses混合的并行策略?;谌f(wàn)相2.1模型參數(shù)量較小和長(zhǎng)序列帶來(lái)的計(jì)算量較大的特征,結(jié)合集群計(jì)算性能和通信帶寬,我們采用FSDP切分模型,并在FSDP外嵌套DP提升多機(jī)拓展性,F(xiàn)SDP和DP的通信均能夠完全被計(jì)算掩蓋。為了切分長(zhǎng)序列訓(xùn)練下的activation,DiT部分使用了Context Parallelism(CP)對(duì)sequence維度進(jìn)行切分,并使用外層RingAttention、內(nèi)層Ulysses的2DCP的方案減少CP通信開(kāi)銷(xiāo)。此外,為了提升端到端整體效率,我們?cè)谖谋?、視頻編碼和DiT模塊間進(jìn)行高效策略切換,避免計(jì)算冗余。具體來(lái)說(shuō),文本、視頻編碼模塊每個(gè)device讀不同數(shù)據(jù),在進(jìn)入DiT之前,通過(guò)循環(huán)廣播不同device上的數(shù)據(jù)來(lái)保證CP組里的數(shù)據(jù)一樣。

image

優(yōu)化策略

顯存優(yōu)化

顯存優(yōu)化方面,我們采用分層的顯存優(yōu)化策略,選擇一些層進(jìn)行offload,其他層根據(jù)不同算子計(jì)算量和顯存占用的分析使用細(xì)粒度Gradient Checkpointing(GC)進(jìn)一步優(yōu)化activation顯存。最后我們也利用PyTorch顯存管理機(jī)制,解決顯存碎片問(wèn)題。訓(xùn)練穩(wěn)定性方面借助于阿里云訓(xùn)練集群的智能化調(diào)度、慢機(jī)檢測(cè)以及自愈能力,在訓(xùn)練過(guò)程中自動(dòng)識(shí)別故障節(jié)點(diǎn)并快速重啟任務(wù),平均重啟時(shí)間為39秒,重啟成功率超過(guò)98.23%。推理階段,為了使用多卡減少生成單個(gè)視頻的延遲,我們需要選擇CP來(lái)進(jìn)行分布式加速。此外,當(dāng)模型較大時(shí),還需要進(jìn)行模型切分。模型切分策略:?jiǎn)慰@存不足時(shí)必須考慮模型切分。鑒于序列長(zhǎng)度通常較長(zhǎng),與張量并行(TP)相比,F(xiàn)SDP的通信開(kāi)銷(xiāo)更小,并且可以被計(jì)算掩蓋。因此,我們選擇FSDP方法進(jìn)行模型切分(注意:這里僅做切分權(quán)重,而不做數(shù)據(jù)并行)。序列并行策略:采用與訓(xùn)練階段相同的2D CP方法,外層(跨機(jī)器) 使用RingAttention,內(nèi)層(機(jī)器內(nèi))使用Ulysses。在萬(wàn)相2.1 140億參數(shù)模型上,使用FSDP和2D CP的組合方法,在多卡上具有如下圖所示的近線性加速。

image

多卡擴(kuò)展性

為了減少DiT實(shí)際計(jì)算量,我們使用了效果無(wú)損的step間cache和CFG cache的方法,僅對(duì)若干關(guān)鍵去噪步驟進(jìn)行實(shí)際計(jì)算并緩存結(jié)果,其他步驟則復(fù)用這些緩存,最終性能提升約61%。在推理過(guò)程中,我們也使用了量化方法,我們?cè)诓糠謱樱╭kvo projection和FFN)使用fp8gemm,同時(shí)實(shí)現(xiàn)了FlashAttention3 INT8和FP8混合算子進(jìn)行attention部分的8bit 量化,在保證效果無(wú)損的情況下,端到端性能提升30%以上。

image

開(kāi)源與部署

通義萬(wàn)相(Wan2.1)已經(jīng)在GitHub、Hugging Face、魔搭社區(qū)等平臺(tái)開(kāi)源,支持多種主流框架。無(wú)論是開(kāi)發(fā)者還是研究者,都可以通過(guò)Gradio快速體驗(yàn),或利用 xDiT 并行加速推理提升效率。同時(shí),我們正在加速接入Diffusers和ComfyUI ,進(jìn)一步簡(jiǎn)化一鍵推理與部署流程。不僅大幅降低了開(kāi)發(fā)門(mén)檻,還為大家提供了靈活的選擇——無(wú)論是快速原型開(kāi)發(fā),還是高效生產(chǎn)部署,都能輕松實(shí)現(xiàn)。

image

image

image

image

原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/B0iiqSWr2MoSYbB0vgjRzQ

上一篇:

使用Cursor 和 Devbox 一鍵搞定開(kāi)發(fā)環(huán)境

下一篇:

在Sealos 平臺(tái)的幫助下一個(gè)人維護(hù)著 6000 個(gè)數(shù)據(jù)庫(kù)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門(mén)場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)