精品久久久久久久久午夜福利,日韩av无码社区一区二区三区,欧美精品偷自拍另类在线观看

VBench榜單

技術(shù)創(chuàng)新

基于主流的DiT和線性噪聲軌跡Flow Matching范式，萬(wàn)相大模型通過(guò)一系列技術(shù)創(chuàng)新實(shí)現(xiàn)了生成能力的重大進(jìn)步。包括自研高效的3D因果VAE、可擴(kuò)展的預(yù)訓(xùn)練策略、大規(guī)模數(shù)據(jù)鏈路構(gòu)建以及自動(dòng)化評(píng)估指標(biāo)，這些創(chuàng)新共同提升了模型的最終性能表現(xiàn)。自研高效的3D因果VAEWan2.1基于3D因果VAE模塊，實(shí)現(xiàn)了256倍無(wú)損視頻隱空間壓縮。為高效支持任意長(zhǎng)度視頻的編碼與解碼，我們?cè)?D VAE的因果卷積模塊中引入了特征緩存機(jī)制。該機(jī)制通過(guò)分塊處理視頻并緩存每塊尾幀特征，避免了直接對(duì)長(zhǎng)視頻進(jìn)行端到端的編解碼，從而實(shí)現(xiàn)無(wú)限長(zhǎng)1080P視頻的高效編解碼。此外，Wan2.1通過(guò)將空間降采樣壓縮提前，在不損失性能的情況下進(jìn)一步減少了29%的推理時(shí)內(nèi)存占用。

視頻VAE實(shí)驗(yàn)結(jié)果

通義萬(wàn)相大模型視頻VAE實(shí)驗(yàn)結(jié)果表明，通義萬(wàn)相的視頻VAE在視頻質(zhì)量和處理效率上均表現(xiàn)出色。在相同硬件環(huán)境（單個(gè)A800 GPU）下，通義萬(wàn)相視頻VAE重建速度比現(xiàn)有最先進(jìn)方法快2.5倍，且在較小模型參數(shù)下實(shí)現(xiàn)業(yè)內(nèi)領(lǐng)先的壓縮重構(gòu)質(zhì)量。得益于小尺寸設(shè)計(jì)和特征緩存機(jī)制，高分辨率下的性能優(yōu)勢(shì)更為顯著。

Diffusion Transformer

Wan2.1基于主流的視頻DiT結(jié)構(gòu)，通過(guò)Full Attention機(jī)制有效建模長(zhǎng)時(shí)程時(shí)空依賴(lài)，生成時(shí)空一致的高質(zhì)量視頻。在噪聲采樣策略上，采用Flow Matching方法，不僅確保模型快速收斂，還提升了訓(xùn)練效率。模型首先利用多語(yǔ)言u(píng)mT5編碼器對(duì)輸入文本進(jìn)行語(yǔ)義編碼，并通過(guò)逐層交叉注意力層將文本特征注入每個(gè)Transformer Block，實(shí)現(xiàn)細(xì)粒度語(yǔ)義對(duì)齊。此外，通過(guò)共享參數(shù)的MLP模塊將時(shí)間步特征映射為可學(xué)習(xí)參數(shù)，顯著降低了計(jì)算量和參數(shù)規(guī)模。

視頻架構(gòu)圖

訓(xùn)練策略

在訓(xùn)練策略上，我們采用6階段分步訓(xùn)練法：從256P圖像數(shù)據(jù)的初始預(yù)訓(xùn)練，到逐步引入低分辨率、高時(shí)長(zhǎng)視頻數(shù)據(jù)，再到480P、720P的高分辨率數(shù)據(jù)訓(xùn)練，最后通過(guò)Post-training階段使用高質(zhì)量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)，進(jìn)一步提升生成效果。這種漸進(jìn)式訓(xùn)練策略讓模型在不同分辨率和復(fù)雜場(chǎng)景下都能表現(xiàn)出色。數(shù)據(jù)處理Wan2.1 的訓(xùn)練依賴(lài)于大規(guī)模、高質(zhì)量的數(shù)據(jù)集，在預(yù)訓(xùn)練階段，我們的目標(biāo)是從龐大但嘈雜的初始數(shù)據(jù)集中選取高質(zhì)量且多樣化的數(shù)據(jù)，以促進(jìn)有效的訓(xùn)練。如下圖所示，我們?cè)O(shè)計(jì)了一個(gè)四步數(shù)據(jù)清洗流程，重點(diǎn)關(guān)注基礎(chǔ)維度、視覺(jué)質(zhì)量和運(yùn)動(dòng)質(zhì)量。對(duì)應(yīng)的整個(gè)預(yù)訓(xùn)練過(guò)程也分為四個(gè)階段，每個(gè)階段逐漸增加分辨率和視頻時(shí)長(zhǎng)，讓模型在一定算力限制下得到更充分的訓(xùn)練。最終的SFT階段，我們進(jìn)行了更嚴(yán)格的數(shù)據(jù)過(guò)濾，保障模型穩(wěn)定收斂到高質(zhì)量視頻輸出。

數(shù)據(jù)處理

模型訓(xùn)練和推理效率優(yōu)化訓(xùn)練階段，對(duì)于文本、視頻編碼模塊，我們使用DP和FSDP組合的分布式策略；DiT模塊，我們采用DP、FSDP、RingAttention、Ulysses混合的并行策略?；谌f(wàn)相2.1模型參數(shù)量較小和長(zhǎng)序列帶來(lái)的計(jì)算量較大的特征，結(jié)合集群計(jì)算性能和通信帶寬，我們采用FSDP切分模型，并在FSDP外嵌套DP提升多機(jī)拓展性，F(xiàn)SDP和DP的通信均能夠完全被計(jì)算掩蓋。為了切分長(zhǎng)序列訓(xùn)練下的activation，DiT部分使用了Context Parallelism（CP）對(duì)sequence維度進(jìn)行切分，并使用外層RingAttention、內(nèi)層Ulysses的2DCP的方案減少CP通信開(kāi)銷(xiāo)。此外，為了提升端到端整體效率，我們?cè)谖谋?、視頻編碼和DiT模塊間進(jìn)行高效策略切換，避免計(jì)算冗余。具體來(lái)說(shuō)，文本、視頻編碼模塊每個(gè)device讀不同數(shù)據(jù)，在進(jìn)入DiT之前，通過(guò)循環(huán)廣播不同device上的數(shù)據(jù)來(lái)保證CP組里的數(shù)據(jù)一樣。

優(yōu)化策略

顯存優(yōu)化

顯存優(yōu)化方面，我們采用分層的顯存優(yōu)化策略，選擇一些層進(jìn)行offload，其他層根據(jù)不同算子計(jì)算量和顯存占用的分析使用細(xì)粒度Gradient Checkpointing（GC）進(jìn)一步優(yōu)化activation顯存。最后我們也利用PyTorch顯存管理機(jī)制，解決顯存碎片問(wèn)題。訓(xùn)練穩(wěn)定性方面借助于阿里云訓(xùn)練集群的智能化調(diào)度、慢機(jī)檢測(cè)以及自愈能力，在訓(xùn)練過(guò)程中自動(dòng)識(shí)別故障節(jié)點(diǎn)并快速重啟任務(wù)，平均重啟時(shí)間為39秒，重啟成功率超過(guò)98.23％。推理階段，為了使用多卡減少生成單個(gè)視頻的延遲，我們需要選擇CP來(lái)進(jìn)行分布式加速。此外，當(dāng)模型較大時(shí)，還需要進(jìn)行模型切分。模型切分策略：?jiǎn)慰@存不足時(shí)必須考慮模型切分。鑒于序列長(zhǎng)度通常較長(zhǎng)，與張量并行（TP）相比，F(xiàn)SDP的通信開(kāi)銷(xiāo)更小，并且可以被計(jì)算掩蓋。因此，我們選擇FSDP方法進(jìn)行模型切分（注意：這里僅做切分權(quán)重，而不做數(shù)據(jù)并行）。序列并行策略：采用與訓(xùn)練階段相同的2D CP方法，外層（跨機(jī)器）使用RingAttention，內(nèi)層（機(jī)器內(nèi)）使用Ulysses。在萬(wàn)相2.1 140億參數(shù)模型上，使用FSDP和2D CP的組合方法，在多卡上具有如下圖所示的近線性加速。

多卡擴(kuò)展性

為了減少DiT實(shí)際計(jì)算量，我們使用了效果無(wú)損的step間cache和CFG cache的方法，僅對(duì)若干關(guān)鍵去噪步驟進(jìn)行實(shí)際計(jì)算并緩存結(jié)果，其他步驟則復(fù)用這些緩存，最終性能提升約61％。在推理過(guò)程中，我們也使用了量化方法，我們?cè)诓糠謱樱╭kvo projection和FFN）使用fp8gemm，同時(shí)實(shí)現(xiàn)了FlashAttention3 INT8和FP8混合算子進(jìn)行attention部分的8bit 量化，在保證效果無(wú)損的情況下，端到端性能提升30%以上。

開(kāi)源與部署

通義萬(wàn)相（Wan2.1）已經(jīng)在GitHub、Hugging Face、魔搭社區(qū)等平臺(tái)開(kāi)源，支持多種主流框架。無(wú)論是開(kāi)發(fā)者還是研究者，都可以通過(guò)Gradio快速體驗(yàn)，或利用 xDiT 并行加速推理提升效率。同時(shí)，我們正在加速接入Diffusers和ComfyUI ，進(jìn)一步簡(jiǎn)化一鍵推理與部署流程。不僅大幅降低了開(kāi)發(fā)門(mén)檻，還為大家提供了靈活的選擇——無(wú)論是快速原型開(kāi)發(fā)，還是高效生產(chǎn)部署，都能輕松實(shí)現(xiàn)。