
如何調(diào)用 Minimax 的 API
HunyuanVideo 采用了圖像-視頻聯(lián)合訓(xùn)練策略,將訓(xùn)練數(shù)據(jù)精細(xì)劃分為不同類別,以滿足各自的訓(xùn)練需求。視頻數(shù)據(jù)被劃分為五個(gè)不同組別,圖像數(shù)據(jù)則被劃分為兩個(gè)組別,以確保在訓(xùn)練過程中充分發(fā)揮數(shù)據(jù)的特性和優(yōu)勢。本節(jié)將重點(diǎn)介紹視頻數(shù)據(jù)的精細(xì)化篩選和準(zhǔn)備過程。
原始數(shù)據(jù)池涵蓋多個(gè)領(lǐng)域,包括人物、動(dòng)物、植物、風(fēng)景、交通工具、物體、建筑及動(dòng)畫等多種類別的視頻。所有視頻采集均設(shè)定了基本的閾值要求,如視頻的最小時(shí)長等。此外,還針對(duì)部分?jǐn)?shù)據(jù)設(shè)定了更高的篩選標(biāo)準(zhǔn),包括空間分辨率、特定寬高比、構(gòu)圖、色彩和曝光等專業(yè)要求,確保數(shù)據(jù)在技術(shù)質(zhì)量和美學(xué)品質(zhì)上均達(dá)標(biāo)。
HunyuanVideo 采用了一系列預(yù)處理技術(shù)來提升數(shù)據(jù)質(zhì)量。首先,使用 PySceneDetect 將視頻分割為單鏡頭片段。然后,利用 OpenCV 的拉普拉斯算子提取清晰幀作為視頻片段的起始幀。接著,通過內(nèi)部 VideoCLIP 模型計(jì)算視頻嵌入向量,用于去重和聚類。
構(gòu)建了一個(gè)分層數(shù)據(jù)篩選管道,通過多維度的篩選技術(shù)來提升數(shù)據(jù)質(zhì)量,包括使用 Dover 評(píng)估視頻片段的美學(xué)和技術(shù)質(zhì)量,剔除模糊視頻,預(yù)測視頻的運(yùn)動(dòng)速度,獲取場景邊界信息,移除帶有過多文本或字幕的片段,并去除水印、邊框和標(biāo)志等遮擋或敏感信息。
通過小規(guī)模模型實(shí)驗(yàn)驗(yàn)證篩選器的有效性,并據(jù)此逐步優(yōu)化數(shù)據(jù)篩選管道。最終,為不同訓(xùn)練階段構(gòu)建了五個(gè)視頻訓(xùn)練數(shù)據(jù)集,視頻分辨率逐步提升,并根據(jù)訓(xùn)練階段動(dòng)態(tài)調(diào)整篩選閾值。
為提升生成模型的提示響應(yīng)能力和輸出質(zhì)量,開發(fā)了內(nèi)部視覺語言模型(VLM),為所有圖像和視頻生成結(jié)構(gòu)化標(biāo)注。這些標(biāo)注采用 JSON 格式,從多維度提供全面的描述信息,包括短描述、密集描述、背景、風(fēng)格、鏡頭類型、光照和氛圍等。
訓(xùn)練了一個(gè)相機(jī)運(yùn)動(dòng)分類器,能夠預(yù)測 14 種相機(jī)運(yùn)動(dòng)類型,包括變焦、平移、俯仰、繞拍、靜態(tài)鏡頭和手持鏡頭。高置信度的相機(jī)運(yùn)動(dòng)預(yù)測結(jié)果被集成到 JSON 格式的結(jié)構(gòu)化標(biāo)注中,從而賦予生成模型對(duì)相機(jī)運(yùn)動(dòng)的控制能力。
訓(xùn)練了一個(gè) 3DVAE 模型,將像素空間的視頻和圖像壓縮到緊湊的潛在空間。為了同時(shí)處理視頻和圖像,采用的是 CausalConv3D。對(duì)于一個(gè)形狀為 (T+1) × 3 × H × W 的視頻,3DVAE 將其壓縮為潛在特征。這種壓縮方法顯著減少了后續(xù)模型所需的令牌數(shù)量,使其能夠以原始分辨率和幀率訓(xùn)練視頻,同時(shí)保持較高的效率和質(zhì)量。
3DVAE 訓(xùn)練策略
在訓(xùn)練過程中,我們采用了課程學(xué)習(xí)策略,逐步從低分辨率短視頻訓(xùn)練到高分辨率長視頻。為了改善高運(yùn)動(dòng)視頻的重建效果,我們?cè)诓蓸訋瑫r(shí)隨機(jī)選擇了 1 至 8 范圍內(nèi)的采樣間隔,確保從視頻剪輯中均勻地抽取幀。
推理階段
在單塊GPU上編碼和解碼高分辨率長視頻可能會(huì)導(dǎo)致顯存不足 (OOM) 錯(cuò)誤。為了解決這一問題,采用了一種時(shí)空切片策略,將輸入視頻在空間和時(shí)間維度上劃分為重疊的切片。每個(gè)切片單獨(dú)編碼/解碼,最終再將輸出拼接在一起。對(duì)于重疊區(qū)域,我們使用線性組合進(jìn)行平滑融合。這一切片策略使我們能夠在單塊GPU上處理任意分辨率和時(shí)長的視頻。
HunyuanVideo 中的 Transformer 設(shè)計(jì),采用了統(tǒng)一的全注意力機(jī)制,并基于以下三大理由:
模型的具體結(jié)構(gòu)如下圖所示。
本研究使用 Flow Matching 框架來訓(xùn)練圖像和視頻生成模型。Flow Matching 的核心思想是將復(fù)雜的概率分布通過一系列變量變換轉(zhuǎn)換為簡單的概率分布,通過逆變換從簡單分布生成新的數(shù)據(jù)樣本。
訓(xùn)練過程
輸入表示使用訓(xùn)練集中圖像或視頻的潛在表示。通過線性插值方法,構(gòu)建訓(xùn)練樣本。目標(biāo)是預(yù)測速度場,指導(dǎo)樣本向樣本移動(dòng)。優(yōu)化參數(shù)通過最小化預(yù)測速度和真實(shí)速度的均方誤差 (MSE) 來優(yōu)化模型參數(shù)。
推理過程
初始噪聲樣本從高斯分布中抽取。使用一階 Euler 常微分方程 (ODE) 求解器,結(jié)合模型預(yù)測的估計(jì)值,逐步計(jì)算生成樣本。
背景和動(dòng)機(jī)
早期實(shí)驗(yàn)表明,預(yù)訓(xùn)練模型顯著加速了視頻訓(xùn)練的收斂速度,并提升了視頻生成性能。為此,提出了一種兩階段的漸進(jìn)式圖像預(yù)訓(xùn)練策略,用于視頻訓(xùn)練的熱啟動(dòng)。
階段 1:256px 圖像訓(xùn)練
目標(biāo)是模型首先在低分辨率(256px)圖像上進(jìn)行預(yù)訓(xùn)練。策略包括多尺度訓(xùn)練,在 256px 圖像上啟用多長寬比訓(xùn)練,幫助模型學(xué)習(xí)生成寬廣長寬比范圍內(nèi)的圖像。
階段 2:混合尺度訓(xùn)練
目標(biāo)是增強(qiáng)模型在高分辨率(如 512px)上的能力。提出混合尺度訓(xùn)練方法,在每次訓(xùn)練的全局批次中,引入兩個(gè)或多個(gè)尺度的多長寬比 buckets。
相比圖像生成,視頻生成在減少推理步驟的同時(shí)維持空間質(zhì)量和時(shí)間質(zhì)量更加具有挑戰(zhàn)性。為了解決這一問題,我們重點(diǎn)研究如何減少視頻生成所需的推理步驟數(shù)量。
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)