
如何調(diào)用 Minimax 的 API
VideoLDM 的應(yīng)用不僅限于娛樂和創(chuàng)意領(lǐng)域,還包括自主駕駛和監(jiān)控等需要高分辨率視頻數(shù)據(jù)處理的行業(yè)。其生成高分辨率視頻的能力,使其在模擬真實(shí)世界場景中尤為出色。
VideoLDM 是在圖像生成領(lǐng)域的基礎(chǔ)上發(fā)展而來的,其架構(gòu)設(shè)計(jì)包括幾個(gè)關(guān)鍵步驟。首先,通過預(yù)訓(xùn)練的潛在空間擴(kuò)散模型(LDM)生成圖像,然后通過引入時(shí)間層將其擴(kuò)展為視頻生成模型。第二步是將圖像生成器轉(zhuǎn)換為視頻生成器,這需要在潛在空間中進(jìn)行時(shí)間對齊,并通過微調(diào)實(shí)現(xiàn)長時(shí)間視頻的生成。
視頻生成的過程分為如下幾個(gè)步驟:
在 LDM 中,時(shí)間層的引入是實(shí)現(xiàn)圖像生成器向視頻生成器轉(zhuǎn)變的關(guān)鍵。這一過程涉及在原有的空間層中加入時(shí)間層,以 3D 卷積和時(shí)間注意力層的形式實(shí)現(xiàn)。在此過程中,空間層的參數(shù)保持不變,而時(shí)間層的參數(shù)則通過視頻數(shù)據(jù)進(jìn)行微調(diào)。
時(shí)間層的設(shè)計(jì)是為了對齊獨(dú)立的圖像幀,使得它們能夠形成連續(xù)的視頻序列。通過這種設(shè)計(jì),VideoLDM 可以生成更多具有時(shí)間連貫性的幀序列,從而提高視頻生成的質(zhì)量。
直接將圖像自編碼器應(yīng)用于視頻生成會(huì)引發(fā)圖像閃爍等問題。為了克服這一難題,VideoLDM 對自編碼器進(jìn)行了時(shí)序微調(diào)。通過對解碼器進(jìn)行微調(diào),而保持編碼器不變,模型能夠更好地適應(yīng)視頻數(shù)據(jù)的時(shí)序特性。
這種微調(diào)利用了 3D 卷積構(gòu)建的時(shí)序判別器來確保幀與幀之間的連續(xù)性。微調(diào)通過調(diào)整解碼器的參數(shù),使其能夠處理時(shí)序一致的潛向量,從而生成視覺上連貫的視頻內(nèi)容。
雖然 b 章節(jié)的方法適用于短視頻生成,但對于長視頻,VideoLDM 采用預(yù)測模型來擴(kuò)展其生成長度。通過輸入多個(gè)上下文幀進(jìn)行訓(xùn)練,VideoLDM 能夠預(yù)測未來的幀序列。此過程通過二進(jìn)制掩碼實(shí)現(xiàn),掩蓋住需要預(yù)測的幀,保留上下文幀。
推理階段,利用生成的關(guān)鍵幀作為上下文幀,迭代地生成長視頻。通過無分類器擴(kuò)散引導(dǎo),采樣過程更加穩(wěn)定。
為了增強(qiáng)視頻的幀率和流暢性,VideoLDM 在關(guān)鍵幀之間采用時(shí)序插值策略。利用條件掩碼機(jī)制,在關(guān)鍵幀之間生成插值幀。實(shí)驗(yàn)表明,單次插值可使視頻長度增加數(shù)倍,經(jīng)過多次迭代,可顯著提升視頻的幀率。
這種插值方法使得生成的視頻在視覺上更加連貫,從而提升用戶的觀看體驗(yàn)。
為進(jìn)一步提升視頻清晰度,VideoLDM 在視頻上采樣過程中對超分辨率模型進(jìn)行時(shí)序微調(diào)。通過將時(shí)間層拓展至上采樣器,模型能夠在提升分辨率的同時(shí)保持幀間一致性。
這種時(shí)序微調(diào)策略有效地結(jié)合了空間和時(shí)間信息,使得每一幀都能在高分辨率下保持一致的視覺效果。
通過本文的探討,VideoLDM 顯示了其在高分辨率視頻生成中的強(qiáng)大能力。未來,隨著技術(shù)的發(fā)展,VideoLDM 將在更多領(lǐng)域內(nèi)展現(xiàn)其應(yīng)用潛力,為視頻生成帶來更多創(chuàng)新。