
如何調(diào)用 Minimax 的 API
谷歌推出的Imagen Video是一種基于級(jí)聯(lián)視頻擴(kuò)散模型的系統(tǒng),能夠從文本提示生成高清視頻。它的系統(tǒng)架構(gòu)由frozen T5文本編碼器和基礎(chǔ)視頻生成模型組成。
Phenaki則關(guān)注于長視頻的生成,特別是從復(fù)雜的文本提示轉(zhuǎn)化為連貫的視頻序列。Phenaki通過其獨(dú)特的架構(gòu)實(shí)現(xiàn)了對(duì)長prompt的出色解析能力。
谷歌通過推出這兩款工具,分別在視頻品質(zhì)和長度方面展開競(jìng)爭,意圖在這兩方面同時(shí)取得優(yōu)勢(shì)。
Imagen Video利用級(jí)聯(lián)視頻擴(kuò)散模型,通過逐步提高視頻的時(shí)空分辨率,實(shí)現(xiàn)了從文本到高清視頻的轉(zhuǎn)換。這種方法借鑒了圖像生成領(lǐng)域的成功經(jīng)驗(yàn)。
Imagen Video的架構(gòu)由多個(gè)子模型組成,包括空間超分辨率和時(shí)間超分辨率模型,這些模型通過級(jí)聯(lián)操作共同生成高清晰度的視頻。
在實(shí)驗(yàn)中,Imagen Video展示了其生成高清視頻的能力,能夠生成具有藝術(shù)風(fēng)格和3D對(duì)象理解的視頻。
在視頻生成中,生成長視頻的挑戰(zhàn)在于數(shù)據(jù)的稀缺性和計(jì)算的復(fù)雜性。Phenaki通過引入故事驅(qū)動(dòng)的生成方式,克服了這些障礙。
Phenaki通過一系列文本prompt生成視頻,能夠根據(jù)時(shí)間點(diǎn)的變化調(diào)整視頻幀。這使得生成的視頻更加連貫和有意義。
這種基于故事的生成方法為藝術(shù)和設(shè)計(jì)領(lǐng)域的創(chuàng)作提供了無限可能,開啟了新的創(chuàng)意應(yīng)用之路。
C-ViViT是一種新型的編碼器-解碼器架構(gòu),專為視頻生成設(shè)計(jì)。它在時(shí)間和空間維度上壓縮視頻,優(yōu)化了視頻的重構(gòu)質(zhì)量。
C-ViViT通過利用視頻中的時(shí)間冗余,壓縮了視頻token的數(shù)量,提高了生成效率。這一改進(jìn)使得長視頻生成成為可能。
得益于其因果結(jié)構(gòu),C-ViViT能夠處理可變長度的視頻生成,這在現(xiàn)有的編碼器中是難以實(shí)現(xiàn)的。
Phenaki采用了文本轉(zhuǎn)視頻和文本轉(zhuǎn)圖像數(shù)據(jù)的聯(lián)合訓(xùn)練方法,這使得其在多樣化視頻生成上具備了獨(dú)特的能力。即使訓(xùn)練視頻很短,它也能生成長達(dá)幾分鐘的視頻。
Phenaki能夠根據(jù)一系列文本prompt生成完整的視頻故事,展示了其在連貫性和多樣性上的出色表現(xiàn)。
在實(shí)驗(yàn)中,Phenaki展示了其生成長視頻的能力,即便在有限的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。
Phenaki的出現(xiàn)為創(chuàng)意產(chǎn)業(yè)帶來了新的契機(jī),特別是在藝術(shù)和設(shè)計(jì)領(lǐng)域,它提供了一種新的內(nèi)容生成方式。
隨著技術(shù)的進(jìn)步,Phenaki有望在視頻生成的多個(gè)領(lǐng)域發(fā)揮更大的作用,尤其是在需要高質(zhì)量長視頻的場(chǎng)合。
Phenaki的創(chuàng)新性為谷歌在視頻生成市場(chǎng)中占據(jù)一席之地提供了支持,未來或?qū)⒁I(lǐng)這一領(lǐng)域的技術(shù)潮流。
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)