除了更新文本編碼方法外,我們還對負責去除圖片噪聲的 U-Net 架構(gòu)進行了大規(guī)模研究。主要的難題是哪種類型的層將包含大部分網(wǎng)絡參數(shù):Transformer 層還是卷積層。在對大量數(shù)據(jù)進行訓練時,Transformer 在圖像上的表現(xiàn)更好,但幾乎所有擴散模型的 U-Net 架構(gòu)都是以卷積為主的。為了解決這個難題,我們分析了不同的架構(gòu),并為自己指出了以下模型:

CoAtNet 是一種結(jié)合了卷積和注意力模塊的架構(gòu)。其主要思想是,在初始階段,圖像應通過局部卷積進行處理,而其已壓縮的表示則通過提供圖像元素全局交互的轉(zhuǎn)換層進行處理。

MaxViT 是一種幾乎完全基于變壓器塊的架構(gòu),但通過降低自注意力的二次復雜度來適應處理圖像。

使用分類模型的想法受到這樣一個事實的啟發(fā):許多好的架構(gòu)解決方案都取自在 ImageNet 基準上表現(xiàn)出色的模型。然而,我們的實驗表明,質(zhì)量遷移的效果并不明確。在分類任務上表現(xiàn)最好的 MaxVit 架構(gòu)在將其轉(zhuǎn)換為 U-Net 后,在生成任務上的表現(xiàn)并不理想。在研究了上述所有架構(gòu)后,我們決定將 ResNet-50 塊作為基本的 U-Net 塊,并借用 BigGan 的論文中的想法,為其添加了另一個具有 3×3 核心的卷積層。

最終,康定斯基3.0建筑由三個主要部分組成:

與競爭對手的比較

Kandinsky 3.0 模型訓練數(shù)據(jù)

訓練使用了從互聯(lián)網(wǎng)上收集的許多文本-圖片對。這些數(shù)據(jù)經(jīng)過了眾多篩選:圖像美觀度、圖像與文本匹配、重復、分辨率和長寬比。與 Kandinsky 2.2 相比,我們擴展了所使用的數(shù)據(jù)集,用新數(shù)據(jù)豐富了數(shù)據(jù)集,添加了俄語實體,并添加了使用最先進的多模態(tài)模型生成描述的圖像。

訓練過程分為幾個階段,這使得我們可以使用更多的訓練數(shù)據(jù),以及生成不同大小的圖像。

Kandinsky 3.0 文本生成圖像示例

鉤針編織藝術(shù)風格的美麗戶外風景,由 Alfons Mucha 繪制
汽車、野馬、電影、人物、海報、車罩、人物、亞歷山德羅·戈塔多的風格、金色和青色、杰拉爾德·哈維·瓊斯、反射、高度詳細的插圖、工業(yè)城市場景
美麗的童話沙漠,天空中一波沙與銀河融為一體,星星,宇宙主義,數(shù)字藝術(shù),8k
抽象畫由黃色和紅色、黑色和白色以及綠色色調(diào)組成,采用紅色和橙色的風格,抽象具象大師、伊博藝術(shù)、狂熱行動繪畫、澳大利亞原住民、袋鼠、仙人掌磨損、安古拉凱
白色背景圖像和 Daz3d 風格充氣 Kitty 貓出汗娃娃,簡化的 Kitty 貓圖像,超高清圖像,透明/半透明介質(zhì),8k,c4d,oc,blende
丹麥峽灣邊緣的一座黃色房子,風格類似??啤W亞拉、英格麗德·巴爾斯、廣告海報、山景、喬治·奧特、逼真的細節(jié)、深白色和深灰色,4k
火龍果頭,上身,逼真,Joshua Hoffine Norman Rockwell 的插圖,恐怖,令人毛骨悚然,生物黑客,未來主義,扎哈·哈迪德風格
紫色的花朵坐落在郁郁蔥蔥的綠色田野之上,靈感來自 Mike Winkelmann、仙人掌、可愛的 c4d、海上朋克、粉紅色的風景、拋光的原始水域、迷人的夢想、夢想。instagram、沙漠綠洲、cgsocciety、數(shù)字藝術(shù)、3D 渲染、4k

Kandinsky 3.0 比較結(jié)果與生成示例

為了比較模型,我們收集了 21 個類別的 2100 個提示,并比較了不同的 Kandinsky 3.0 權(quán)重以選出最佳的提示。為此,我們進行了三次并排運行,使用了 28 個標記。然后,當選擇了 Kandinsky 3.0 模型的最佳版本時,與 Kandinsky 2.2 模型進行了并排比較。12 個人參與了這項研究,總共投票 24,800 次。為此,他們開發(fā)了一個機器人,可以顯示 2,100 對圖像中的一對。每個人根據(jù)兩個標準選擇最佳圖像:

對所有類別的視覺質(zhì)量和文本理解進行了總體比較,并對每個類別進行了單獨比較:

以下是與康定斯基 3.0 相比的流行模型代示例:

美麗的女孩
這是一幅非常精細的數(shù)字繪畫,描繪了一座神秘森林中的門戶,森林里有許多美麗的樹木。一個人站在門戶前。
留著胡子的男人
一張 4K 數(shù)碼單反相機拍攝的照片,一只刺猬坐在池塘中央的一艘小船上。它穿著夏威夷襯衫,戴著草帽。它正在看書。背景中有幾片樹葉。
芭比和肯正在購物
奢華的令人垂涎欲滴的漢堡,配有各種配料。突出層次和質(zhì)感
一只戴著俄羅斯民族帽子、拿著巴拉萊卡琴的熊

修復 + 修復外貌

我們的團隊為 Fusion Brain 網(wǎng)站開發(fā)了修復/外繪模型,借助該模型,您可以編輯圖像:更改圖像內(nèi)必要的對象和整個區(qū)域( 修復方法 ),或通過外繪方法將其擴展到巨大的全景圖,添加新的細節(jié)。修復任務比標準生成復雜得多,因為必須學習不僅從文本生成模型,還要使用圖像上下文來生成模型。

為了訓練模型的修復部分,我們使用了 GLIDE 方法,該方法之前已在 Kandinsky 系列模型以及穩(wěn)定擴散系列模型中實現(xiàn):U-Net 的輸入層經(jīng)過修改,以便輸入可以額外接受圖像潛在和蒙版。因此,U-Net 最多接受 9 個通道作為輸入:4 個用于原始潛在,4 個用于圖像潛在,一個額外的通道用于蒙版。從修改的角度來看,進一步的訓練與標準擴散模型的訓練并無不同

該任務的一個重要特征是如何生成蒙版以及訓練時使用哪些文本。用戶可以使用畫筆繪制蒙版,也可以通過外繪繪制新圖像。為了考慮用戶的工作方式,我們在訓練期間創(chuàng)建了模仿其行為的特殊蒙版:任意形狀的畫筆繪制蒙版、對象蒙版和圖像填充

因此,該模型可以很好地應對圖像替換和圖像增強(參見示例)

修復示例

火箭
一艘大船在河里航行
坐在長凳上的機器人

Outpainting 示例

日落時分,摩天大樓林立的未來主義城市景觀
寧靜的海灘日落,棕櫚樹和溫柔的海浪
一片神秘的森林,有高聳的古樹和發(fā)光的蘑菇

Deforum

隨著 Kandinsky 3.0 的推出,我們還更新了 Deforum,這是一項允許我們通過圖像到圖像的方法生成動畫視頻的技術(shù)。

將框架適配到新模型的主要困難在于擴散過程中噪聲添加方式的不同:Kandinsky 2.2 按照線性時間表添加噪聲(上圖),而 Kandinsky 3.0 按照余弦時間表添加噪聲(下圖)。這個特性需要大量的實驗才能適應。

動畫示例

美麗的女人,深色頭發(fā),雀斑,大牡丹和玫瑰花冠,美麗的漸變粉色背景,頂燈,專業(yè)攝影,工作室攝影,4k;模式:“直播”
極致細節(jié)、8k、超高品質(zhì)、杰作、景深、柔和的燈光、插圖、非常可愛逼真的切布拉特卡,身穿夾克,手里拿著橘子,錯綜復雜的清晰細節(jié),b 維照明,令人難以置信的細節(jié)比例,令人難以置信的細節(jié)眼睛,大耳朵,令人難以置信的細節(jié)特寫視圖,彩虹光,詳細的透明涂層,雪,冬季城市,煙花,燈光,電光花,花環(huán),歡樂,笑聲,微笑,善良,幸福
超級美麗的冬季森林

結(jié)論和計劃

我們推出了新的基于文本的圖像生成架構(gòu)——Kandinsky 3.0。與之前的模型相比,我們對文本和俄羅斯文化的理解有了顯著提高,我們一定會繼續(xù)朝這個方向努力。在科學方面,我們的計劃包括創(chuàng)建另一個新一代模型,它將在人工智能領(lǐng)域嶄露頭角。
人工智能和生成學習領(lǐng)域為進一步發(fā)展開辟了廣闊的空間,誰知道呢,也許在不久的將來,像我們的康定斯基這樣的模型會形成一個新的現(xiàn)實——與現(xiàn)在的現(xiàn)實沒有太大區(qū)別。這些變化對人類的影響很難判斷,而且有陷入許多可疑猜測的風險。作為研究人員,我們要警惕過于悲觀和樂觀的預測。但我們可以肯定的是,這種發(fā)展無論如何都會非常有趣,需要改變我們對周圍許多事物的看法。我們?nèi)祟愡€沒有意識到生成學習的全部力量。請繼續(xù)關(guān)注,以免錯過世界將如何改變,包括通過我們的努力!

文章轉(zhuǎn)載自:Kandinsky 3.0 — a new model for generating images from text

上一篇:

使用Kandinsky模型系列進行圖像生成的指南

下一篇:

掌握Kandinsky 3.0常用提示詞的技巧
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費