
API接口重試的8種方法
除了更新文本編碼方法外,我們還對負責去除圖片噪聲的 U-Net 架構(gòu)進行了大規(guī)模研究。主要的難題是哪種類型的層將包含大部分網(wǎng)絡參數(shù):Transformer 層還是卷積層。在對大量數(shù)據(jù)進行訓練時,Transformer 在圖像上的表現(xiàn)更好,但幾乎所有擴散模型的 U-Net 架構(gòu)都是以卷積為主的。為了解決這個難題,我們分析了不同的架構(gòu),并為自己指出了以下模型:
CoAtNet 是一種結(jié)合了卷積和注意力模塊的架構(gòu)。其主要思想是,在初始階段,圖像應通過局部卷積進行處理,而其已壓縮的表示則通過提供圖像元素全局交互的轉(zhuǎn)換層進行處理。
MaxViT 是一種幾乎完全基于變壓器塊的架構(gòu),但通過降低自注意力的二次復雜度來適應處理圖像。
使用分類模型的想法受到這樣一個事實的啟發(fā):許多好的架構(gòu)解決方案都取自在 ImageNet 基準上表現(xiàn)出色的模型。然而,我們的實驗表明,質(zhì)量遷移的效果并不明確。在分類任務上表現(xiàn)最好的 MaxVit 架構(gòu)在將其轉(zhuǎn)換為 U-Net 后,在生成任務上的表現(xiàn)并不理想。在研究了上述所有架構(gòu)后,我們決定將 ResNet-50 塊作為基本的 U-Net 塊,并借用 BigGan 的論文中的想法,為其添加了另一個具有 3×3 核心的卷積層。
最終,康定斯基3.0建筑由三個主要部分組成:
訓練使用了從互聯(lián)網(wǎng)上收集的許多文本-圖片對。這些數(shù)據(jù)經(jīng)過了眾多篩選:圖像美觀度、圖像與文本匹配、重復、分辨率和長寬比。與 Kandinsky 2.2 相比,我們擴展了所使用的數(shù)據(jù)集,用新數(shù)據(jù)豐富了數(shù)據(jù)集,添加了俄語實體,并添加了使用最先進的多模態(tài)模型生成描述的圖像。
訓練過程分為幾個階段,這使得我們可以使用更多的訓練數(shù)據(jù),以及生成不同大小的圖像。
為了比較模型,我們收集了 21 個類別的 2100 個提示,并比較了不同的 Kandinsky 3.0 權(quán)重以選出最佳的提示。為此,我們進行了三次并排運行,使用了 28 個標記。然后,當選擇了 Kandinsky 3.0 模型的最佳版本時,與 Kandinsky 2.2 模型進行了并排比較。12 個人參與了這項研究,總共投票 24,800 次。為此,他們開發(fā)了一個機器人,可以顯示 2,100 對圖像中的一對。每個人根據(jù)兩個標準選擇最佳圖像:
對所有類別的視覺質(zhì)量和文本理解進行了總體比較,并對每個類別進行了單獨比較:
以下是與康定斯基 3.0 相比的流行模型代示例:
我們的團隊為 Fusion Brain 網(wǎng)站開發(fā)了修復/外繪模型,借助該模型,您可以編輯圖像:更改圖像內(nèi)必要的對象和整個區(qū)域( 修復方法 ),或通過外繪方法將其擴展到巨大的全景圖,添加新的細節(jié)。修復任務比標準生成復雜得多,因為必須學習不僅從文本生成模型,還要使用圖像上下文來生成模型。
為了訓練模型的修復部分,我們使用了 GLIDE 方法,該方法之前已在 Kandinsky 系列模型以及穩(wěn)定擴散系列模型中實現(xiàn):U-Net 的輸入層經(jīng)過修改,以便輸入可以額外接受圖像潛在和蒙版。因此,U-Net 最多接受 9 個通道作為輸入:4 個用于原始潛在,4 個用于圖像潛在,一個額外的通道用于蒙版。從修改的角度來看,進一步的訓練與標準擴散模型的訓練并無不同
該任務的一個重要特征是如何生成蒙版以及訓練時使用哪些文本。用戶可以使用畫筆繪制蒙版,也可以通過外繪繪制新圖像。為了考慮用戶的工作方式,我們在訓練期間創(chuàng)建了模仿其行為的特殊蒙版:任意形狀的畫筆繪制蒙版、對象蒙版和圖像填充
因此,該模型可以很好地應對圖像替換和圖像增強(參見示例)
隨著 Kandinsky 3.0 的推出,我們還更新了 Deforum,這是一項允許我們通過圖像到圖像的方法生成動畫視頻的技術(shù)。
將框架適配到新模型的主要困難在于擴散過程中噪聲添加方式的不同:Kandinsky 2.2 按照線性時間表添加噪聲(上圖),而 Kandinsky 3.0 按照余弦時間表添加噪聲(下圖)。這個特性需要大量的實驗才能適應。
我們推出了新的基于文本的圖像生成架構(gòu)——Kandinsky 3.0。與之前的模型相比,我們對文本和俄羅斯文化的理解有了顯著提高,我們一定會繼續(xù)朝這個方向努力。在科學方面,我們的計劃包括創(chuàng)建另一個新一代模型,它將在人工智能領(lǐng)域嶄露頭角。
人工智能和生成學習領(lǐng)域為進一步發(fā)展開辟了廣闊的空間,誰知道呢,也許在不久的將來,像我們的康定斯基這樣的模型會形成一個新的現(xiàn)實——與現(xiàn)在的現(xiàn)實沒有太大區(qū)別。這些變化對人類的影響很難判斷,而且有陷入許多可疑猜測的風險。作為研究人員,我們要警惕過于悲觀和樂觀的預測。但我們可以肯定的是,這種發(fā)展無論如何都會非常有趣,需要改變我們對周圍許多事物的看法。我們?nèi)祟愡€沒有意識到生成學習的全部力量。請繼續(xù)關(guān)注,以免錯過世界將如何改變,包括通過我們的努力!
文章轉(zhuǎn)載自:Kandinsky 3.0 — a new model for generating images from text