2、Stable Diffusion

潛在文本到圖像模型 Stable Diffusion v1-5 將自動編碼器與擴散模型合并,以創(chuàng)建照片般逼真的圖像。 它已經(jīng)在廣泛的 laion-aesthetics v2 5+ 數(shù)據(jù)集上進行了訓(xùn)練,并在 512×512 像素的分辨率下微調(diào)了超過 595k 步,該模型具有基于任何給定文本輸入生成高度逼真的圖像的卓越能力。

Stable Diffusion可以靈活地從各種潛在空間生成圖像,而不是局限于一組固定的文本提示。 它對大型圖像數(shù)據(jù)集的訓(xùn)練使其能夠更深入地了解圖像特征,從而生成更逼真的圖像。

3、Openjourney

Openjourney 是一個免費的開源文本到圖像模型,它在超過 124k Midjourney v4 圖像的數(shù)據(jù)集上進行訓(xùn)練,以 Midjourney 風(fēng)格生成 AI 藝術(shù)。 這是穩(wěn)定擴散的微調(diào)。

Openjourney 由領(lǐng)先的提示工程網(wǎng)站 PromptHero 開發(fā),是 HuggingFace 上下載量第二高的文本到圖像模型,僅次于 Stable Diffusion。 用戶更喜歡 Openjourney,因為它能夠以最少的輸入生成令人印象深刻的圖像,并且適合作為微調(diào)的基本模型。

4、Dream Shaper

深受粉絲喜愛的 Dream Shaper V7 基于擴散模型架構(gòu)構(gòu)建,引入了 LoRA 支持和整體真實感方面的改進。 它建立在版本 6 中的增強功能的基礎(chǔ)上,其中包括增加的 LoRA 支持、總體樣式改進以及更好的 1024 像素高度生成(盡管建議在使用此功能時小心)。

Dream Shaper生成具有噪聲抵消的逼真圖像,并通過 booru 標(biāo)簽增強動漫風(fēng)格的生成。 它還提高了較低分辨率下的眼睛性能,作為早期版本的“修復(fù)”。 3.32 版“剪輯修復(fù)”的影響可能與 3.31 版有所不同,建議將其用于混音。 它還涉及修復(fù)和修復(fù)。

5、Dreamlike Photoreal

Dreamlike Photoreal 2.0 是基于穩(wěn)定擴散 1.5 的真實感模型。 由 DreamlikeArt 制作,你可以通過將照片合并到提示中來增強生成圖像的真實感。

為了獲得最佳結(jié)果,請使用非方形縱橫比。 對于肖像風(fēng)格的照片,建議使用垂直縱橫比,而水平縱橫比更適合風(fēng)景照片。 Dreamlike Photoreal模型是在尺寸為 768×768 像素的圖像上進行訓(xùn)練的,盡管它也可以有效處理更高分辨率(如 768x1024px 或 1024x768px)。

Dreamlike Photoreal在服務(wù)器級 A100 GPU 上運行,平均生成速度為 4 秒,超越 8 倍 RTX 3090 GPU 的性能。 它能夠同時處理多達 30 個圖像并同時生成多達 4 個圖像,確保了高效的工作流程。 它包括多種功能,如放大、自然語言編輯、面部增強、姿勢、深度、草圖復(fù)制等。

6、Waifu Diffusion

最后但并非最不重要的一點是,我們有 Waifu Diffusion,它是穩(wěn)定擴散模型的微調(diào)版本 (1.3),源自穩(wěn)定擴散 v1.4。 該模型專門用于生成逼真的動漫風(fēng)格圖像,并因其令人印象深刻的多樣性和高品質(zhì)而獲得認(rèn)可。

原文鏈接:http://www.bimant.com/blog/top6-text-to-image-ai-models/

上一篇:

如何用Python調(diào)用百度AI的語音識別服務(wù)

下一篇:

大模型訓(xùn)練常用的調(diào)試技巧
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費