
Python實現(xiàn)動圖生成:輕松創(chuàng)建自定義表情包
潛在文本到圖像模型 Stable Diffusion v1-5 將自動編碼器與擴散模型合并,以創(chuàng)建照片般逼真的圖像。 它已經(jīng)在廣泛的 laion-aesthetics v2 5+ 數(shù)據(jù)集上進行了訓(xùn)練,并在 512×512 像素的分辨率下微調(diào)了超過 595k 步,該模型具有基于任何給定文本輸入生成高度逼真的圖像的卓越能力。
Stable Diffusion可以靈活地從各種潛在空間生成圖像,而不是局限于一組固定的文本提示。 它對大型圖像數(shù)據(jù)集的訓(xùn)練使其能夠更深入地了解圖像特征,從而生成更逼真的圖像。
Openjourney 是一個免費的開源文本到圖像模型,它在超過 124k Midjourney v4 圖像的數(shù)據(jù)集上進行訓(xùn)練,以 Midjourney 風(fēng)格生成 AI 藝術(shù)。 這是穩(wěn)定擴散的微調(diào)。
Openjourney 由領(lǐng)先的提示工程網(wǎng)站 PromptHero 開發(fā),是 HuggingFace 上下載量第二高的文本到圖像模型,僅次于 Stable Diffusion。 用戶更喜歡 Openjourney,因為它能夠以最少的輸入生成令人印象深刻的圖像,并且適合作為微調(diào)的基本模型。
深受粉絲喜愛的 Dream Shaper V7 基于擴散模型架構(gòu)構(gòu)建,引入了 LoRA 支持和整體真實感方面的改進。 它建立在版本 6 中的增強功能的基礎(chǔ)上,其中包括增加的 LoRA 支持、總體樣式改進以及更好的 1024 像素高度生成(盡管建議在使用此功能時小心)。
Dream Shaper生成具有噪聲抵消的逼真圖像,并通過 booru 標(biāo)簽增強動漫風(fēng)格的生成。 它還提高了較低分辨率下的眼睛性能,作為早期版本的“修復(fù)”。 3.32 版“剪輯修復(fù)”的影響可能與 3.31 版有所不同,建議將其用于混音。 它還涉及修復(fù)和修復(fù)。
Dreamlike Photoreal 2.0 是基于穩(wěn)定擴散 1.5 的真實感模型。 由 DreamlikeArt 制作,你可以通過將照片合并到提示中來增強生成圖像的真實感。
為了獲得最佳結(jié)果,請使用非方形縱橫比。 對于肖像風(fēng)格的照片,建議使用垂直縱橫比,而水平縱橫比更適合風(fēng)景照片。 Dreamlike Photoreal模型是在尺寸為 768×768 像素的圖像上進行訓(xùn)練的,盡管它也可以有效處理更高分辨率(如 768x1024px 或 1024x768px)。
Dreamlike Photoreal在服務(wù)器級 A100 GPU 上運行,平均生成速度為 4 秒,超越 8 倍 RTX 3090 GPU 的性能。 它能夠同時處理多達 30 個圖像并同時生成多達 4 個圖像,確保了高效的工作流程。 它包括多種功能,如放大、自然語言編輯、面部增強、姿勢、深度、草圖復(fù)制等。
最后但并非最不重要的一點是,我們有 Waifu Diffusion,它是穩(wěn)定擴散模型的微調(diào)版本 (1.3),源自穩(wěn)定擴散 v1.4。 該模型專門用于生成逼真的動漫風(fēng)格圖像,并因其令人印象深刻的多樣性和高品質(zhì)而獲得認(rèn)可。
原文鏈接:http://www.bimant.com/blog/top6-text-to-image-ai-models/