視覺(jué)AI

視覺(jué)應(yīng)用特別廣泛:從感知增強(qiáng),感知到視覺(jué)最初的一個(gè)信息,然后到怎么把這些信息傳輸出去,對(duì)這些信息的一個(gè)認(rèn)知和理解,它安全性、搜索,還有生成、編輯重建、 3D 重建以及互動(dòng)這一系列的技術(shù)。它實(shí)際上在感知端,云計(jì)算,或者交互端,它是無(wú)處不在的,這些也是它存在的非常廣泛的一個(gè)原因。

視覺(jué)AI 在各個(gè)場(chǎng)景的應(yīng)用

比如說(shuō)我們?cè)谑痔跃涂赡軙?huì)用到其中的一個(gè)圖像搜索(一個(gè)視覺(jué)相關(guān)的技術(shù)),這是當(dāng)前在視覺(jué)搜索領(lǐng)域最大的搜索引擎基礎(chǔ)。當(dāng)然也會(huì)在特別大的城市級(jí)別例如數(shù)字平行世界,這上面也有非常多的視覺(jué)相關(guān)的核心技術(shù),同時(shí)也包括像醫(yī)療,養(yǎng)豬或者生產(chǎn)安全等等這一系列上面都會(huì)用到各種各樣的感知、理解類的視覺(jué)技術(shù)。

當(dāng)然還有很多大類,例如生產(chǎn)編輯類的技術(shù),比如說(shuō)早期的時(shí)候做的像 鹿班banner 的生成,或者服裝設(shè)計(jì)、包裝設(shè)計(jì),視頻的編輯、短視頻生產(chǎn)等等,這上面用到了一系列的偏生產(chǎn)類的視覺(jué)技術(shù),大家也能夠感知到它在各個(gè)地方都有網(wǎng)上的一個(gè)應(yīng)用。

“人”的一天中用到的視覺(jué)技術(shù)

用另外一個(gè)視角,比如說(shuō)我們一個(gè)人一天當(dāng)中從起床,到工作,到去玩或者社交等等一系列的動(dòng)作中,其實(shí)也有很多能夠用到視覺(jué)技術(shù)的地方。比如要打卡時(shí)要用自己的照片生成一個(gè)卡牌,從圖片中摳出人像,然后要通過(guò)打卡機(jī)或考勤機(jī)識(shí)別是誰(shuí)。或者除了識(shí)別人臉以外還需要識(shí)別有什么一系列的動(dòng)作?比如說(shuō)做一些仰臥起坐,俯臥撐等等這一系列的。

或者有時(shí)可能照片不是那么清晰,老照片做一些畫質(zhì)的提升或者美化或者變成數(shù)字人等等,這些都是在生活當(dāng)中與視覺(jué)技術(shù)相關(guān)的。

視覺(jué)技術(shù)分類樹

前面是一些示例,是從行業(yè)/人類生活碰到的視覺(jué)技術(shù),接下來(lái)我們也可以從這幾個(gè)維度去分享,視覺(jué)一般有這么幾種模態(tài):

最早研究的是平面圖像-二維的圖像,如果二維圖像我們加上一個(gè)時(shí)間軸的信息,變成有時(shí)間序列的,那就變成視頻的模態(tài)。

前一陣子元宇宙特別火的時(shí)候,就是在原來(lái) 2D 這種維度上再加一個(gè)維度,它變成一個(gè) 3D 的一個(gè)維度,然后從這些維度其實(shí)可以區(qū)分這種模態(tài)的一個(gè)分類的方式。

從另外一個(gè)維度看。視覺(jué)真正的目標(biāo)千變?nèi)f化的,針對(duì)人,文字或者商品的都有,所以從這個(gè)維度又可以分出若干個(gè)技術(shù)。

還有一個(gè)最基本的,視覺(jué)技術(shù)是為了完成什么樣的功能,用來(lái)識(shí)別/檢測(cè)/生成還是分割?從這個(gè)維度也可以去區(qū)分。

技術(shù)想要真的在行業(yè)當(dāng)中應(yīng)用,還根據(jù)不同的場(chǎng)景,可以細(xì)分成互娛互樂(lè),社交,工業(yè)或電商。

所以從 4 個(gè)維度,可以對(duì)視覺(jué)技術(shù)進(jìn)行一個(gè)相對(duì)比較合理的分類。從視覺(jué)樹中可以看到視覺(jué)在模態(tài)、對(duì)象、功能、場(chǎng)景上面有各種各樣的應(yīng)用,這是從分類的體系來(lái)說(shuō)。

趨勢(shì):從理解到生產(chǎn)

可以看到,人一出生而首先我要認(rèn)識(shí)這個(gè)世界,理解世界。像讀文章要先能夠讀懂,到后面可以寫文章,然后可以去修改我的視覺(jué)內(nèi)容,可以生產(chǎn)這些視覺(jué)內(nèi)容。所以趨勢(shì)肯定是從先理解,再到生產(chǎn)。

最近大家關(guān)注 AIGC 的內(nèi)容是偏生產(chǎn)編輯這一類的。

趨勢(shì):從小到大,從單到多,從閉到開

(1)從小到大

另外一個(gè)趨勢(shì),像現(xiàn)在各種各樣的模型,從早期的比較經(jīng)典的、比較小的模型,到現(xiàn)在的模型越來(lái)越大,像初期的比較經(jīng)典的 VGG 的 ,到現(xiàn)在 VIT 的再到現(xiàn)在多模態(tài)的這種技術(shù),發(fā)展得越來(lái)越快,所以這個(gè)參數(shù)量也會(huì)越來(lái)越大。從萬(wàn)級(jí)別、百萬(wàn)級(jí)別、千萬(wàn),再到億,還有更大萬(wàn)億級(jí)別的,模型參數(shù)從小到大,也是當(dāng)前的一個(gè)趨勢(shì)。

(2)從單模態(tài)到多模態(tài)

從單模態(tài)到多模態(tài),尤其大模型開始流行起來(lái)以后,是非常典型的一種趨勢(shì)。早期給一張圖,打一個(gè)標(biāo),或者給個(gè)分值等?,F(xiàn)在基本上是圖相對(duì)自然語(yǔ)言的描述,作為訓(xùn)練模型的輸入,同時(shí)進(jìn)行encoding,然后再來(lái)進(jìn)行訓(xùn)練。現(xiàn)在大部分都是文本,視覺(jué)或者圖像這一塊的多模態(tài)。當(dāng)然在對(duì)聲音或者對(duì)其他的東西也可能是多模態(tài)的方式??偠灾?,從單模態(tài)到多模態(tài)這個(gè)趨勢(shì)非常明顯。

(3)從單任務(wù)到全能

以前只解決檢測(cè)問(wèn)題,或者只解決分割問(wèn)題,甚至它只能解決對(duì)某一個(gè)特定對(duì)象,特定場(chǎng)景的。但是從不久以前,阿里做了一個(gè)新的模型開始,就開始強(qiáng)調(diào)全能/多功能的模態(tài),既可以做視覺(jué)的任務(wù),也可以做文本的任務(wù)等等。所以從單任務(wù)到多任務(wù)的進(jìn)行,也是一種趨勢(shì)。這種趨勢(shì)最后會(huì)發(fā)展成什么樣的狀態(tài)?是不是真的能夠從一個(gè)全能/全任務(wù)的模型解決所有問(wèn)題?這個(gè)可能有待考察和發(fā)展。

(4)從閉集到開集

另外可能還有一個(gè)經(jīng)常會(huì)遇到的方式,以前的模型或者數(shù)據(jù)集,只能在一些閉集當(dāng)中去做,比如說(shuō)我們?cè)谟?xùn)練得到它的標(biāo)簽就是在這個(gè)集合當(dāng)中,當(dāng)出來(lái)openset 的一個(gè)問(wèn)題,它能不能解?其實(shí)現(xiàn)在這個(gè)趨勢(shì)也是比較明顯的,尤其是像現(xiàn)在的多模態(tài)大模型,其實(shí)它很多的時(shí)候能夠解決就這種這個(gè)問(wèn)題,可以解決以前在訓(xùn)練的過(guò)程當(dāng)中或者是閉集的狀態(tài)走上一個(gè)開集的狀態(tài),這也是其中一個(gè)趨勢(shì)。

趨勢(shì):基于知識(shí)和反饋的訓(xùn)練

在訓(xùn)練的時(shí)候,可能需要把這種人的知識(shí)以及反饋,例如像 ChatGPT 半監(jiān)護(hù),半反饋的強(qiáng)化學(xué)習(xí)(RHLF)的方式加入到訓(xùn)練當(dāng)中去,這也是一個(gè)趨勢(shì),使得我們的模型的表征能力越來(lái)越強(qiáng)。

視覺(jué)感知理解技術(shù)

事實(shí)上視覺(jué)感知理解,應(yīng)該是人類獲取認(rèn)識(shí)這個(gè)世界最主要的最基本的任務(wù)。

視覺(jué)理解

例如最基礎(chǔ)需要先識(shí)別上方圖像中有什么東西?想知道是個(gè)貓還是個(gè)狗?然后要知道這個(gè)貓和狗在圖像當(dāng)中的位置,這是更進(jìn)一步。當(dāng)要知道每一個(gè)像素是什么東西的時(shí)候,就要做分割的問(wèn)題,這是最經(jīng)典的幾類任務(wù)。

當(dāng)然視覺(jué)理解還有一些表征或者識(shí)別行為等等一系列的任務(wù)??偟膩?lái)說(shuō),基本上它的模式是輸一個(gè)圖,然后出來(lái)一個(gè)標(biāo)簽,一個(gè) tag 這種方式,也可能是一個(gè) score 或者是一個(gè)數(shù)字等等,所以我們可以從日常的生活當(dāng)中發(fā)現(xiàn)非常多的有關(guān)于識(shí)別或者檢測(cè)、理解相關(guān)的一些任務(wù)。

人的識(shí)別及檢測(cè)

最經(jīng)典的是去地鐵站坐車或者坐飛機(jī),打卡等等,或者要識(shí)別一個(gè)人,或者識(shí)別有多少人等等這一系列的任務(wù),都是屬于這類的。

生物識(shí)別系列模型

識(shí)別系列模型其實(shí)有很多,這里只舉個(gè)幾個(gè)最典型的,比如說(shuō)對(duì)人臉的一個(gè)關(guān)鍵點(diǎn)識(shí)別, 1: 1 的識(shí)別或者 1: n 的識(shí)別。

(1)對(duì)人臉的識(shí)別來(lái)說(shuō),有三個(gè)關(guān)鍵的核心的模塊,對(duì)于人臉的檢測(cè),人臉關(guān)鍵點(diǎn)的識(shí)別,人臉的識(shí)別本身。當(dāng)然還有一些前序的,例如人臉的質(zhì)量,圖像質(zhì)量的糾正,還有事后的等等也有非常多的模型,在人臉這個(gè)最經(jīng)典的研究的最早的視覺(jué)任務(wù),上面也另外沉淀非常多的技術(shù)。這個(gè)技術(shù)可以在 Model Scope 的官網(wǎng)去訪問(wèn)。

(2)分類檢測(cè)上面也有非常多實(shí)際的任務(wù)可以去研究。

(3)在工業(yè)場(chǎng)景下面,例如給一個(gè)電池版,或者給一個(gè)果凍,能不能檢測(cè)到其中有些瑕疵?這些都可能是現(xiàn)實(shí)當(dāng)中碰到的問(wèn)題,這可能是檢測(cè)問(wèn)題,也可能是分割問(wèn)題,或者是識(shí)別問(wèn)題。這就是對(duì)這種工業(yè)場(chǎng)景下面的一個(gè)場(chǎng)景理解。

(4)達(dá)摩院也開放了DAMO-YOLO這個(gè)非常厲害的檢測(cè)模型,它可以兼顧速度和精度同時(shí)去識(shí)別。大家都知道,視覺(jué)任務(wù)做到最后都面臨精度、速度、成本等等的兼顧平衡,只有這樣的話才能夠使得這個(gè)模型真正的能夠落到行業(yè)當(dāng)中去,所以這是經(jīng)典的檢測(cè)模型,可以對(duì)單個(gè)人檢測(cè),也可以對(duì)多種目標(biāo)、多種物體、動(dòng)態(tài)的、靜態(tài)的等等都可以去做檢測(cè)。

(5)延展一下,自然圖像例如手機(jī)照片,是普通的 RGB 圖,但事實(shí)上還有很多,例如CT 圖還是 X光,MRI ,超分,超聲或者是 PET 等等這一系列的針對(duì)物體或者人體內(nèi)部的掃描結(jié)構(gòu)得到的影像,也算一種特殊的一種視覺(jué)。在這個(gè)層面也有很多事情可做,比如說(shuō)對(duì)各個(gè)器官的一個(gè)分割/檢測(cè)/識(shí)別,對(duì)病灶/病的種類等等這一系列,這些都是對(duì)人的內(nèi)部,外部的感知理解的一系列的視覺(jué)技術(shù)。

(6)前面舉的例子都是對(duì)靜態(tài)的識(shí)別,同時(shí)可能對(duì)一個(gè)動(dòng)態(tài)的視頻,想要知道這個(gè)人做什么動(dòng)作,識(shí)別出來(lái)是什么動(dòng)作,以及做的標(biāo)不標(biāo)準(zhǔn),或者對(duì)人進(jìn)行一個(gè)教學(xué),做這個(gè)動(dòng)作做得好不好?做了多少個(gè)?等等這一系列技術(shù)其實(shí)就是對(duì)人體的關(guān)鍵點(diǎn),以及對(duì)人體連起來(lái)骨架,基于這個(gè)去做的動(dòng)作識(shí)別。這個(gè)可以用于做一些app,或者記錄今天做了哪些事情等有意思的應(yīng)用。

(7)在城市級(jí)別或者是交通感知,交通事件等也有很多的視覺(jué)技術(shù)可以使用,比如識(shí)別車或者是交通是不是有擁堵,事故,違法等等都是視覺(jué)技術(shù)可以發(fā)揮價(jià)值的地方。此類發(fā)揮價(jià)值是通過(guò)城市級(jí)別,或者交通系統(tǒng)級(jí)別,對(duì)實(shí)時(shí)采集到的攝像頭的數(shù)據(jù),進(jìn)行分析理解。所以這塊除了算法技術(shù)以外,實(shí)際上還有一系列系統(tǒng)級(jí)的工程技術(shù)去配合的系統(tǒng)。

分割摳圖-難點(diǎn)

除了前面的識(shí)別檢測(cè)以外,還有技術(shù)相對(duì)不太一樣的地方。比如說(shuō)可能需要針對(duì)圖像像素點(diǎn)是屬于什么類別的檢測(cè)識(shí)別問(wèn)題,實(shí)際上屬于分割摳圖的問(wèn)題。

如果經(jīng)常使用PS等,就會(huì)經(jīng)常使用到它。比如面對(duì)復(fù)雜背景/遮擋/發(fā)絲/或者是透明材質(zhì),像婚紗等等這一系列都是在識(shí)別當(dāng)中會(huì)遇到的挑戰(zhàn)。這些挑戰(zhàn) 還有一個(gè)很大的問(wèn)題在于標(biāo)注成本非常多,導(dǎo)致高質(zhì)量的數(shù)據(jù)本身也會(huì)嚴(yán)重不足。

(1)分割摳圖-模型框架

在解決這個(gè)問(wèn)題上也有很多的方法,這里只列出一個(gè)例子。例如解決高質(zhì)量的標(biāo)注語(yǔ)料問(wèn)題時(shí),設(shè)計(jì)了粗分割精分割相互結(jié)合的方式,去促使這個(gè)方法可以快速的既能夠兼顧粗分割,就是低級(jí)分割所帶來(lái)的圖像數(shù)量比較多,同時(shí)我們又能夠利用精分割的質(zhì)量比較高的情況,使得這個(gè)分割能夠兼顧效果和數(shù)量上的統(tǒng)一。

(2)分割摳圖-效果展示

發(fā)絲級(jí)別的這種精度,或者圖像它是鏤空,或者是它跟背景相似的時(shí)候,怎么把它分割出來(lái)?這是一個(gè)非常有技術(shù)含量和應(yīng)用面在里面的事情。

(3)分割摳圖-圖元解析

同時(shí)還有一個(gè)非常有意思的分割,是更復(fù)雜的圖源解析的一個(gè)問(wèn)題。如果大家用過(guò) PS 就應(yīng)該知道,一張圖如果是 PSD 結(jié)構(gòu)的話,它實(shí)際上是多個(gè)圖層合起來(lái)變成一個(gè)圖像的。

但反過(guò)來(lái)給一張圖,你是否能把里頭的各種元素,各種圖層反向識(shí)別出來(lái),分割出來(lái)?這就是一個(gè)對(duì)圖像的反向解析的過(guò)程,這是相對(duì)更復(fù)雜的一個(gè)對(duì)圖像的理解的問(wèn)題。

感知理解系列開放模型

在 ModelScope 上面開放了這么幾大類,包括分類、檢測(cè)、分割,還包括視頻里的一系列的理解能力,這個(gè)是最基礎(chǔ)的一系列能力。

當(dāng)然另外一系列能力例如先認(rèn)識(shí)世界、感知理解到了世界,然后這個(gè)時(shí)候我要改造或者是生成我們的視覺(jué)信息,那么我們就可以歸結(jié)為生成編輯類。

經(jīng)典生成編輯技術(shù)

編輯類的大家可能知道,由于現(xiàn)代 ATC 大模型技術(shù)發(fā)展,可以把它分成兩個(gè)階段,一個(gè)階段是經(jīng)典的生成編輯技術(shù),這里主要是指這一塊。

視覺(jué)生產(chǎn)的定義

相當(dāng)于輸入一個(gè)視覺(jué),然后出來(lái)一個(gè)視覺(jué),產(chǎn)生一個(gè)新的視覺(jué)表達(dá),它產(chǎn)生的不是一個(gè)標(biāo)簽,也不是一個(gè)特征。而且它輸出的和輸入的還不一樣。

比如說(shuō)經(jīng)典的我生成一個(gè)從 0 到1,或者是我有了一個(gè)圖,我生成更多的圖是從 1 到n,或者是我有一個(gè)摘要,或者是一個(gè)升維,包括前面的平面圖像到視頻,或者是從視頻到 3D 的圖像,當(dāng)然還有一些從 a 到b 增強(qiáng)/變換,或者我把兩張圖合到一起,或者是想從一個(gè)視覺(jué)當(dāng)中移除一個(gè)東西。

視覺(jué)生產(chǎn)通用框架

從上面可以看到,視覺(jué)生產(chǎn)實(shí)際上是包含了非常多的任務(wù),這其中最經(jīng)典的,是一個(gè)通用的框架,我們可以輸入?yún)?shù)、素材或者是各種各的成品,當(dāng)然也可以在早期的時(shí)候通過(guò)模型+知識(shí)的方式生成引擎去做,也可以通過(guò)一個(gè)搜索引擎去做,找相似的素材和案例,去產(chǎn)生一個(gè)輸出,所以這是個(gè)通用框架。

視覺(jué)生成技術(shù)發(fā)展

當(dāng)然視覺(jué)生成技術(shù)其實(shí)發(fā)展的時(shí)間也比較長(zhǎng),雖然它跟理解力技術(shù)對(duì)比還是在之后的。包括我們最早些時(shí)候,大家應(yīng)該知道,大概11年 12 年的時(shí)候,一個(gè)非常火的模型叫 GAN,它可以通過(guò)對(duì)抗的方式,通過(guò)判別器和識(shí)別器然后對(duì)抗的方式來(lái)獲得圖像的生成。

它是早期的一個(gè)最經(jīng)典的生成式模型。當(dāng)然之后也有很多的技術(shù)在發(fā)展,像 GAN 技術(shù)它也會(huì)有很多一系列的發(fā)展,包括條件生成CGAN 或者是styleGAN等等這一系列技術(shù)在當(dāng)前還在不斷地往前發(fā)展。

當(dāng)然現(xiàn)在也有兩大類非常火的技術(shù),像那個(gè) VAE 技術(shù),變分自動(dòng)編碼器,這里面也有條件生成。運(yùn)用的面最廣的,當(dāng)前最火的是基于擴(kuò)散模型方式的一個(gè)生成方式。

視覺(jué)生成-五個(gè)關(guān)鍵維度

要想使得視覺(jué)生產(chǎn)技術(shù)或者生產(chǎn)技術(shù)能滿足業(yè)務(wù)的需要,那么我們應(yīng)該在哪些方面來(lái)衡量它呢?

(1)比如說(shuō)我們首先肯定要滿足視覺(jué)或者美學(xué)的一個(gè)表現(xiàn),是可看的,不能說(shuō)我們生成一個(gè)東西你看起來(lái)都不認(rèn)識(shí)或者不知道,那這個(gè)肯定是沒(méi)法滿足的。

(2)第二個(gè)它相對(duì)來(lái)說(shuō)要合理,它要合乎語(yǔ)義的邏輯或者是內(nèi)容的邏輯,這點(diǎn)也很重要,我不能說(shuō)生成個(gè)a,結(jié)果你給我個(gè)b這也不行。

(3)還有一個(gè)你要保證你結(jié)果的豐富性,它是個(gè)多樣可變的,你不能說(shuō)每次生成的都一模一樣,它也是一個(gè)不是那么可用的狀態(tài)。

(4)還有它要是可控的,我想要生成什么樣子,它就要生成什么樣子。不能說(shuō)生成a,結(jié)果它生成b,或者說(shuō)我沒(méi)法控制它,這個(gè)也是不成的,所以我們要提供一個(gè)給用戶預(yù)期的抓手。

(5)最后達(dá)成一個(gè)目標(biāo),使得這個(gè)結(jié)果生成結(jié)果是可用的,它能夠給用戶帶來(lái)使用價(jià)值或者商業(yè)價(jià)值,這是最核心的。

所以從可看、合理、多樣、可控和可用上面這幾個(gè)維度來(lái)看,我們可以回過(guò)頭去看一看我們的視覺(jué)生產(chǎn)這個(gè)過(guò)程,這個(gè)技術(shù)是不是合理的。

視頻增強(qiáng)相關(guān)能力

前面介紹到有若干種視覺(jué)生產(chǎn),這里介紹兩個(gè)最主要的。第一個(gè)就是視頻增強(qiáng)技術(shù),實(shí)際上是滿足從 a 到 b 的一個(gè)過(guò)程。如果大家了解過(guò)底層視覺(jué),就是比如說(shuō)我一個(gè)視覺(jué),那么我一出生以來(lái),我不管是人,一只狗,或者是一個(gè)貓,或者是只要有眼睛能感知光的,那么它可能就對(duì)這個(gè)圖像的清晰度、細(xì)節(jié)或者色彩或者它是否流暢等等這一方面東西它天然的就能夠感知得到,這就是所謂的底層視覺(jué)。

對(duì)底層視覺(jué)我們永遠(yuǎn)是追求更高畫質(zhì)的視覺(jué)表現(xiàn),包括我們?cè)谇逦壬厦娓逦?,然后在色彩上面要更鮮艷,然后在流暢度上面要刷新的更快,這些都是跟視頻增強(qiáng)相關(guān)的一系列能力。

圖像與視頻的畫質(zhì)問(wèn)題

視頻增強(qiáng)的問(wèn)題從哪來(lái)的?其實(shí)有很多,比如從采集,運(yùn)輸處理,還有存儲(chǔ)等等各方面,由于我們?cè)缙诘臅r(shí)候在拍攝圖像,它的設(shè)備/環(huán)境/其它的東西導(dǎo)致的各種各樣的內(nèi)容不夠,甚至更早期的時(shí)候圖像只有黑白等情況。這些情況基本上可以分為三大類:

(1)一大類是細(xì)節(jié)損傷,分辨的不夠,或丟失了一些信息,這是第一類的。

(2)第二類色彩表現(xiàn)不好,以前可能是黑白的,后面只有8bit,或者就是馬賽克形式,10bit的像素的表達(dá),所以這種色彩的表現(xiàn),有可能是RGB三個(gè)通道,也可能ARGB的四個(gè)通道。這一系列也是屬于色彩表現(xiàn)添加的問(wèn)題。

(3)或者可能是跳幀的,它連續(xù)性不夠流暢等等。從這幾方面來(lái)說(shuō)的話,從傳統(tǒng)的圖像處理理論當(dāng)中來(lái)說(shuō),想要把這些問(wèn)題修復(fù)其實(shí)是非常困難的。所以也就是相當(dāng)于在這幾個(gè)方面,可以有很多的技術(shù)去專門攻克這一塊。

空域增長(zhǎng)-超分

在空域增強(qiáng)上面,在細(xì)節(jié)上面做一些超分的任務(wù),超分任務(wù)其實(shí)是比較典型的底層視覺(jué)的問(wèn)題,而且這塊問(wèn)題其實(shí)發(fā)展的時(shí)間也非常長(zhǎng)了,從早期的基于 CN 的圖像超分,一直到現(xiàn)在利用這種domain手段去做這種增強(qiáng)任務(wù),所以這一系列的技術(shù)也在不停地往前發(fā)展,使得的效果也不斷地去往前提升,使得從早期的720P,到1080P,然后到后面的4K、2K,或者甚至到現(xiàn)在的 8K 的視頻,細(xì)節(jié)越來(lái)越豐富,這是最基本的問(wèn)題。

色彩增強(qiáng)示例

另外色彩,有時(shí)可能不是那么通透,或者是帶有一點(diǎn)點(diǎn)灰蒙蒙這種感覺(jué),使得從8位的一個(gè)像素深度變成一個(gè) 10 位,或使得色彩表現(xiàn)力更豐富。上圖這里應(yīng)該是從 SDR 到HDR,大家用過(guò)電視機(jī)或者是比較好的一些手機(jī)都支持 HDR 的方式,但早期的時(shí)候很多是都是 SDR 的格式,所以在這些方面都可以做很多的事情,使得即便當(dāng)時(shí)的視頻質(zhì)量不是那么好,經(jīng)過(guò) AI 的處理以后它可以變得更好一些。

圖像去噪開放模型

同時(shí)也開放了一些其他的跟底層視覺(jué)相關(guān)的一些模型或者算法,比如說(shuō)兩個(gè)最經(jīng)典的。圖像拍的特別模糊,或者是噪聲點(diǎn)特別多,那么這個(gè)時(shí)候能不能有個(gè)辦法呢?其實(shí)也有一些專門的辦法去解,比如不管是對(duì)文字的噪點(diǎn)的去除,還是對(duì)拍攝過(guò)程當(dāng)中因?yàn)檫\(yùn)動(dòng)模糊帶來(lái)的一系列的問(wèn)題都可以去解。

人像增強(qiáng)開放模型

還有針對(duì)人像的增強(qiáng),在github 上很早就開放了GPEN 人像增強(qiáng)模型?;?StyleGAN2 作為 decoder 的方式嵌進(jìn)去的一個(gè)方式實(shí)現(xiàn)的。在這一塊的話可以對(duì)一些老照片來(lái)進(jìn)行修復(fù)。

例如早期拍的家庭合照或者早期的一些影視劇,質(zhì)量不好的時(shí)候可以使用這個(gè)模型,把其中相對(duì)于人的這塊識(shí)別做的更好一點(diǎn)。

生成編輯相關(guān)能力

增強(qiáng)相對(duì)來(lái)說(shuō)偏底層視覺(jué)相關(guān)的,但是生成編輯還有非常多的其他任務(wù)。包括對(duì)這個(gè)風(fēng)格變化,或者是從 0 到 1 生成一個(gè)東西,或者生成以后對(duì)它進(jìn)行一個(gè)增、刪、查、改等等一系列的視覺(jué)能力。

視覺(jué)編輯開放模型

如果接觸到玩得非常火一系列的風(fēng)格變換,給個(gè)圖變成各種各樣的風(fēng)格,這些風(fēng)格當(dāng)然很多時(shí)候都是色彩+內(nèi)容的變化,還有卡通畫:把一個(gè)正常的人變成一個(gè)各種各樣的模式的卡通畫,或者是變一個(gè)風(fēng)格。是比較清新的風(fēng)格?還是迪士尼的風(fēng)格?還是 3D 的風(fēng)格?等等。

或者一個(gè)人的皮膚不是那么好,但是又想使這個(gè)人美化以后還能保持真實(shí)的感覺(jué),這是相對(duì)比較高級(jí)的美膚能力,這一系列都是屬于視覺(jué)編輯。一張圖生成各種文的風(fēng)格,這些風(fēng)格也可能是日漫風(fēng)、 3D 風(fēng)、手繪風(fēng)、迪士尼風(fēng),而且這一個(gè)當(dāng)前買可以定制化的。

比如以上是一個(gè)非常受歡迎的一個(gè)例子,例如給一張圖,可以生成各種各樣的風(fēng)格,這些風(fēng)格可能是日漫風(fēng),3D風(fēng),迪士尼風(fēng),或者還可以定制化,例如我希望得到一個(gè)風(fēng)格,那么可以上傳若干個(gè)風(fēng)格的圖片,然后根據(jù)這幾張圖片提取其中的一個(gè)風(fēng)格特性,同時(shí)生成這種方式。所以這也是玩法非常多的一個(gè)方式,如果大家去試用會(huì)覺(jué)得很有趣。

電商海報(bào)設(shè)計(jì)

在一些特定的領(lǐng)域,比如說(shuō)電商的海報(bào)領(lǐng)域,能不能生成一些banner圖/廣告圖?如果大家早期關(guān)注過(guò)阿里的鹿班這個(gè)產(chǎn)品,就應(yīng)該關(guān)注到這其中的一系列。

例如可以通過(guò)給一個(gè)商品主圖以及一些文本,去生成一段背景,同時(shí)這個(gè)背景還能夠非常好的和前景以及商品相互融合起來(lái),包括這些細(xì)節(jié)也是非常使用的一個(gè)技術(shù),是非常經(jīng)典的生成編輯的能力。

視覺(jué)大模型技術(shù)

隨著大模型技術(shù)的發(fā)展,以及算力,還有數(shù)據(jù)規(guī)?;牟粩喟l(fā)展,還有多模態(tài)技術(shù)等等這一系列。前面的這些經(jīng)典的像感知理解類的技術(shù),或者生成編輯類的技術(shù),現(xiàn)在都在往前發(fā)展。

視覺(jué)統(tǒng)一分割任務(wù)模型:SAM

對(duì)這種感知理解的技術(shù),大家如何關(guān)注?前不久,Meta公司發(fā)表 SAM,通過(guò)模型可以對(duì)所有視覺(jué)分割任務(wù)進(jìn)行統(tǒng)一的處理,且是zero shot 的問(wèn)題。他可以對(duì)看得到、認(rèn)識(shí)到之前識(shí)別不到的一系列目標(biāo)對(duì)象進(jìn)行識(shí)別分割,且能夠達(dá)到精準(zhǔn)的像素級(jí)別分割。這塊它也可以在視頻當(dāng)中去做,比如我們看到視頻當(dāng)中有一個(gè)人,就能夠把他檢測(cè)出來(lái),并且能夠給出識(shí)別。在 3D 領(lǐng)域也都是可以去做的。

所以這個(gè)模型在兩個(gè)地方很有意義,第一個(gè)解決很多目標(biāo)中的分割問(wèn)題。另外數(shù)據(jù)量也是非常龐大的。訓(xùn)練圖像應(yīng)該有 1000 多萬(wàn),做一個(gè) billion 的一個(gè) mask, 去做監(jiān)督的訓(xùn)練。

這個(gè)模型也可以結(jié)合其他的模型做綜合玩法。比如說(shuō)像國(guó)內(nèi) grounding DINO 這個(gè)檢測(cè)模型,然后跟這個(gè) SAM 模型結(jié)合起來(lái)。還可以把一些像生成類的模型,例如Stable Diffusion,甚至 ChatGPT 這種領(lǐng)域的一些問(wèn)題,或者語(yǔ)音領(lǐng)域的一些問(wèn)題??梢越Y(jié)合起來(lái)去做一些事情。

例如希望把這個(gè)坐在椅子上面的狗狗換成 一個(gè)猴子, change the dog to a monkey,這也是一個(gè)多模態(tài)的輸入,結(jié)合這個(gè)分割模型,把這個(gè)狗識(shí)別出來(lái),同時(shí)結(jié)合生成的技術(shù),把這個(gè)前景的這個(gè)目標(biāo)換掉,然后變成一個(gè)新的猴子這個(gè)目標(biāo),這也是非常有意思的一個(gè)玩法。

文生圖大模型發(fā)展

像文生圖這種模型,其實(shí)最近是特別火的。右上角這一張圖,是MJ公司一戰(zhàn)成名生成的一個(gè)圖像。文生圖這個(gè)領(lǐng)域越來(lái)越成熟,應(yīng)用越來(lái)越多。同時(shí)也有非常多的經(jīng)典的大模型的發(fā)展,包括早期的像 DALLE,到谷歌的imagen 方法,然后到現(xiàn)在最火的形成Stable Diffusion 。

這其中國(guó)內(nèi)外也涌現(xiàn)了一批比較知名的專門在這個(gè)領(lǐng)域做,且做的得非常好的產(chǎn)品。業(yè)界中公認(rèn)的做的最好的是Midjourney。

國(guó)內(nèi)像文心一格,包括阿里也發(fā)布了若干個(gè)相關(guān)的一些文生圖的大模型。當(dāng)然想要把這些模型訓(xùn)練出來(lái)也是非常不容易的,這里也舉例了干個(gè)大數(shù)據(jù)集,如果真的想要 去訓(xùn)練起來(lái)一個(gè)大模型,我們可能要消耗好幾百塊的 GPU 卡,而且是需要訓(xùn)練很長(zhǎng)的過(guò)程,其中除了算法本身以外,在算力和數(shù)據(jù)方面還有很多工作要做。所以要想做這一類的大模型其實(shí)是一個(gè)系統(tǒng)工程的問(wèn)題。

“通義”預(yù)訓(xùn)練大模型系列

阿里發(fā)布了一系列的通義預(yù)訓(xùn)練大模型,包括M6-OFA這種包括文生圖,這系列的基礎(chǔ)模型都可以訪問(wèn)。

我們關(guān)注的是跟視覺(jué)領(lǐng)域相關(guān)的技術(shù)更多一些,在自己的這個(gè)文生圖大模型上面,其實(shí)是基于一個(gè)知識(shí)重組的大模型訓(xùn)練。

相當(dāng)于把知識(shí)信息這種先驗(yàn)信息,不管是語(yǔ)言的,視覺(jué)的或語(yǔ)音的,通過(guò)知識(shí)重組方式或者分組的方式作為編碼器輸入訓(xùn)練得到大模型,此時(shí)在規(guī)模越大的時(shí)候會(huì)產(chǎn)生更加良好的一個(gè)效果。

上圖是舉的幾個(gè)例子,像生成這種動(dòng)物或者 3D 的動(dòng)物,或者跟人相關(guān)的,卡通畫的人相關(guān)的。用的比較多的可能是國(guó)外的Midjourney或者是開源社區(qū)的 Stable Diffusion,此類文生圖的大模型用的比較多,同時(shí)也歡迎大家去Model Scope 上使用。

基于擴(kuò)散模型的圖像超分

除了文生圖以外基于擴(kuò)散模型,其實(shí)還可以帶來(lái)對(duì)于其他任務(wù)的一系列的增強(qiáng)和更新。比如說(shuō)我們?cè)谇懊嬲f(shuō)的圖像超分其實(shí)也可以利用這種擴(kuò)散模型去做,使得它的效果能夠變得非常好。

這款它有自己特定的問(wèn)題需要去解答。比如說(shuō)在這種任務(wù)上面,我們?cè)趺茨軌蚴沟眠@個(gè)成本降低,速度加快,然后能夠真的可以部署?這是一個(gè)現(xiàn)實(shí)的問(wèn)題,因?yàn)榇竽P驮谏傻男噬厦婧拖纳厦孢€是有比較多的問(wèn)題。另外很多的任務(wù)可能不一定需要文本引導(dǎo)或需要多模態(tài),它可能就是一個(gè)純粹的視覺(jué)領(lǐng)域的問(wèn)題。這也是在這個(gè)領(lǐng)域嘗試的用大模型技術(shù)去解決的問(wèn)題。

可控的圖像生成:ControlNet

還有一種情況,我們希望以一種更可控的去做圖像生成。去年年底的時(shí)候出的ControlNet模型在這個(gè)領(lǐng)域目前應(yīng)用最廣的,它可以對(duì)我們生成的目標(biāo)進(jìn)行一個(gè)預(yù)期的控制,無(wú)論是在輪廓上面還是在骨架上面、動(dòng)作行為或者色彩上面,都可以通過(guò)這種方式去做。

其實(shí)它是將某個(gè)結(jié)構(gòu)分成可訓(xùn)練的部分和不可訓(xùn)練部分,然后分別去針對(duì)這種模型進(jìn)行充分的迭代,既能保留非常明顯自身的學(xué)習(xí)能力,同時(shí)又能使得約束及控制存在。

可組合圖像生成:Composer

當(dāng)然在可控的投入量生產(chǎn)我們?cè)谶_(dá)摩院上面也做了一個(gè)非常有意思的研究,此研究的核心特點(diǎn)是可以支持多個(gè)條件引導(dǎo)的圖像合成,可以更加可控的生成方式去完成圖片可控的生產(chǎn)。

例如在 8 個(gè)維度上,不管是形狀還是深度形狀或者 mask 等等,這上面都可以對(duì)生產(chǎn)的結(jié)果進(jìn)行一系列的可控。

除了純粹的文生圖以外,怎么可控的去生產(chǎn)?舉了兩個(gè)例子,一個(gè)是那個(gè)業(yè)界用的比較早期的ControlNet,包括我們達(dá)摩院自研的一個(gè) Composer 的一個(gè)模型。

文本生成圖像

其實(shí)文本生成圖像,現(xiàn)在的視頻越來(lái)越用得廣,那么文本能不能直接生成視頻?其實(shí)這一塊達(dá)摩院也在做相應(yīng)的研究。

視頻的生成確實(shí)要比圖像的生成質(zhì)量和可控性相對(duì)來(lái)說(shuō)差一點(diǎn),離真正的使用還是有一定的距離,它不像Midjourney或者文心一格,或者我們自己發(fā)布的一系列圖像的生成產(chǎn)品慢慢的已經(jīng)達(dá)到可用或者是商業(yè)可用的狀態(tài)。但是對(duì)于視頻的生產(chǎn)還是有比較多的問(wèn)題要去解決。

發(fā)布的通義大模型文本生成視頻,業(yè)界大家如何關(guān)注到?Runway 公司有個(gè)Gen-2, 也就是Gen的一代、二代都可以生成一系列的視頻。已經(jīng)可以預(yù)測(cè)到文生視頻的巨大潛力,這也是一個(gè)非常有前景,有意思,有挑戰(zhàn)的技術(shù)方向。

當(dāng)然文生視頻其實(shí)還有另外一個(gè)做成的方式,例如想要做一個(gè)通用的文生視頻其實(shí)非常難,生成的結(jié)果質(zhì)量,不管是高清的這方面還是流暢性的這種控制還是語(yǔ)義的符合,是有非常大的一個(gè)挑戰(zhàn)。那么我們?cè)谔囟ǖ沫h(huán)境或者是特定的范式下面能不能做一些事情?

例如我們希望什么樣的人,在什么樣的地方做什么樣的動(dòng)作,這樣一個(gè)特定的模式能不能做呢?是可以的。比如說(shuō),我們做一個(gè)在蓋有城堡的沙灘上跳舞,然后右邊就是我希望秋天的樹葉,在這個(gè)下跳舞。

這就是我們可以把這種特定范式下的視頻生成做得相對(duì)可控和高清。

達(dá)摩院視覺(jué)AI開發(fā)服務(wù)

能力開放的不同形態(tài)

上面介紹到的這些能力達(dá)摩院和業(yè)界或者學(xué)業(yè)界做了非常多的探索,這些能力想要放開的話,無(wú)外乎是要要通過(guò)一個(gè)方式使得開發(fā)者/研發(fā)者/供給社研發(fā)出的模型或能力,能夠滿足用戶的需要。這些需要是多個(gè)層面的,例如對(duì)于學(xué)生或?qū)W術(shù)圈來(lái)說(shuō),可能發(fā)一篇論文就夠,把方法思想開放出去。對(duì)一些中高級(jí)的開發(fā)者,需要使用模型,使用數(shù)據(jù),還有一些需要直接調(diào)用 API ,甚至有些人只需要一個(gè)組件或者一個(gè) SDK 就可以滿足。當(dāng)然對(duì)于行業(yè),政企,大行業(yè)或者解決方案的時(shí)候,需要提供一系列完整的產(chǎn)品和解決方案去滿足用戶的需求。

能力開放的深度和自學(xué)習(xí)服務(wù)

所以隨著預(yù)訓(xùn)的大模型的發(fā)展,還有非常重要的是,怎么能夠基于這些預(yù)訓(xùn)練模型進(jìn)行二次開發(fā),基于統(tǒng)一的范式去滿足一次開發(fā)或基礎(chǔ)模型不能滿足用戶定制化需求的時(shí)候的一種方式。

達(dá)摩院視覺(jué)AI開放服務(wù)

所以達(dá)摩院開放了開放了兩種模式,一種是模型即服務(wù)的方式ModelScope,一種就是通過(guò) API 平臺(tái)去滿足業(yè)界所有的需要,也就是前面所說(shuō)的所有的模型或者 API 都可以從這兩個(gè)地方去找得到。

文章轉(zhuǎn)載自 @ModelScope小助理?

上一篇:

AI、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò):有何區(qū)別?

下一篇:

AI語(yǔ)音工具API助力開發(fā)智能化應(yīng)用
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)