圖1 PASCAL VOC訓(xùn)練圖片

語(yǔ)義分割在醫(yī)學(xué)影像診斷、自動(dòng)駕駛、衛(wèi)星圖像處理、環(huán)境分析、農(nóng)業(yè)發(fā)展和圖像搜索引擎等領(lǐng)域具有廣泛應(yīng)用。本綜述總結(jié)了語(yǔ)義分割的最新進(jìn)展,特別是實(shí)時(shí)系統(tǒng),強(qiáng)調(diào)了高效技術(shù)的重要性。

2 語(yǔ)義分割的歷史

語(yǔ)義分割的早期方法有閾值分割和聚類。閾值分割將圖像分為目標(biāo)和背景,通過(guò)使用單個(gè)或多個(gè)閾值進(jìn)行分類。聚類方法將具有相似特征的像素分為同一簇,包括K-means、GMMs、mean-shift和模糊k-means等。邊緣檢測(cè)利用邊緣代表邊界的事實(shí),流行的線邊緣檢測(cè)方法有Roberts、Sobel和Prewitt等。圖像也可視為圖進(jìn)行分割,計(jì)算關(guān)聯(lián)矩陣,解由矩陣的廣義特征值給出。條件隨機(jī)域(CRF)是一種概率框架,可用于標(biāo)記和分割數(shù)據(jù),包括一元成本和成對(duì)成本來(lái)模擬像素之間的相互作用,最終目標(biāo)是找到一個(gè)總體成本最小的配置。

3 圖像語(yǔ)義分割的深度學(xué)習(xí)方法

3.1 全卷積網(wǎng)絡(luò)

卷積網(wǎng)絡(luò)最初用于分類任務(wù),通過(guò)多個(gè)卷積層處理輸入圖像,最后通過(guò)全連接層和softmax輸出層學(xué)習(xí)類別概率分布。在FCN中,全連接層被卷積層替換,允許按像素對(duì)圖像進(jìn)行分類(圖2),具有兩個(gè)好處:適用于任何分辨率的圖像,參數(shù)較少,訓(xùn)練和推理更快。這種方法在圖像分割領(lǐng)域取得了最先進(jìn)的結(jié)果,被認(rèn)為是最具影響力的方法之一。

圖2 全卷積網(wǎng)絡(luò)架構(gòu)

3.2 編碼器-解碼器體系結(jié)構(gòu)

在DeconvNet中,作者提出了一種多層反卷積網(wǎng)絡(luò),如圖3,用于解決中由于缺乏真正的反卷積和特征圖尺寸較小導(dǎo)致的信息丟失問(wèn)題。訓(xùn)練后的網(wǎng)絡(luò)應(yīng)用于單個(gè)對(duì)象提議,以獲得實(shí)例分割,這些分割被組合用于最終的語(yǔ)義分割。此外,作者還提出了一種基于解碼器/編碼器架構(gòu)的醫(yī)療應(yīng)用,該架構(gòu)在訓(xùn)練數(shù)據(jù)較少的情況下表現(xiàn)良好。該架構(gòu)在圖像降采樣和升采樣過(guò)程中,通過(guò)增加和減少特征數(shù)量,實(shí)現(xiàn)更好的分類,如圖4。此外,他們還提出了加權(quán)損失,以提高不同區(qū)域的分類準(zhǔn)確性。

圖3 DeconvNet架構(gòu)

圖4 UNet體系結(jié)構(gòu)

SegNet 使用VGG 作為骨干編碼器,去除了全連接層,并添加了對(duì)稱解碼器結(jié)構(gòu),通過(guò)重用最大池化索引改善邊界劃分,減少參數(shù)數(shù)量,并提高訓(xùn)練效率。在醫(yī)療應(yīng)用中,一種基于解碼器/編碼器架構(gòu)的方法在訓(xùn)練數(shù)據(jù)較少的情況下表現(xiàn)良好,通過(guò)增加和減少特征數(shù)量實(shí)現(xiàn)更好的分類,并提出了加權(quán)損失以提高不同區(qū)域的分類準(zhǔn)確性。

3.3 神經(jīng)網(wǎng)絡(luò)的條件隨機(jī)場(chǎng)

深度學(xué)習(xí)到來(lái)之前,條件隨機(jī)域(CRF)是語(yǔ)義分割中最流行的方法之一,但由于訓(xùn)練和推理速度緩慢,以及難以學(xué)習(xí)其內(nèi)部參數(shù),CRF失去了一部分吸引力。CNN的設(shè)計(jì)預(yù)計(jì)在兩個(gè)或多個(gè)類相交的邊界區(qū)域表現(xiàn)不佳,或者可能通過(guò)多個(gè)處理階段丟失高層信息。的作者通過(guò)將最終神經(jīng)網(wǎng)絡(luò)層的響應(yīng)與完全連接的條件隨機(jī)域相結(jié)合,將這兩種方法結(jié)合起來(lái)。這項(xiàng)工作演變?yōu)镈eepLab,其中添加了一些改進(jìn)(例如,孔徑空間金字塔池化),并提出了一些變體。在之前的工作中,CRF沒(méi)有與全卷積網(wǎng)絡(luò)聯(lián)合訓(xùn)練,這可能會(huì)導(dǎo)致次優(yōu)的端到端性能。在中,作者提出將CRF表示為RNN,以獲得具有CNN和CRF理想特性的深度網(wǎng)絡(luò)。

圖5 DeepLab 體系結(jié)構(gòu)

3.4 功能融合

語(yǔ)義分割在像素級(jí)對(duì)圖像進(jìn)行分類,但現(xiàn)有技術(shù)可能導(dǎo)致細(xì)節(jié)丟失。提出通過(guò)添加全局上下文來(lái)增強(qiáng)全卷積網(wǎng)絡(luò)的性能,提出了增強(qiáng)語(yǔ)義分割網(wǎng)絡(luò)(ESSN),對(duì)每個(gè)卷積層的殘差特征圖進(jìn)行上采樣和連接,以保持網(wǎng)絡(luò)所有階段的特征(如圖6)。在下采樣階段提取特征信息,然后在上采樣部分恢復(fù)空間分辨率。在產(chǎn)生分割輸出的最終預(yù)測(cè)階段之前,對(duì)相應(yīng)的池化和解池化層的特征進(jìn)行上采樣和連接。這些方法在三個(gè)主要的語(yǔ)義分割數(shù)據(jù)集上取得了令人鼓舞的結(jié)果。

圖6 增強(qiáng)的語(yǔ)義分割網(wǎng)絡(luò)架構(gòu)

3.5 生成對(duì)抗性網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)(GAN)最初用于無(wú)監(jiān)督學(xué)習(xí)生成模型,生成與訓(xùn)練集具有相同統(tǒng)計(jì)特性的新數(shù)據(jù),在圖像、天文圖像、3D對(duì)象重建和圖像超分辨率等多個(gè)領(lǐng)域產(chǎn)生影響。GAN應(yīng)用于語(yǔ)義分割,使用兩個(gè)網(wǎng)絡(luò),一個(gè)分割網(wǎng)絡(luò),一個(gè)對(duì)抗網(wǎng)絡(luò),提高標(biāo)注精度?;贕AN的半監(jiān)督框架由一個(gè)生成器網(wǎng)絡(luò)組成,為多類分類器提供額外的訓(xùn)練樣本,如圖7,添加大量虛假視覺(jué)數(shù)據(jù)迫使真實(shí)樣本在特征空間中靠近,改善多類像素分類。GAN在醫(yī)學(xué)圖像中應(yīng)用,對(duì)抗網(wǎng)絡(luò)優(yōu)化了一個(gè)多尺度損失函數(shù),分割網(wǎng)絡(luò)由四層卷積級(jí)組成,專為有限訓(xùn)練數(shù)據(jù)集而設(shè)計(jì),網(wǎng)絡(luò)性能明顯優(yōu)于其他方法。

圖7 半監(jiān)督卷積 GAN 架構(gòu)(來(lái)自 [46])

3.6 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

RNN已被廣泛用于順序任務(wù),如語(yǔ)義分割。ReSeg通過(guò)轉(zhuǎn)換每個(gè)ReNet層來(lái)適應(yīng)語(yǔ)義分割任務(wù),每個(gè)ReNet層由四個(gè)RNN組成,如圖8,它們?cè)谒胶痛怪狈较蛏蠏呙鑸D像,編碼補(bǔ)丁或激活,并提供相關(guān)的全局信息。ReNet層堆疊在預(yù)先訓(xùn)練的卷積層之上,受益于通用的局部特征。上采樣層跟隨ReNet層,在最終預(yù)測(cè)中恢復(fù)原始圖像分辨率。圖像分割的另一個(gè)有趣的應(yīng)用是視頻分割,其中連續(xù)的視頻幀被分割。一種方法是獨(dú)立分割每一幀,但由于視頻幀的高度相關(guān)性,這似乎是一種低效的方法。作者建議通過(guò)添加LSTM來(lái)整合時(shí)間信息,LSTM是一種RNN,可以在網(wǎng)絡(luò)的不同階段有效地處理長(zhǎng)時(shí)間依賴性,并且他們報(bào)告了比CNN同行顯著的性能改進(jìn)。

圖8 ReSeg網(wǎng)絡(luò)架構(gòu)(來(lái)自[49])

3.7 全景分割

全景分割是一項(xiàng)結(jié)合語(yǔ)義分割和實(shí)例分割的任務(wù),為所有像素分配類標(biāo)簽,并對(duì)所有對(duì)象實(shí)例進(jìn)行唯一分割,已在多個(gè)基準(zhǔn)數(shù)據(jù)集上取得最先進(jìn)的結(jié)果。

3.8 基于注意力的模型

深度學(xué)習(xí)中的注意力機(jī)制最初用于機(jī)器翻譯,通過(guò)自動(dòng)搜索源句中與目標(biāo)詞相關(guān)的部分,以有效捕獲長(zhǎng)距離依賴關(guān)系。在語(yǔ)義分割中,注意力機(jī)制通過(guò)整合多尺度特征到全卷積網(wǎng)絡(luò),學(xué)習(xí)在每個(gè)像素位置對(duì)多尺度特征進(jìn)行軟加權(quán),如圖9所示,以提高分割準(zhǔn)確性。此外,特征金字塔注意力模塊被引入以解決全卷積網(wǎng)絡(luò)的空間分辨率損失問(wèn)題,提高較小對(duì)象的分類性能。注意力輔助的語(yǔ)義分割網(wǎng)絡(luò)已被廣泛應(yīng)用于各種應(yīng)用中。

圖9 尺度感知語(yǔ)義圖像分割架構(gòu)

4 用于語(yǔ)義圖像分割的實(shí)時(shí)深度學(xué)習(xí)架構(gòu)

深度學(xué)習(xí)的語(yǔ)義分割準(zhǔn)確率顯著提高,例如在Cityscapes數(shù)據(jù)集中實(shí)現(xiàn)了65%的mIoU,在PASCAL VOC 2012數(shù)據(jù)集中實(shí)現(xiàn)了67%的mIoU。最近的架構(gòu)如HRNet和[65]的方法在Cityscapes數(shù)據(jù)集和PASCAL VOC 2012數(shù)據(jù)集中分別實(shí)現(xiàn)了>85%和>90%的mIoU。在自動(dòng)駕駛汽車和移動(dòng)設(shè)備分段等領(lǐng)域,計(jì)算效率至關(guān)重要,設(shè)計(jì)實(shí)時(shí)系統(tǒng)時(shí)需要考慮計(jì)算/內(nèi)存成本和推理時(shí)間。

4.1 快速傅里葉變換(FFT)

卷積定理指出,兩個(gè)信號(hào)的卷積的傅里葉變換是它們傅里葉變換的逐點(diǎn)積。中的作者利用這一事實(shí)改進(jìn)卷積網(wǎng)絡(luò)的訓(xùn)練和推理時(shí)間。直接卷積復(fù)雜度為O(n 2 ?k 2 ),但基于FFT的方法可將復(fù)雜度降低到O(n 2 log n)?;贔FT開(kāi)發(fā)了訓(xùn)練和推理算法,降低了計(jì)算和存儲(chǔ)的漸近復(fù)雜度,所需ASIC內(nèi)核數(shù)量減少1000倍,推理速度提高10倍,精度略有降低。

4.2 修剪

神經(jīng)網(wǎng)絡(luò)可以通過(guò)修剪冗余權(quán)重來(lái)減少存儲(chǔ)和內(nèi)存需求,如三步法:訓(xùn)練網(wǎng)絡(luò)識(shí)別重要連接,修剪不重要連接,重新訓(xùn)練網(wǎng)絡(luò)微調(diào)剩余連接權(quán)重。連接數(shù)量可減少9-13倍,性能幾乎不變。中側(cè)重于語(yǔ)義分割網(wǎng)絡(luò)的通道修剪,通過(guò)基于分類和分割任務(wù)修剪卷積濾波器,將操作數(shù)量減少50%,僅損失1%的mIoU。網(wǎng)絡(luò)修剪可提高卷積神經(jīng)網(wǎng)絡(luò)和語(yǔ)義分割性能。

4.3 量化

為提高網(wǎng)絡(luò)效率,可減少表示權(quán)重所需的比特?cái)?shù),如從32位減少到5位,并通過(guò)共享權(quán)重限制有效權(quán)重?cái)?shù)量。在Bi-Real Net中,作者研究了1位卷積神經(jīng)網(wǎng)絡(luò)的增強(qiáng),通過(guò)在二進(jìn)制激活之前采用批歸一化層的實(shí)值輸出并將其連接到下一塊的實(shí)值激活來(lái)提高性能。因此,所提出的模型的表征能力遠(yuǎn)高于原始的1位CNN,且計(jì)算成本可以忽略不計(jì)。

4.4 深度可分離卷積

前兩種方法通過(guò)修剪和壓縮減小網(wǎng)絡(luò)規(guī)模,Sifre提出了深度可分離卷積,提高了二維卷積的計(jì)算效率,被Xception和MobileNets采用,提高了相對(duì)架構(gòu)的效率。常規(guī)卷積的計(jì)算復(fù)雜度取決于輸入/輸出特征圖、輸入通道數(shù)、輸出通道數(shù)和內(nèi)核空間維度。深度可分離卷積將濾波器的卷積分解為兩部分,第一部分需要D2×K2×M,第二部分需要D2×M×N。計(jì)算改進(jìn)的階數(shù)為max(O(N),O(D2)),在濾波器大小或深度增加時(shí)尤為明顯。

4.5 膨脹卷積

作者引入了膨脹卷積,通過(guò)在卷積核中插入零來(lái)擴(kuò)展有效感受野。如圖10所示,膨脹率越高,覆蓋范圍越大。在語(yǔ)義分割任務(wù)中,膨脹卷積可以指數(shù)地?cái)U(kuò)展感受野,而不會(huì)增加計(jì)算成本。通過(guò)堆疊具有不同膨脹率的多個(gè)卷積層,可以顯著提高分割性能。

圖10 3×3膨脹卷積核的示意圖。左:膨脹率=1,中:膨脹率=2,右:膨脹率=4。

ESPNet在[80]中引入,結(jié)合膨脹卷積和深度可分離卷積,形成分解卷積的分解集,參數(shù)數(shù)量少,有效感受野大,引入新系統(tǒng)級(jí)指標(biāo)分析CNN性能。

4.6 寬度和分辨率乘數(shù)

兩種降低網(wǎng)絡(luò)復(fù)雜性的方法:寬度乘數(shù)和分辨率乘數(shù)。寬度乘數(shù)通過(guò)縮放輸入和輸出通道數(shù)量,以降低每一層的計(jì)算需求。分辨率乘數(shù)通過(guò)縮放輸入圖像尺寸,降低整體計(jì)算成本。兩種方法可以結(jié)合使用,以提高網(wǎng)絡(luò)性能。

4.7 早期采樣

提出了一種基于實(shí)驗(yàn)結(jié)果和直覺(jué)的設(shè)計(jì)選擇,包括早期降采樣、低特征數(shù)量、濾波器感受野和稀疏上采樣圖,以提高分類和分割任務(wù)的性能。

4.8 更小的解碼器尺寸

討論了語(yǔ)義分割網(wǎng)絡(luò)中編碼器和解碼器的非對(duì)稱設(shè)計(jì)。編碼器需要深度以捕獲特征,而解碼器僅需要上采樣,因此可以使用較淺的架構(gòu)以節(jié)省計(jì)算資源。

4.9 有效減小網(wǎng)格尺寸

發(fā)現(xiàn)池化操作可能導(dǎo)致表征瓶頸,通過(guò)增加通道數(shù)量補(bǔ)償,但增加了計(jì)算成本。顛倒卷積/池化順序無(wú)助于表征瓶頸。作者建議并行執(zhí)行池化操作和步幅為2的卷積,將濾波器庫(kù)連接,使初始?jí)K推理時(shí)間加快10倍。

4.10 刪除偏差項(xiàng)

偏置項(xiàng)對(duì)語(yǔ)義分割網(wǎng)絡(luò)的總體性能沒(méi)有顯著影響,通常會(huì)被丟棄。

4.11 使用小內(nèi)核堆疊多層

計(jì)算成本隨內(nèi)核大小增加,[29]中認(rèn)為多個(gè)小內(nèi)核優(yōu)于單個(gè)大內(nèi)核,原因有二:(a)堆疊三個(gè)3×3卷積層對(duì)應(yīng)7×7層,參數(shù)減少一半,(b)合并三個(gè)非線性整流層,使決策函數(shù)更具辨別力。

4.12 通道洗牌操作

分組卷積首次用于多GPU模型,通過(guò)并行使用多個(gè)卷積提高分類任務(wù)準(zhǔn)確性。然而,在小網(wǎng)絡(luò)中效率較低,瓶頸是密集1×1卷積。通道洗牌操作(如圖11)可克服此問(wèn)題,通過(guò)重塑、轉(zhuǎn)置和平坦化輸出通道,減少操作數(shù)量至組的倍數(shù)。

圖11 通道洗牌體系結(jié)構(gòu)

4.13 兩個(gè)分支網(wǎng)絡(luò)

通過(guò)降采樣原始圖像,可以顯著提高語(yǔ)義分割架構(gòu)的推理速度,但會(huì)導(dǎo)致空間細(xì)節(jié)的損失。為解決此問(wèn)題,兩個(gè)分支網(wǎng)絡(luò)分別使用全分辨率圖像和降采樣圖像,共享層以提高計(jì)算效率。BiSeNet-V2在保持最佳mIoU性能的同時(shí),實(shí)現(xiàn)了最高的推理速度。

4.14 其他設(shè)計(jì)選擇

除了計(jì)算效率高的方法,還有批歸一化、激活函數(shù)選擇和正則化等設(shè)計(jì)選擇,有助于保持良好性能。批歸一化可加速訓(xùn)練過(guò)程;ReLU和PReLU是非線性函數(shù),常用于該領(lǐng)域;正則化可防止過(guò)擬合。

5 語(yǔ)義分割數(shù)據(jù)集

表1總結(jié)了用于語(yǔ)義分割的多個(gè)數(shù)據(jù)集,包括用于分類任務(wù)和特定應(yīng)用的圖像集,涵蓋了廣泛的場(chǎng)景和對(duì)象類別,并進(jìn)行了像素級(jí)注釋。

表1 語(yǔ)義分割數(shù)據(jù)集匯總

5.1 上下文中的常見(jiàn)對(duì)象(COCO)

COCO是一個(gè)大規(guī)模的對(duì)象檢測(cè)、分割和字幕數(shù)據(jù)集,包含33萬(wàn)張圖像,一半被標(biāo)記。它包括80個(gè)對(duì)象類別,91個(gè)東西類,150萬(wàn)個(gè)對(duì)象實(shí)例,是圖像分割任務(wù)中最具挑戰(zhàn)性的數(shù)據(jù)集之一。COCO-Stuff 為COCO 2017數(shù)據(jù)集的所有圖像增加了91個(gè)類別的像素級(jí)注釋,完成了更復(fù)雜的任務(wù),如語(yǔ)義分割。

5.2 PASCAL 視覺(jué)對(duì)象類 (VOC)

PASCAL VOC圖像集廣泛用于分類、檢測(cè)、分割、動(dòng)作分類和人員布局。訓(xùn)練集和驗(yàn)證集分別包含1464張和1449張圖像,測(cè)試集用于評(píng)估。數(shù)據(jù)集包含20個(gè)類別的日常物體,包括飛機(jī)、自行車、鳥(niǎo)、船等。PASCAL Context和PASCAL Part是PASCAL VOC的擴(kuò)展,分別對(duì)同一圖像進(jìn)行500多個(gè)類別的注釋和對(duì)象分解為幾個(gè)部分并對(duì)其進(jìn)行注釋。另外兩個(gè)擴(kuò)展是語(yǔ)義邊界數(shù)據(jù)集(SBD)和PASCAL語(yǔ)義部分(PASParts)。

5.3 ADE20K

ADE20K數(shù)據(jù)集由麻省理工學(xué)院計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室開(kāi)發(fā),包含25K張圖像,具有密集的注釋圖像和近2700個(gè)類。圖像被手動(dòng)詳細(xì)分割,涵蓋了各種場(chǎng)景、對(duì)象和對(duì)象部分類別。注釋細(xì)節(jié)如圖12,每個(gè)圖像平均有19.5個(gè)實(shí)例和10.5個(gè)對(duì)象類。

圖12 ADE20K訓(xùn)練圖像

他們的場(chǎng)景解析基準(zhǔn)選擇了前150個(gè)類別,使用像素精度、平均精度、平均IoU和加權(quán)IoU作為指標(biāo)。訓(xùn)練集使用了2萬(wàn)多張圖像,驗(yàn)證集使用了2000張圖像,其余用于測(cè)試。數(shù)據(jù)來(lái)自50個(gè)城市的立體視頻序列和注釋,涉及30個(gè)類別。

5.4 Cityscapes

Cityscapes數(shù)據(jù)集包含25K張圖像,其中5K張具有高質(zhì)量像素級(jí)注釋,20K張具有粗略注釋,分別如圖13a和13b所示。

圖13 Cityscapes訓(xùn)練圖像

基準(zhǔn)套件包含200多個(gè)條目,用于像素級(jí)語(yǔ)義標(biāo)注任務(wù),是最多樣化和具挑戰(zhàn)性的城市場(chǎng)景數(shù)據(jù)集,常用于性能評(píng)估。

5.5 SYNTHIA

SYNTHIA數(shù)據(jù)集是一個(gè)包含13K個(gè)城市圖像的合成圖像集合,用于自動(dòng)駕駛應(yīng)用。使用像素級(jí)注釋生成逼真的合成圖像,并在訓(xùn)練階段與公開(kāi)可用的現(xiàn)實(shí)城市圖像一起使用,以提高語(yǔ)義分割任務(wù)的性能。SYNTHIA合成圖像的一個(gè)例子見(jiàn)圖14,以及圖像生成所用的城市全景。

圖14 來(lái)自 SYNTHIA 的合成圖像示例及其語(yǔ)義標(biāo)簽和城市總體視圖。

5.6 SIFT Flow

SIFT Flow 是處理 LabelMe 圖像子集的數(shù)據(jù)集,包含2688幀準(zhǔn)確像素級(jí)注釋,主要對(duì)象類別來(lái)自室外場(chǎng)景,圖像尺寸較小(256×256像素),用于評(píng)估場(chǎng)景解析算法。

5.7 CamVid

CamVid是一個(gè)城市場(chǎng)景數(shù)據(jù)集,包含四個(gè)高清視頻序列,總時(shí)長(zhǎng)約22分鐘,約40K幀。其中701個(gè)對(duì)象被手動(dòng)標(biāo)記為32個(gè)類別。平均注釋時(shí)間不到20分鐘,需要230個(gè)人工小時(shí)。每個(gè)注釋圖像都經(jīng)過(guò)二次檢查和確認(rèn)。

5.8 KITTI

KITTI數(shù)據(jù)集在自動(dòng)駕駛研究中廣泛使用,包含相機(jī)圖像、激光掃描、GPS測(cè)量和IMU加速度等傳感器數(shù)據(jù),收集于德國(guó)卡爾斯魯厄及其周邊地區(qū)。該數(shù)據(jù)集包含200多張完全注釋的圖像,語(yǔ)義分割基準(zhǔn)包含14個(gè)條目,評(píng)估指標(biāo)包括運(yùn)行時(shí)間和環(huán)境信息。

6 指標(biāo)

在本節(jié)中,我們將總結(jié)用于評(píng)估不同語(yǔ)義分割方法的基本指標(biāo)。它們要么關(guān)注分割輸出的準(zhǔn)確性(即它與真實(shí)情況的接近程度),要么關(guān)注方法的效率(即推理時(shí)間和內(nèi)存使用)。

6.1 混淆矩陣

在總共有 C 個(gè)類的分割任務(wù)中,混淆矩陣是一個(gè) C × C 表,其中位置 (i, j) 中的元素表示應(yīng)該屬于類 i 但被分類為屬于的像素?cái)?shù) j 類。一個(gè)好的模型會(huì)產(chǎn)生一個(gè)混淆矩陣,其對(duì)角線元素(即正確分類的像素)具有高計(jì)數(shù)。

6.2 歸一化混淆矩陣

它源自混淆矩陣,但每個(gè)條目都通過(guò)將其除以預(yù)測(cè)類 j 的總數(shù)來(lái)標(biāo)準(zhǔn)化。這樣所有條目都在 [0, 1] 范圍內(nèi)。

6.3 準(zhǔn)確度

準(zhǔn)確率或全局準(zhǔn)確率是正確分類的像素占總像素的比率。它可以通過(guò)將對(duì)角線元素之和除以圖像中的總像素來(lái)從混淆矩陣導(dǎo)出。準(zhǔn)確性可能會(huì)產(chǎn)生誤導(dǎo),特別是當(dāng)所考慮的類別不平衡時(shí)。例如,如果 95% 的像素屬于一類(通常是背景),則始終預(yù)測(cè)此類的簡(jiǎn)單模型將獲得 95% 的準(zhǔn)確率,這絕對(duì)無(wú)法捕獲分割任務(wù)的依賴性。

6.4 平均準(zhǔn)確度

它被定義為每個(gè)類別中正確分類的像素與所有類別的平均總像素的比率。

6.5 并集的平均交集

并集平均交集 (mIoU) 是一個(gè)解決準(zhǔn)確性指標(biāo)的類不平衡弱點(diǎn)的指標(biāo)。特別是,它將模型的逐像素分類輸出與真實(shí)情況進(jìn)行比較,并找到它們的交集和并集(即,有多少像素被正確分類為所有類別 i 的類別 i,以及有多少像素被分類為類別 i)?;蛘邔?duì)于所有類 i) 都注釋為類 i。交集與并集的比率(所有類的總和)是 mIoU 或 Jaccard 指數(shù)。它對(duì)類別不平衡具有魯棒性,并且可以說(shuō)是評(píng)估語(yǔ)義分割任務(wù)時(shí)最流行的指標(biāo)。

6.6 并集上的加權(quán)交集

這是之前指標(biāo)的一個(gè)小變化,用于說(shuō)明每個(gè)類別的像素?cái)?shù)量。它計(jì)算每個(gè)類的 IoU 的加權(quán)平均值,并按類中的像素?cái)?shù)進(jìn)行加權(quán)。

6.7 精度

第 i 類的精度定義為分類為 i 的像素中被正確分類的比例。可以為多個(gè)類別相應(yīng)地定義平均精度度量。

6.8 召回

第 i 類的召回率定義為第 i 類的實(shí)際像素中被正確分類的比例。類似地,可以為多個(gè)類別相應(yīng)地定義平均召回度量。

6.9 F1 分?jǐn)?shù)

F1-score 通過(guò)計(jì)算調(diào)和平均值來(lái)聚合精確度/召回率指標(biāo)。它結(jié)合了兩者的功能并提供兩種類型錯(cuò)誤的信息。

6.10 每秒幀數(shù)

以前的所有指標(biāo)都衡量模型輸出的準(zhǔn)確性,但沒(méi)有捕獲方法的效率。要捕獲的一個(gè)重要指標(biāo)是網(wǎng)絡(luò)的推理速度,即以每秒幀數(shù) (fps) 為單位測(cè)量的執(zhí)行時(shí)間。它是在經(jīng)過(guò)充分訓(xùn)練的網(wǎng)絡(luò)上運(yùn)行新圖像推理的時(shí)間的倒數(shù)。在大多數(shù)實(shí)時(shí)應(yīng)用中,需要 30 或更高的 fps,通常要優(yōu)于典型的視頻幀速率。

6.11 內(nèi)存使用

內(nèi)存使用量是網(wǎng)絡(luò)大小的衡量標(biāo)準(zhǔn)。它可以通過(guò)參數(shù)數(shù)量(對(duì)于深度神經(jīng)網(wǎng)絡(luò)方法)、表示網(wǎng)絡(luò)的內(nèi)存大小或運(yùn)行模型所需的浮點(diǎn)運(yùn)算 (FLOP) 數(shù)量來(lái)衡量。

7 性能總結(jié)

本節(jié)匯總了Cityscapes數(shù)據(jù)集上語(yǔ)義分割性能最佳的十個(gè)模型,并簡(jiǎn)要總結(jié)了實(shí)現(xiàn)這些結(jié)果的方法。盡管匿名提交的內(nèi)容在基準(zhǔn)評(píng)估中占據(jù)了一些表現(xiàn)最好的位置,但并未包含在本部分中。從表2可以看出,大多數(shù)參賽作品都是在過(guò)去幾個(gè)月內(nèi)發(fā)布的,競(jìng)爭(zhēng)非常激烈,進(jìn)展也非常快。

表2 Cityscapes像素級(jí)語(yǔ)義標(biāo)簽任務(wù)表現(xiàn)最佳的模型

表3對(duì)實(shí)時(shí)語(yǔ)義分割工作進(jìn)行了排名,其中性能指標(biāo)是推理速度(即每秒幀數(shù) (FPS))。前十名中有三個(gè)由一篇論文占據(jù),證明了性能/效率的權(quán)衡。然而,實(shí)時(shí)語(yǔ)義分割已成為現(xiàn)實(shí),多種架構(gòu)的精度接近最先進(jìn)的語(yǔ)義分割模型。

表3 Cityscapes像素級(jí)語(yǔ)義標(biāo)簽任務(wù)表現(xiàn)最佳的實(shí)時(shí)模型

參考資料:《 A SURVEY ON DEEP LEARNING METHODS FOR SEMANTIC IMAGE SEGMENTATION IN REAL-TIME》

文章轉(zhuǎn)自微信公眾號(hào)@算法進(jìn)階

上一篇:

機(jī)器學(xué)習(xí)最全知識(shí)點(diǎn)(萬(wàn)字長(zhǎng)文匯總)

下一篇:

從 0 實(shí)現(xiàn)多分類SVM(Python)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)