人妻呻吟沉沦呻吟嗯啊喔,欧美一区二区三区啪啪

圖1 PASCAL VOC訓(xùn)練圖片

語(yǔ)義分割在醫(yī)學(xué)影像診斷、自動(dòng)駕駛、衛(wèi)星圖像處理、環(huán)境分析、農(nóng)業(yè)發(fā)展和圖像搜索引擎等領(lǐng)域具有廣泛應(yīng)用。本綜述總結(jié)了語(yǔ)義分割的最新進(jìn)展，特別是實(shí)時(shí)系統(tǒng)，強(qiáng)調(diào)了高效技術(shù)的重要性。

2 語(yǔ)義分割的歷史

語(yǔ)義分割的早期方法有閾值分割和聚類。閾值分割將圖像分為目標(biāo)和背景，通過(guò)使用單個(gè)或多個(gè)閾值進(jìn)行分類。聚類方法將具有相似特征的像素分為同一簇，包括K-means、GMMs、mean-shift和模糊k-means等。邊緣檢測(cè)利用邊緣代表邊界的事實(shí)，流行的線邊緣檢測(cè)方法有Roberts、Sobel和Prewitt等。圖像也可視為圖進(jìn)行分割，計(jì)算關(guān)聯(lián)矩陣，解由矩陣的廣義特征值給出。條件隨機(jī)域（CRF）是一種概率框架，可用于標(biāo)記和分割數(shù)據(jù)，包括一元成本和成對(duì)成本來(lái)模擬像素之間的相互作用，最終目標(biāo)是找到一個(gè)總體成本最小的配置。

3 圖像語(yǔ)義分割的深度學(xué)習(xí)方法

3.1 全卷積網(wǎng)絡(luò)

卷積網(wǎng)絡(luò)最初用于分類任務(wù)，通過(guò)多個(gè)卷積層處理輸入圖像，最后通過(guò)全連接層和softmax輸出層學(xué)習(xí)類別概率分布。在FCN中，全連接層被卷積層替換，允許按像素對(duì)圖像進(jìn)行分類（圖2），具有兩個(gè)好處：適用于任何分辨率的圖像，參數(shù)較少，訓(xùn)練和推理更快。這種方法在圖像分割領(lǐng)域取得了最先進(jìn)的結(jié)果，被認(rèn)為是最具影響力的方法之一。

圖2 全卷積網(wǎng)絡(luò)架構(gòu)

3.2 編碼器-解碼器體系結(jié)構(gòu)

在DeconvNet中，作者提出了一種多層反卷積網(wǎng)絡(luò)，如圖3，用于解決中由于缺乏真正的反卷積和特征圖尺寸較小導(dǎo)致的信息丟失問(wèn)題。訓(xùn)練后的網(wǎng)絡(luò)應(yīng)用于單個(gè)對(duì)象提議，以獲得實(shí)例分割，這些分割被組合用于最終的語(yǔ)義分割。此外，作者還提出了一種基于解碼器/編碼器架構(gòu)的醫(yī)療應(yīng)用，該架構(gòu)在訓(xùn)練數(shù)據(jù)較少的情況下表現(xiàn)良好。該架構(gòu)在圖像降采樣和升采樣過(guò)程中，通過(guò)增加和減少特征數(shù)量，實(shí)現(xiàn)更好的分類，如圖4。此外，他們還提出了加權(quán)損失，以提高不同區(qū)域的分類準(zhǔn)確性。

圖3 DeconvNet架構(gòu)

圖4 UNet體系結(jié)構(gòu)

SegNet 使用VGG 作為骨干編碼器，去除了全連接層，并添加了對(duì)稱解碼器結(jié)構(gòu)，通過(guò)重用最大池化索引改善邊界劃分，減少參數(shù)數(shù)量，并提高訓(xùn)練效率。在醫(yī)療應(yīng)用中，一種基于解碼器/編碼器架構(gòu)的方法在訓(xùn)練數(shù)據(jù)較少的情況下表現(xiàn)良好，通過(guò)增加和減少特征數(shù)量實(shí)現(xiàn)更好的分類，并提出了加權(quán)損失以提高不同區(qū)域的分類準(zhǔn)確性。

3.3 神經(jīng)網(wǎng)絡(luò)的條件隨機(jī)場(chǎng)

深度學(xué)習(xí)到來(lái)之前，條件隨機(jī)域（CRF）是語(yǔ)義分割中最流行的方法之一，但由于訓(xùn)練和推理速度緩慢，以及難以學(xué)習(xí)其內(nèi)部參數(shù)，CRF失去了一部分吸引力。CNN的設(shè)計(jì)預(yù)計(jì)在兩個(gè)或多個(gè)類相交的邊界區(qū)域表現(xiàn)不佳，或者可能通過(guò)多個(gè)處理階段丟失高層信息。的作者通過(guò)將最終神經(jīng)網(wǎng)絡(luò)層的響應(yīng)與完全連接的條件隨機(jī)域相結(jié)合，將這兩種方法結(jié)合起來(lái)。這項(xiàng)工作演變?yōu)镈eepLab，其中添加了一些改進(jìn)（例如，孔徑空間金字塔池化），并提出了一些變體。在之前的工作中，CRF沒(méi)有與全卷積網(wǎng)絡(luò)聯(lián)合訓(xùn)練，這可能會(huì)導(dǎo)致次優(yōu)的端到端性能。在中，作者提出將CRF表示為RNN，以獲得具有CNN和CRF理想特性的深度網(wǎng)絡(luò)。

圖5 DeepLab 體系結(jié)構(gòu)

3.4 功能融合

語(yǔ)義分割在像素級(jí)對(duì)圖像進(jìn)行分類，但現(xiàn)有技術(shù)可能導(dǎo)致細(xì)節(jié)丟失。提出通過(guò)添加全局上下文來(lái)增強(qiáng)全卷積網(wǎng)絡(luò)的性能，提出了增強(qiáng)語(yǔ)義分割網(wǎng)絡(luò)（ESSN），對(duì)每個(gè)卷積層的殘差特征圖進(jìn)行上采樣和連接，以保持網(wǎng)絡(luò)所有階段的特征（如圖6）。在下采樣階段提取特征信息，然后在上采樣部分恢復(fù)空間分辨率。在產(chǎn)生分割輸出的最終預(yù)測(cè)階段之前，對(duì)相應(yīng)的池化和解池化層的特征進(jìn)行上采樣和連接。這些方法在三個(gè)主要的語(yǔ)義分割數(shù)據(jù)集上取得了令人鼓舞的結(jié)果。

圖6 增強(qiáng)的語(yǔ)義分割網(wǎng)絡(luò)架構(gòu)

3.5 生成對(duì)抗性網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)（GAN）最初用于無(wú)監(jiān)督學(xué)習(xí)生成模型，生成與訓(xùn)練集具有相同統(tǒng)計(jì)特性的新數(shù)據(jù)，在圖像、天文圖像、3D對(duì)象重建和圖像超分辨率等多個(gè)領(lǐng)域產(chǎn)生影響。GAN應(yīng)用于語(yǔ)義分割，使用兩個(gè)網(wǎng)絡(luò)，一個(gè)分割網(wǎng)絡(luò)，一個(gè)對(duì)抗網(wǎng)絡(luò)，提高標(biāo)注精度?；贕AN的半監(jiān)督框架由一個(gè)生成器網(wǎng)絡(luò)組成，為多類分類器提供額外的訓(xùn)練樣本，如圖7，添加大量虛假視覺(jué)數(shù)據(jù)迫使真實(shí)樣本在特征空間中靠近，改善多類像素分類。GAN在醫(yī)學(xué)圖像中應(yīng)用，對(duì)抗網(wǎng)絡(luò)優(yōu)化了一個(gè)多尺度損失函數(shù)，分割網(wǎng)絡(luò)由四層卷積級(jí)組成，專為有限訓(xùn)練數(shù)據(jù)集而設(shè)計(jì)，網(wǎng)絡(luò)性能明顯優(yōu)于其他方法。

圖7 半監(jiān)督卷積 GAN 架構(gòu)（來(lái)自 [46]）

3.6 循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）

RNN已被廣泛用于順序任務(wù)，如語(yǔ)義分割。ReSeg通過(guò)轉(zhuǎn)換每個(gè)ReNet層來(lái)適應(yīng)語(yǔ)義分割任務(wù)，每個(gè)ReNet層由四個(gè)RNN組成，如圖8，它們?cè)谒胶痛怪狈较蛏蠏呙鑸D像，編碼補(bǔ)丁或激活，并提供相關(guān)的全局信息。ReNet層堆疊在預(yù)先訓(xùn)練的卷積層之上，受益于通用的局部特征。上采樣層跟隨ReNet層，在最終預(yù)測(cè)中恢復(fù)原始圖像分辨率。圖像分割的另一個(gè)有趣的應(yīng)用是視頻分割，其中連續(xù)的視頻幀被分割。一種方法是獨(dú)立分割每一幀，但由于視頻幀的高度相關(guān)性，這似乎是一種低效的方法。作者建議通過(guò)添加LSTM來(lái)整合時(shí)間信息，LSTM是一種RNN，可以在網(wǎng)絡(luò)的不同階段有效地處理長(zhǎng)時(shí)間依賴性，并且他們報(bào)告了比CNN同行顯著的性能改進(jìn)。

圖8 ReSeg網(wǎng)絡(luò)架構(gòu)（來(lái)自[49]）

3.7 全景分割

全景分割是一項(xiàng)結(jié)合語(yǔ)義分割和實(shí)例分割的任務(wù)，為所有像素分配類標(biāo)簽，并對(duì)所有對(duì)象實(shí)例進(jìn)行唯一分割，已在多個(gè)基準(zhǔn)數(shù)據(jù)集上取得最先進(jìn)的結(jié)果。

3.8 基于注意力的模型

深度學(xué)習(xí)中的注意力機(jī)制最初用于機(jī)器翻譯，通過(guò)自動(dòng)搜索源句中與目標(biāo)詞相關(guān)的部分，以有效捕獲長(zhǎng)距離依賴關(guān)系。在語(yǔ)義分割中，注意力機(jī)制通過(guò)整合多尺度特征到全卷積網(wǎng)絡(luò)，學(xué)習(xí)在每個(gè)像素位置對(duì)多尺度特征進(jìn)行軟加權(quán)，如圖9所示，以提高分割準(zhǔn)確性。此外，特征金字塔注意力模塊被引入以解決全卷積網(wǎng)絡(luò)的空間分辨率損失問(wèn)題，提高較小對(duì)象的分類性能。注意力輔助的語(yǔ)義分割網(wǎng)絡(luò)已被廣泛應(yīng)用于各種應(yīng)用中。

圖9 尺度感知語(yǔ)義圖像分割架構(gòu)

4 用于語(yǔ)義圖像分割的實(shí)時(shí)深度學(xué)習(xí)架構(gòu)

深度學(xué)習(xí)的語(yǔ)義分割準(zhǔn)確率顯著提高，例如在Cityscapes數(shù)據(jù)集中實(shí)現(xiàn)了65%的mIoU，在PASCAL VOC 2012數(shù)據(jù)集中實(shí)現(xiàn)了67%的mIoU。最近的架構(gòu)如HRNet和[65]的方法在Cityscapes數(shù)據(jù)集和PASCAL VOC 2012數(shù)據(jù)集中分別實(shí)現(xiàn)了>85%和>90%的mIoU。在自動(dòng)駕駛汽車和移動(dòng)設(shè)備分段等領(lǐng)域，計(jì)算效率至關(guān)重要，設(shè)計(jì)實(shí)時(shí)系統(tǒng)時(shí)需要考慮計(jì)算/內(nèi)存成本和推理時(shí)間。

4.1 快速傅里葉變換（FFT）

卷積定理指出，兩個(gè)信號(hào)的卷積的傅里葉變換是它們傅里葉變換的逐點(diǎn)積。中的作者利用這一事實(shí)改進(jìn)卷積網(wǎng)絡(luò)的訓(xùn)練和推理時(shí)間。直接卷積復(fù)雜度為O(n 2 ?k 2 )，但基于FFT的方法可將復(fù)雜度降低到O(n 2 log n)?；贔FT開(kāi)發(fā)了訓(xùn)練和推理算法，降低了計(jì)算和存儲(chǔ)的漸近復(fù)雜度，所需ASIC內(nèi)核數(shù)量減少1000倍，推理速度提高10倍，精度略有降低。

4.2 修剪

神經(jīng)網(wǎng)絡(luò)可以通過(guò)修剪冗余權(quán)重來(lái)減少存儲(chǔ)和內(nèi)存需求，如三步法：訓(xùn)練網(wǎng)絡(luò)識(shí)別重要連接，修剪不重要連接，重新訓(xùn)練網(wǎng)絡(luò)微調(diào)剩余連接權(quán)重。連接數(shù)量可減少9-13倍，性能幾乎不變。中側(cè)重于語(yǔ)義分割網(wǎng)絡(luò)的通道修剪，通過(guò)基于分類和分割任務(wù)修剪卷積濾波器，將操作數(shù)量減少50%，僅損失1%的mIoU。網(wǎng)絡(luò)修剪可提高卷積神經(jīng)網(wǎng)絡(luò)和語(yǔ)義分割性能。

4.3 量化

為提高網(wǎng)絡(luò)效率，可減少表示權(quán)重所需的比特?cái)?shù)，如從32位減少到5位，并通過(guò)共享權(quán)重限制有效權(quán)重?cái)?shù)量。在Bi-Real Net中，作者研究了1位卷積神經(jīng)網(wǎng)絡(luò)的增強(qiáng)，通過(guò)在二進(jìn)制激活之前采用批歸一化層的實(shí)值輸出并將其連接到下一塊的實(shí)值激活來(lái)提高性能。因此，所提出的模型的表征能力遠(yuǎn)高于原始的1位CNN，且計(jì)算成本可以忽略不計(jì)。

4.4 深度可分離卷積

前兩種方法通過(guò)修剪和壓縮減小網(wǎng)絡(luò)規(guī)模，Sifre提出了深度可分離卷積，提高了二維卷積的計(jì)算效率，被Xception和MobileNets采用，提高了相對(duì)架構(gòu)的效率。常規(guī)卷積的計(jì)算復(fù)雜度取決于輸入/輸出特征圖、輸入通道數(shù)、輸出通道數(shù)和內(nèi)核空間維度。深度可分離卷積將濾波器的卷積分解為兩部分，第一部分需要D2×K2×M，第二部分需要D2×M×N。計(jì)算改進(jìn)的階數(shù)為max（O（N），O（D2）），在濾波器大小或深度增加時(shí)尤為明顯。

4.5 膨脹卷積

作者引入了膨脹卷積，通過(guò)在卷積核中插入零來(lái)擴(kuò)展有效感受野。如圖10所示，膨脹率越高，覆蓋范圍越大。在語(yǔ)義分割任務(wù)中，膨脹卷積可以指數(shù)地?cái)U(kuò)展感受野，而不會(huì)增加計(jì)算成本。通過(guò)堆疊具有不同膨脹率的多個(gè)卷積層，可以顯著提高分割性能。

圖10 3×3膨脹卷積核的示意圖。左：膨脹率=1，中：膨脹率=2，右：膨脹率=4。

ESPNet在[80]中引入，結(jié)合膨脹卷積和深度可分離卷積，形成分解卷積的分解集，參數(shù)數(shù)量少，有效感受野大，引入新系統(tǒng)級(jí)指標(biāo)分析CNN性能。

4.6 寬度和分辨率乘數(shù)

兩種降低網(wǎng)絡(luò)復(fù)雜性的方法：寬度乘數(shù)和分辨率乘數(shù)。寬度乘數(shù)通過(guò)縮放輸入和輸出通道數(shù)量，以降低每一層的計(jì)算需求。分辨率乘數(shù)通過(guò)縮放輸入圖像尺寸，降低整體計(jì)算成本。兩種方法可以結(jié)合使用，以提高網(wǎng)絡(luò)性能。

4.7 早期采樣

提出了一種基于實(shí)驗(yàn)結(jié)果和直覺(jué)的設(shè)計(jì)選擇，包括早期降采樣、低特征數(shù)量、濾波器感受野和稀疏上采樣圖，以提高分類和分割任務(wù)的性能。

4.8 更小的解碼器尺寸

討論了語(yǔ)義分割網(wǎng)絡(luò)中編碼器和解碼器的非對(duì)稱設(shè)計(jì)。編碼器需要深度以捕獲特征，而解碼器僅需要上采樣，因此可以使用較淺的架構(gòu)以節(jié)省計(jì)算資源。

4.9 有效減小網(wǎng)格尺寸

發(fā)現(xiàn)池化操作可能導(dǎo)致表征瓶頸，通過(guò)增加通道數(shù)量補(bǔ)償，但增加了計(jì)算成本。顛倒卷積/池化順序無(wú)助于表征瓶頸。作者建議并行執(zhí)行池化操作和步幅為2的卷積，將濾波器庫(kù)連接，使初始?jí)K推理時(shí)間加快10倍。

4.10 刪除偏差項(xiàng)

偏置項(xiàng)對(duì)語(yǔ)義分割網(wǎng)絡(luò)的總體性能沒(méi)有顯著影響，通常會(huì)被丟棄。

4.11 使用小內(nèi)核堆疊多層

計(jì)算成本隨內(nèi)核大小增加，[29]中認(rèn)為多個(gè)小內(nèi)核優(yōu)于單個(gè)大內(nèi)核，原因有二：（a）堆疊三個(gè)3×3卷積層對(duì)應(yīng)7×7層，參數(shù)減少一半，（b）合并三個(gè)非線性整流層，使決策函數(shù)更具辨別力。

4.12 通道洗牌操作

分組卷積首次用于多GPU模型，通過(guò)并行使用多個(gè)卷積提高分類任務(wù)準(zhǔn)確性。然而，在小網(wǎng)絡(luò)中效率較低，瓶頸是密集1×1卷積。通道洗牌操作（如圖11）可克服此問(wèn)題，通過(guò)重塑、轉(zhuǎn)置和平坦化輸出通道，減少操作數(shù)量至組的倍數(shù)。

圖11 通道洗牌體系結(jié)構(gòu)

4.13 兩個(gè)分支網(wǎng)絡(luò)

通過(guò)降采樣原始圖像，可以顯著提高語(yǔ)義分割架構(gòu)的推理速度，但會(huì)導(dǎo)致空間細(xì)節(jié)的損失。為解決此問(wèn)題，兩個(gè)分支網(wǎng)絡(luò)分別使用全分辨率圖像和降采樣圖像，共享層以提高計(jì)算效率。BiSeNet-V2在保持最佳mIoU性能的同時(shí)，實(shí)現(xiàn)了最高的推理速度。

4.14 其他設(shè)計(jì)選擇

除了計(jì)算效率高的方法，還有批歸一化、激活函數(shù)選擇和正則化等設(shè)計(jì)選擇，有助于保持良好性能。批歸一化可加速訓(xùn)練過(guò)程；ReLU和PReLU是非線性函數(shù)，常用于該領(lǐng)域；正則化可防止過(guò)擬合。

5 語(yǔ)義分割數(shù)據(jù)集

表1總結(jié)了用于語(yǔ)義分割的多個(gè)數(shù)據(jù)集，包括用于分類任務(wù)和特定應(yīng)用的圖像集，涵蓋了廣泛的場(chǎng)景和對(duì)象類別，并進(jìn)行了像素級(jí)注釋。

表1 語(yǔ)義分割數(shù)據(jù)集匯總

5.1 上下文中的常見(jiàn)對(duì)象(COCO)

COCO是一個(gè)大規(guī)模的對(duì)象檢測(cè)、分割和字幕數(shù)據(jù)集，包含33萬(wàn)張圖像，一半被標(biāo)記。它包括80個(gè)對(duì)象類別，91個(gè)東西類，150萬(wàn)個(gè)對(duì)象實(shí)例，是圖像分割任務(wù)中最具挑戰(zhàn)性的數(shù)據(jù)集之一。COCO-Stuff 為COCO 2017數(shù)據(jù)集的所有圖像增加了91個(gè)類別的像素級(jí)注釋，完成了更復(fù)雜的任務(wù)，如語(yǔ)義分割。

5.2 PASCAL 視覺(jué)對(duì)象類 (VOC)

PASCAL VOC圖像集廣泛用于分類、檢測(cè)、分割、動(dòng)作分類和人員布局。訓(xùn)練集和驗(yàn)證集分別包含1464張和1449張圖像，測(cè)試集用于評(píng)估。數(shù)據(jù)集包含20個(gè)類別的日常物體，包括飛機(jī)、自行車、鳥(niǎo)、船等。PASCAL Context和PASCAL Part是PASCAL VOC的擴(kuò)展，分別對(duì)同一圖像進(jìn)行500多個(gè)類別的注釋和對(duì)象分解為幾個(gè)部分并對(duì)其進(jìn)行注釋。另外兩個(gè)擴(kuò)展是語(yǔ)義邊界數(shù)據(jù)集（SBD）和PASCAL語(yǔ)義部分（PASParts）。

5.3 ADE20K

ADE20K數(shù)據(jù)集由麻省理工學(xué)院計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室開(kāi)發(fā)，包含25K張圖像，具有密集的注釋圖像和近2700個(gè)類。圖像被手動(dòng)詳細(xì)分割，涵蓋了各種場(chǎng)景、對(duì)象和對(duì)象部分類別。注釋細(xì)節(jié)如圖12，每個(gè)圖像平均有19.5個(gè)實(shí)例和10.5個(gè)對(duì)象類。

圖12 ADE20K訓(xùn)練圖像

他們的場(chǎng)景解析基準(zhǔn)選擇了前150個(gè)類別，使用像素精度、平均精度、平均IoU和加權(quán)IoU作為指標(biāo)。訓(xùn)練集使用了2萬(wàn)多張圖像，驗(yàn)證集使用了2000張圖像，其余用于測(cè)試。數(shù)據(jù)來(lái)自50個(gè)城市的立體視頻序列和注釋，涉及30個(gè)類別。

5.4 Cityscapes

Cityscapes數(shù)據(jù)集包含25K張圖像，其中5K張具有高質(zhì)量像素級(jí)注釋，20K張具有粗略注釋，分別如圖13a和13b所示。

圖13 Cityscapes訓(xùn)練圖像

基準(zhǔn)套件包含200多個(gè)條目，用于像素級(jí)語(yǔ)義標(biāo)注任務(wù)，是最多樣化和具挑戰(zhàn)性的城市場(chǎng)景數(shù)據(jù)集，常用于性能評(píng)估。

5.5 SYNTHIA

SYNTHIA數(shù)據(jù)集是一個(gè)包含13K個(gè)城市圖像的合成圖像集合，用于自動(dòng)駕駛應(yīng)用。使用像素級(jí)注釋生成逼真的合成圖像，并在訓(xùn)練階段與公開(kāi)可用的現(xiàn)實(shí)城市圖像一起使用，以提高語(yǔ)義分割任務(wù)的性能。SYNTHIA合成圖像的一個(gè)例子見(jiàn)圖14，以及圖像生成所用的城市全景。

圖14 來(lái)自 SYNTHIA 的合成圖像示例及其語(yǔ)義標(biāo)簽和城市總體視圖。

5.6 SIFT Flow

SIFT Flow 是處理 LabelMe 圖像子集的數(shù)據(jù)集，包含2688幀準(zhǔn)確像素級(jí)注釋，主要對(duì)象類別來(lái)自室外場(chǎng)景，圖像尺寸較小（256×256像素），用于評(píng)估場(chǎng)景解析算法。

5.7 CamVid

CamVid是一個(gè)城市場(chǎng)景數(shù)據(jù)集，包含四個(gè)高清視頻序列，總時(shí)長(zhǎng)約22分鐘，約40K幀。其中701個(gè)對(duì)象被手動(dòng)標(biāo)記為32個(gè)類別。平均注釋時(shí)間不到20分鐘，需要230個(gè)人工小時(shí)。每個(gè)注釋圖像都經(jīng)過(guò)二次檢查和確認(rèn)。

5.8 KITTI

KITTI數(shù)據(jù)集在自動(dòng)駕駛研究中廣泛使用，包含相機(jī)圖像、激光掃描、GPS測(cè)量和IMU加速度等傳感器數(shù)據(jù)，收集于德國(guó)卡爾斯魯厄及其周邊地區(qū)。該數(shù)據(jù)集包含200多張完全注釋的圖像，語(yǔ)義分割基準(zhǔn)包含14個(gè)條目，評(píng)估指標(biāo)包括運(yùn)行時(shí)間和環(huán)境信息。

6 指標(biāo)

在本節(jié)中，我們將總結(jié)用于評(píng)估不同語(yǔ)義分割方法的基本指標(biāo)。它們要么關(guān)注分割輸出的準(zhǔn)確性（即它與真實(shí)情況的接近程度），要么關(guān)注方法的效率（即推理時(shí)間和內(nèi)存使用）。

6.1 混淆矩陣

在總共有 C 個(gè)類的分割任務(wù)中，混淆矩陣是一個(gè) C × C 表，其中位置 (i, j) 中的元素表示應(yīng)該屬于類 i 但被分類為屬于的像素?cái)?shù) j 類。一個(gè)好的模型會(huì)產(chǎn)生一個(gè)混淆矩陣，其對(duì)角線元素（即正確分類的像素）具有高計(jì)數(shù)。

6.2 歸一化混淆矩陣

它源自混淆矩陣，但每個(gè)條目都通過(guò)將其除以預(yù)測(cè)類 j 的總數(shù)來(lái)標(biāo)準(zhǔn)化。這樣所有條目都在 [0, 1] 范圍內(nèi)。

6.3 準(zhǔn)確度

準(zhǔn)確率或全局準(zhǔn)確率是正確分類的像素占總像素的比率。它可以通過(guò)將對(duì)角線元素之和除以圖像中的總像素來(lái)從混淆矩陣導(dǎo)出。準(zhǔn)確性可能會(huì)產(chǎn)生誤導(dǎo)，特別是當(dāng)所考慮的類別不平衡時(shí)。例如，如果 95% 的像素屬于一類（通常是背景），則始終預(yù)測(cè)此類的簡(jiǎn)單模型將獲得 95% 的準(zhǔn)確率，這絕對(duì)無(wú)法捕獲分割任務(wù)的依賴性。

6.4 平均準(zhǔn)確度

它被定義為每個(gè)類別中正確分類的像素與所有類別的平均總像素的比率。

6.5 并集的平均交集

并集平均交集 (mIoU) 是一個(gè)解決準(zhǔn)確性指標(biāo)的類不平衡弱點(diǎn)的指標(biāo)。特別是，它將模型的逐像素分類輸出與真實(shí)情況進(jìn)行比較，并找到它們的交集和并集（即，有多少像素被正確分類為所有類別 i 的類別 i，以及有多少像素被分類為類別 i）?；蛘邔?duì)于所有類 i) 都注釋為類 i。交集與并集的比率（所有類的總和）是 mIoU 或 Jaccard 指數(shù)。它對(duì)類別不平衡具有魯棒性，并且可以說(shuō)是評(píng)估語(yǔ)義分割任務(wù)時(shí)最流行的指標(biāo)。

6.6 并集上的加權(quán)交集

這是之前指標(biāo)的一個(gè)小變化，用于說(shuō)明每個(gè)類別的像素?cái)?shù)量。它計(jì)算每個(gè)類的 IoU 的加權(quán)平均值，并按類中的像素?cái)?shù)進(jìn)行加權(quán)。

6.7 精度

第 i 類的精度定義為分類為 i 的像素中被正確分類的比例。可以為多個(gè)類別相應(yīng)地定義平均精度度量。

6.8 召回

第 i 類的召回率定義為第 i 類的實(shí)際像素中被正確分類的比例。類似地，可以為多個(gè)類別相應(yīng)地定義平均召回度量。

6.9 F1 分?jǐn)?shù)

F1-score 通過(guò)計(jì)算調(diào)和平均值來(lái)聚合精確度/召回率指標(biāo)。它結(jié)合了兩者的功能并提供兩種類型錯(cuò)誤的信息。

6.10 每秒幀數(shù)

以前的所有指標(biāo)都衡量模型輸出的準(zhǔn)確性，但沒(méi)有捕獲方法的效率。要捕獲的一個(gè)重要指標(biāo)是網(wǎng)絡(luò)的推理速度，即以每秒幀數(shù) (fps) 為單位測(cè)量的執(zhí)行時(shí)間。它是在經(jīng)過(guò)充分訓(xùn)練的網(wǎng)絡(luò)上運(yùn)行新圖像推理的時(shí)間的倒數(shù)。在大多數(shù)實(shí)時(shí)應(yīng)用中，需要 30 或更高的 fps，通常要優(yōu)于典型的視頻幀速率。

6.11 內(nèi)存使用

內(nèi)存使用量是網(wǎng)絡(luò)大小的衡量標(biāo)準(zhǔn)。它可以通過(guò)參數(shù)數(shù)量（對(duì)于深度神經(jīng)網(wǎng)絡(luò)方法）、表示網(wǎng)絡(luò)的內(nèi)存大小或運(yùn)行模型所需的浮點(diǎn)運(yùn)算 (FLOP) 數(shù)量來(lái)衡量。

7 性能總結(jié)

本節(jié)匯總了Cityscapes數(shù)據(jù)集上語(yǔ)義分割性能最佳的十個(gè)模型，并簡(jiǎn)要總結(jié)了實(shí)現(xiàn)這些結(jié)果的方法。盡管匿名提交的內(nèi)容在基準(zhǔn)評(píng)估中占據(jù)了一些表現(xiàn)最好的位置，但并未包含在本部分中。從表2可以看出，大多數(shù)參賽作品都是在過(guò)去幾個(gè)月內(nèi)發(fā)布的，競(jìng)爭(zhēng)非常激烈，進(jìn)展也非常快。

表2 Cityscapes像素級(jí)語(yǔ)義標(biāo)簽任務(wù)表現(xiàn)最佳的模型

表3對(duì)實(shí)時(shí)語(yǔ)義分割工作進(jìn)行了排名，其中性能指標(biāo)是推理速度（即每秒幀數(shù) (FPS)）。前十名中有三個(gè)由一篇論文占據(jù)，證明了性能/效率的權(quán)衡。然而，實(shí)時(shí)語(yǔ)義分割已成為現(xiàn)實(shí)，多種架構(gòu)的精度接近最先進(jìn)的語(yǔ)義分割模型。

表3 Cityscapes像素級(jí)語(yǔ)義標(biāo)簽任務(wù)表現(xiàn)最佳的實(shí)時(shí)模型

參考資料：《 A SURVEY ON DEEP LEARNING METHODS FOR SEMANTIC IMAGE SEGMENTATION IN REAL-TIME》

文章轉(zhuǎn)自微信公眾號(hào)@算法進(jìn)階

機(jī)器學(xué)習(xí)最全知識(shí)點(diǎn)（萬(wàn)字長(zhǎng)文匯總）

從 0 實(shí)現(xiàn)多分類SVM（Python）

#你可能也喜歡這些API文章!

使用這些基本 REST API 最佳實(shí)踐構(gòu)建出色的 API

如何使用API：初學(xué)者的分步教程

使用NestJS和Prisma構(gòu)建REST API：身份驗(yàn)證

我們有何不同？

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型，提升決策效率

查看全部API→

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道

一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道