圖 1 提供了我們將在本文中討論的三種弱監(jiān)督類型的示例。

圖 1:三種典型的弱監(jiān)督類型的示例。長條表示特征向量;紅色/藍(lán)色標(biāo)記標(biāo)簽;「?」意味著標(biāo)簽可能不準(zhǔn)確。中間子圖描繪了一些混合類型弱監(jiān)督的情況。

不完全監(jiān)督

能夠?qū)崿F(xiàn)此目標(biāo)的主要兩類技巧,即,主動(dòng)學(xué)習(xí) [2] 和半監(jiān)督學(xué)習(xí) [3-5]。

主動(dòng)學(xué)習(xí)假設(shè)存在一個(gè)「神諭」(oracle),比如一位人類專家,能夠向他查詢選定的未標(biāo)注示例的真值標(biāo)簽。

相比之下,半監(jiān)督式學(xué)習(xí)試圖在有標(biāo)注數(shù)據(jù)之外,自動(dòng)開發(fā)無標(biāo)注數(shù)據(jù)以提高學(xué)習(xí)效果,這個(gè)過程不需要人工干預(yù)。存在一種特殊的半監(jiān)督學(xué)習(xí),稱為直推式學(xué)習(xí)(transductive learning);直推式學(xué)習(xí)和(純)半監(jiān)督學(xué)習(xí)的主要區(qū)別在于,它們對測試數(shù)據(jù),即訓(xùn)練過的模型需要進(jìn)行預(yù)測的數(shù)據(jù),假設(shè)有所不同。直推式學(xué)習(xí)持有「封閉世界」假設(shè),即,測試數(shù)據(jù)是事先給出的、目標(biāo)是優(yōu)化測試數(shù)據(jù)的性能;換言之,未標(biāo)注數(shù)據(jù)正是測試數(shù)據(jù)。純半監(jiān)督式學(xué)習(xí)則持有「開放世界」假設(shè),即,測試數(shù)據(jù)是未知的,未標(biāo)注數(shù)據(jù)不一定是測試數(shù)據(jù)。圖 2 直觀地表示了主動(dòng)學(xué)習(xí)、(純)半監(jiān)督學(xué)習(xí)和直推式學(xué)習(xí)之間的差異。

圖 2:主動(dòng)學(xué)習(xí)、(純)半監(jiān)督學(xué)習(xí)和直推式學(xué)習(xí)

不確切監(jiān)督

不確切監(jiān)督關(guān)注于給定了監(jiān)督信息,但信息不夠精確的場景。一個(gè)典型的場景是僅有粗粒度的標(biāo)簽信息可用。例如,在藥物活性預(yù)測 [40] 的問題中,其目標(biāo)是建立一個(gè)模型學(xué)習(xí)已知分子的知識,來預(yù)測一個(gè)新的分子是否適合制造一種特定藥物。一個(gè)分子可以有很多的低能量形狀,而這些分子是否能用于制藥取決于這些分子是否具有某些特殊的形狀。然而即使對于已知的分子,人類專家也僅知道該分子是否適合制藥,而不知道其中決定性的分子形狀是什么。

已經(jīng)有許多有效的算法被開發(fā)出來并應(yīng)用于多示例學(xué)習(xí)。實(shí)際上,幾乎所有的有監(jiān)督學(xué)習(xí)算法都有對等的多示例算法。大多數(shù)算法試圖調(diào)整單示例監(jiān)督學(xué)習(xí)算法,使其適配多示例表示,主要是將其關(guān)注點(diǎn)從對示例的識別轉(zhuǎn)移到對包的識別 [42];一些其他算法試圖通過表示變換,調(diào)整多示例表示使其適配單示例算法 [43,44]。還有一種類型 [45],將算法分為三類:一個(gè)整合了示例級響應(yīng)的示例空間范式,一個(gè)把 包 視作一個(gè)整體的 包 空間范式,以及一個(gè)在嵌入特征空間中進(jìn)行學(xué)習(xí)的嵌入空間范式中。請注意,這些示例通常被視為 i.i.d. 樣本,然而,[46] 表明,多示例學(xué)習(xí)中的示例不應(yīng)該被認(rèn)為是獨(dú)立的,盡管這些包可以被視為 i.i.d. 樣本,并且已經(jīng)有一些有效的算法是基于此見解進(jìn)行開發(fā)的 [47]。

多示例學(xué)習(xí)已成功應(yīng)用于各種任務(wù),如圖像分類/檢索/注釋 [48-50],文本分類 [51,52],垃圾郵件檢測 [53],醫(yī)學(xué)診斷 [54],面部/對象檢測 [55,56],對象類別發(fā)現(xiàn) [57],對象跟蹤 [58] 等。在這些任務(wù)中,將真實(shí)對象(例如一幅圖像或一個(gè)文本文檔)視為一個(gè)包是很自然的。然而,不同于藥物活性預(yù)測這類包中包含天然示例(分子的各種形狀)的例子,需要為每個(gè)包生成示例。包生成器制定如何生成示例來構(gòu)成包。通常情況下,可以從圖像中提取許多小的圖像塊作為其示例,而章節(jié)/段落甚至句子可以用作文本文檔的示例。盡管包生成器對學(xué)習(xí)效果有重要影響,但最近才出現(xiàn)關(guān)于圖像包生成器的全面研究 [59],研究揭示了一些簡單的密集取樣包生成器比一些復(fù)雜的生成器性能更好。圖 5 顯示了兩個(gè)簡單而有效的圖像包生成器。

 圖 5 圖像包生成器。假設(shè)每張圖像的大小為 8×8,每個(gè)小塊的大小為 2×2。單小塊(SB)生成器將每個(gè)由 4 個(gè)小塊組成的圖像塊視為一個(gè)示例,通過不重疊地滑動(dòng)為每張圖像生成 16 個(gè)圖像示例。有鄰近的單小塊生成器(SBN)將由 20 個(gè)小塊組成的圖像塊作為一個(gè)示例,通過有重疊地滑動(dòng)來為圖像生成 9 個(gè)示例。

多示例學(xué)習(xí)的初始目標(biāo)是為未見過的包預(yù)測標(biāo)簽;然而,已有研究嘗試識別那些之所以讓正包變正的關(guān)鍵示例(key instance)[31,60]。這在諸如沒有細(xì)粒度標(biāo)記訓(xùn)練數(shù)據(jù)的感興趣區(qū)域定位的任務(wù)中特別有用。值得注意的是,標(biāo)準(zhǔn)的多示例學(xué)習(xí) [40] 假定每一個(gè)正包必須包含一個(gè)關(guān)鍵示例,而還有其它研究假定不存在關(guān)鍵示例,每一個(gè)示例都對包標(biāo)簽有貢獻(xiàn) [61,62];甚至假定存在多個(gè)概念,而僅當(dāng)一個(gè)包包含滿足所有概念的示例時(shí),該包才是正的 [63]??梢栽谖墨I(xiàn) [41] 中找到更多的變體。

早期的理論結(jié)果 [64-66] 表明多示例學(xué)習(xí)對于包中每個(gè)示例都由不同的規(guī)則分類的異質(zhì)(heterogeneous)案例來說,是很難的,對于以相同的規(guī)則分類所有示例的同質(zhì)性(homogeneous)案例就是可學(xué)習(xí)的。幸運(yùn)的是,幾乎所有的實(shí)際多示例任務(wù)都屬于同質(zhì)性案例。這些分析假定 bag 中的示例是獨(dú)立的。而不假定示例的獨(dú)立性的分析更具挑戰(zhàn)性,這類研究也出現(xiàn)得較晚,其揭示了在同質(zhì)性類中,至少存在某些可以用包間的任意分布來學(xué)習(xí)的案例 [67]。盡管如此,與其在算法和應(yīng)用上的繁榮發(fā)展相反,多示例學(xué)習(xí)的理論研究成果非常少,因?yàn)榉治龅碾y度太大。

某些在包中任意分布的示例是可學(xué)習(xí)的 [67]。盡管如此,與在算法和應(yīng)用上的繁榮發(fā)展相反,多示例學(xué)習(xí)的理論研究成果非常少,因?yàn)榉治龅碾y度太大。

不準(zhǔn)確監(jiān)督

不準(zhǔn)確監(jiān)督關(guān)注于監(jiān)督信息不總是真值的場景,也就是說,有部分信息會出現(xiàn)錯(cuò)誤。其形式基本和引言最后部分的表示相同,除了訓(xùn)練數(shù)據(jù)集中的 y_i 可能是不準(zhǔn)確的。

一個(gè)典型的場景是在有標(biāo)簽噪聲的情況下進(jìn)行學(xué)習(xí) [68]。目前已有很多理論研究 [69-71],其中大多數(shù)假定存在隨機(jī)的分類噪聲,即標(biāo)簽受隨機(jī)噪聲影響。在實(shí)踐中,基本的思想是識別潛在的誤分類樣本 [72],然后嘗試進(jìn)行修正。例如,數(shù)據(jù)編輯(data-editing)方法 [73] 構(gòu)建了相對鄰域圖(relative neighborhood graph),其中每一個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)訓(xùn)練樣本,而連接兩個(gè)不同標(biāo)簽的節(jié)點(diǎn)的邊被稱為切邊(cut edge)。然后,測量 一個(gè)切邊的權(quán)重統(tǒng)計(jì)量,直覺上,如果一個(gè)示例連接了太多的切邊,則該示例是可疑的??梢傻氖纠幢粍h除,要么被重新標(biāo)記,如圖 6 所示。值得注意的是,這種方法通常依賴于咨詢鄰域信息;由于當(dāng)數(shù)據(jù)很稀疏時(shí),鄰域識別將變得更不可靠,因此,在高維特征空間中該方法的可靠性將變?nèi)酢?/p>

圖 6:識別和刪除/重標(biāo)記可疑的數(shù)據(jù)點(diǎn)

近期出現(xiàn)的有趣的不準(zhǔn)確監(jiān)督的場景是眾包模式 [74],這是一種流行的將工作外包給個(gè)人的范式。對于機(jī)器學(xué)習(xí)來說,用眾包模式為訓(xùn)練數(shù)據(jù)收集標(biāo)簽是一種經(jīng)濟(jì)的方式。具體來說,未標(biāo)記的數(shù)據(jù)被外包給大量的工人來標(biāo)記。在著名的眾包系統(tǒng) Amazon Mechanical Turk 上,用戶可以提交一項(xiàng)任務(wù),例如將圖片標(biāo)注為「樹」或「非樹」,然后職工完成工作以獲取少量報(bào)酬。通常這些工人來自世界各地,每個(gè)人都可以執(zhí)行多個(gè)任務(wù)。這些職工通?;ハ嗒?dú)立,報(bào)酬不高,并通過自己的判斷標(biāo)記數(shù)據(jù)。這些職工的標(biāo)記質(zhì)量參差不齊,但標(biāo)記質(zhì)量信息對于用戶來說是不可見的,因?yàn)楣と说纳矸菔潜C艿摹T谶@些職工中可能存在「垃圾制造者」,幾乎用隨機(jī)的標(biāo)簽來標(biāo)記數(shù)據(jù)(例如,用機(jī)器替代人類賺取報(bào)酬),或「反抗者」,故意給出錯(cuò)誤的標(biāo)簽。此外,某些任務(wù)可能對一些人來說太難而無法完成。使用眾包返回的不準(zhǔn)確監(jiān)督信息來保證學(xué)習(xí)性能是非常困難的。

很多研究嘗試用眾包標(biāo)簽推斷真值標(biāo)簽。多數(shù)人投票策略得到了集成方法 [35] 的理論支持,在實(shí)踐中得到了廣泛使用并有很好的表現(xiàn) [75,76],因此通常作為基線標(biāo)準(zhǔn)。如果預(yù)期可以對工人質(zhì)量和任務(wù)難度建模,那么通過為不同的工人在不同的任務(wù)上設(shè)置權(quán)重,則可以獲得更好的效果。為此,一些方法嘗試構(gòu)建概率模型然后使用 EM 算法進(jìn)行評估 [77,78]。人們也使用了極小極大熵方法 [35]。概率模型可以用于移除垃圾制造者 [79]。近期人們給出了移除低質(zhì)量工人的一般理論條件 [80]。

機(jī)器學(xué)習(xí)中,眾包通常用于收集標(biāo)簽,在實(shí)踐中,模型的最終性能,而不是這些標(biāo)簽的質(zhì)量,才是更重要的。目前已有很多關(guān)于從低能老師和眾包標(biāo)簽學(xué)習(xí)的研究 [81,82],這和用帶噪聲標(biāo)簽學(xué)習(xí)是很接近的。但其中的區(qū)別在于,對于眾包設(shè)定而言,人們可以方便地、重復(fù)地對某個(gè)示例提取眾包標(biāo)簽。因此,在眾包數(shù)據(jù)學(xué)習(xí)中,考慮經(jīng)濟(jì)性和最小化眾包標(biāo)簽的充分?jǐn)?shù)量是很重要的,即有效眾包學(xué)習(xí)的最小代價(jià) [83]。很多研究專注于任務(wù)分配和預(yù)算分配,嘗試在準(zhǔn)確率和標(biāo)注開銷之間取得平衡。為此,非適應(yīng)性的任務(wù)分配機(jī)制(離線分配任務(wù) [84,85])和適應(yīng)性機(jī)制(在線分配任務(wù) [86,87])都得到了在理論支持下的研究。需要注意的是,多數(shù)研究采用了 Dawid–Skene 模型 [88],其假設(shè)不同任務(wù)的潛在成本是相同的,而沒有探索更復(fù)雜的成本設(shè)置。

設(shè)計(jì)一個(gè)有效的眾包協(xié)議也是很重要的。在文獻(xiàn) [89] 中提供了「不確定」選項(xiàng),從而使工人在不確定的時(shí)候不被迫使給出確定的標(biāo)簽。該選項(xiàng)可以幫助標(biāo)記的可靠性獲得有理論支持 [90] 的提升。在文獻(xiàn) [91] 中提出了一種「double or nothing」的激勵(lì)兼容機(jī)制,以確保工人能提供基于其自己的信心的標(biāo)注,誠實(shí)地工作。在假定每位工人都希望最大化他們的報(bào)酬的前提下,該協(xié)議被證實(shí)可以避免垃圾制造者的出現(xiàn)。

結(jié)論

監(jiān)督學(xué)習(xí)技術(shù)在具備強(qiáng)監(jiān)督信息(如大量具備真值標(biāo)簽的訓(xùn)練樣本)的情況中取得了很大成功。然而,在實(shí)際任務(wù)中,收集監(jiān)督信息需要大量成本,因此,使用弱監(jiān)督學(xué)習(xí)通常是更好的方式。

本文主要介紹三種典型的弱監(jiān)督:不完全、不確切和不準(zhǔn)確監(jiān)督。盡管三者可以分開討論,但是實(shí)踐中它們通常同時(shí)出現(xiàn),如圖 1 所示,以往研究中也討論過此類「混合」案例 [52,92,93]。此外,還存在其他類型的弱監(jiān)督。例如,主要通過強(qiáng)化學(xué)習(xí)方法解決 [94] 的延時(shí)監(jiān)督也屬于弱監(jiān)督。由于篇幅限制,本文實(shí)際上扮演了更多文獻(xiàn)索引而非文獻(xiàn)綜述的角色。對細(xì)節(jié)感興趣的讀者請閱讀對應(yīng)參考文獻(xiàn)。近期越來越多的研究者關(guān)注弱監(jiān)督學(xué)習(xí),如部分監(jiān)督學(xué)習(xí)主要關(guān)注不完全監(jiān)督學(xué)習(xí) [95],同時(shí)也有很多關(guān)于弱監(jiān)督的其他討論 [96,97]。

為了簡化討論,本文主要關(guān)注二分類,盡管大部分討論經(jīng)過稍微改動(dòng)就可以擴(kuò)展到多類別或回歸學(xué)習(xí)。注意,多類別任務(wù)中可能會出現(xiàn)更復(fù)雜的情景 [98]。如果考慮到多標(biāo)簽學(xué)習(xí) [99],即每個(gè)樣本同時(shí)關(guān)聯(lián)到多個(gè)標(biāo)簽的任務(wù),則情況更加復(fù)雜。以不完全監(jiān)督為例,除了標(biāo)注/非標(biāo)注示例以外,多標(biāo)簽任務(wù)可能遇到部分標(biāo)注示例,即訓(xùn)練示例中,只有部分標(biāo)簽是真值 [100]。即使只考慮標(biāo)注/未標(biāo)注數(shù)據(jù),其設(shè)計(jì)選項(xiàng)也比單標(biāo)簽設(shè)置多。如對于積極學(xué)習(xí)而言,給出一個(gè)非標(biāo)注示例,在多標(biāo)簽任務(wù)中可以要求給出該示例的所有標(biāo)簽 [101]、特定標(biāo)簽 [102],或一對標(biāo)簽的相關(guān)性排序 [103]。然而,不管是哪種數(shù)據(jù)和任務(wù),弱監(jiān)督學(xué)習(xí)都變得越來越重要。

原文出至:《國家科學(xué)評論》(National Science Review, NSR),原標(biāo)題為「A brief introduction to weakly supervised learning」?!秶铱茖W(xué)評論》是科學(xué)出版社旗下期刊,與牛津大學(xué)出版社聯(lián)合出版。

文章轉(zhuǎn)自微信公眾號@算法進(jìn)階

上一篇:

因果機(jī)器學(xué)習(xí)的前沿進(jìn)展綜述

下一篇:

機(jī)器學(xué)習(xí)模型可解釋性的綜述
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)