圖1 以數(shù)據(jù)為中心的圖學(xué)習(xí)流程

本文貢獻如下:

1  預(yù)處理階段

在本節(jié)中,我們將討論圖數(shù)據(jù)預(yù)處理階段以數(shù)據(jù)為中心的方法。具體來說,我們將現(xiàn)有方法分為兩類:基于修改和基于分布的方法。第一類旨在通過修改圖數(shù)據(jù)實例來提高圖模型的性能。第二類側(cè)重于幫助圖模型捕獲數(shù)據(jù)集的分布,同時保持圖實例不變。此外,我們還考慮不同的數(shù)據(jù)結(jié)構(gòu),包括拓撲、特征和標(biāo)簽。相關(guān)方法如表1所示。表1 以數(shù)據(jù)為中心的圖學(xué)習(xí)的分類和代表作

1.1? 圖形簡化 (Graph Reduction)

隨著圖規(guī)模的增加,時間和空間的計算消耗也會增加。因此,在不丟失太多有用信息的情況下,減少圖的節(jié)點或邊是一個很有價值的問題。圖形簡化可以加速模型訓(xùn)練并減少過擬合,并允許模型在更簡單的硬件條件下進行訓(xùn)練。圖形簡化可以分為兩類:邊簡化(Edge reduction)和節(jié)點簡化(Node reduction)。邊簡化指的是圖稀疏化,而節(jié)點簡化包括圖簡化(Graph coarsening)和圖凝結(jié)(Graph condensation)。

1.2  圖形增強 (Graph Augmentation)

數(shù)據(jù)增強在深度學(xué)習(xí)中被認為是非常重要的。由于圖數(shù)據(jù)的稀缺性和稀疏性相當(dāng)嚴重,因此好的增強方法的重要性更加明顯。與其他數(shù)據(jù)形式相比,圖形增強直接操作圖結(jié)構(gòu),是圖數(shù)據(jù)增強中最具特色的類型。

1.3  特征增強 (Feature Augmentation)

特征增強通過修改或創(chuàng)建節(jié)點特征來提高模型性能,防止過擬合。對于已有特征的圖,可進行特征損壞、洗牌、遮蔽、添加、重寫、傳播、混合等操作。對于無特征的節(jié)點,可通過deepwalk、node2vec、SDNE等方法生成特征。非標(biāo)記圖中,可通過GREET等方法進行無監(jiān)督學(xué)習(xí)實現(xiàn)特征增強。特征增強方法多樣,可針對具體問題進行定制。

1.4  位置編碼 (Position Encoding)

消息傳遞神經(jīng)網(wǎng)絡(luò)(MPNN)受限于1-Weisfeiler-Lehman(WL)測試,無法區(qū)分同構(gòu)圖。為解決此問題,通過添加位置信息增強節(jié)點特征,稱為位置編碼,包括絕對位置編碼(APE)和相對位置編碼(RPE)。APE為每個節(jié)點分配一個位置表示,廣泛使用的方法是圖形拉普拉斯的固有向量。RPE編碼兩個節(jié)點之間的相對信息,分為一維相對位置編碼(1D-RPE)和二維相對位置編碼(2D-RPE)。1D-RPE將錨點與目標(biāo)節(jié)點之間的距離作為位置表示,2D-RPE通常用作圖結(jié)構(gòu)的歸納偏差,廣泛應(yīng)用于圖Transformer架構(gòu)中。

1.5  標(biāo)簽混合 (Label Mixing)

標(biāo)簽混合的目標(biāo)是創(chuàng)建泛化性更強的模型,防止過擬合。混合方法在圖分類和節(jié)點分類任務(wù)中很重要。通過混合圖嵌入或隨機替換子圖,可以增強模型面對圖分類任務(wù)的能力。在節(jié)點分類任務(wù)中,混合鄰居節(jié)點的標(biāo)簽或嵌入可以提高性能。知識蒸餾可以幫助修改標(biāo)簽,為未標(biāo)記的節(jié)點生成偽標(biāo)簽。圖2展示了三種理解圖數(shù)據(jù)分布的方法:圖課程學(xué)習(xí)、圖采樣和圖生成。

圖2 圖形數(shù)據(jù)分布及相關(guān)方法,其中紅色圓圈表示數(shù)據(jù)樣本

1.5.1  圖的課程學(xué)習(xí) (Graph Curriculum Learning)

課程學(xué)習(xí)(CL)是一種模仿人類學(xué)習(xí)過程的訓(xùn)練策略,通過從簡單到復(fù)雜的樣本進行學(xué)習(xí),幫助模型更快收斂并提高泛化能力。圖課程學(xué)習(xí)(Graph CL)是一種基于圖的課程學(xué)習(xí)方法,主要用于圖形神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化。Graph CL方法可分為預(yù)定義的和自動的,預(yù)定義的Graph CL通過設(shè)計難度測量器和訓(xùn)練調(diào)度器來實現(xiàn)。設(shè)計難度測量器可以從數(shù)據(jù)或樣本屬性、數(shù)據(jù)關(guān)系等多個角度進行。訓(xùn)練調(diào)度程序可分為連續(xù)調(diào)度程序和離散調(diào)度程序。

1.5.2  圖采樣 (Graph Sampling)

圖采樣方法通過不同的策略對節(jié)點進行采樣,只聚合部分節(jié)點的信息,從而加快模型收斂速度并減少內(nèi)存開銷。啟發(fā)式采樣方法可以劃分為兩個類別:隨機采樣和重要性采樣。隨機采樣方法根據(jù)特定策略隨機抽樣要采樣的子集的節(jié)點,如GraphSAGE、Cluster-GCN和Parallelize Graph Sampling。重要性抽樣根據(jù)抽樣策略對節(jié)點執(zhí)行不同的抽樣概率,如FastGCN、LADIES、GraphSAINT和PinSage。這些方法有助于克服鄰域爆炸和內(nèi)存溢出問題,提高模型性能。

1.5.3  圖生成 (Graph Generation)

圖生成器可以幫助解決圖數(shù)據(jù)集太小的問題,通過生成額外的圖數(shù)據(jù)。圖生成方法分為自回歸 (autoregressive) 和一步法 (one-shot)。自回歸方法通過已生成的子圖來創(chuàng)建新的節(jié)點和邊,而一步法通過一次步驟生成整個鄰接矩陣。One-shot方法比自回歸方法更有效,但如何表示圖形數(shù)據(jù)以更有效地建模仍然是一個挑戰(zhàn)。從譜視角出發(fā)的方法可以更有效地捕獲圖的全局信息,而特定圖的生成方法可以滿足特定的應(yīng)用場景。

2  訓(xùn)練階段

這一部分介紹訓(xùn)練階段中通過數(shù)據(jù)修改模塊和消息傳遞模塊相互協(xié)作來提高性能的圖數(shù)據(jù)修改方法。具體介紹了三種模型與數(shù)據(jù)協(xié)作的訓(xùn)練模式,包括聯(lián)合訓(xùn)練、自訓(xùn)練和雙層訓(xùn)練。相關(guān)的方法如表1所示。

2.1  圖自適應(yīng)增強

傳統(tǒng)的基于規(guī)則的增強方法可能不足以在下游任務(wù)中實現(xiàn)更強的魯棒性和性能。相反,圖自適應(yīng)增強方法在訓(xùn)練階段結(jié)合了增強程序??煞譃槿悾夯谶?、基于子圖、自動增強?;谶叺姆椒ㄔ谀承p失函數(shù)的監(jiān)督下操作鄰接矩陣,基于子圖的方法側(cè)重于提取信息豐富的子圖,而自動增強框架通過強化學(xué)習(xí)增強普通方法。

2.2  圖自適應(yīng)采樣

自適應(yīng)和可學(xué)習(xí)的采樣算法,通過模型訓(xùn)練更新采樣策略,實現(xiàn)最佳性能。這些算法通常對采樣策略施加可學(xué)習(xí)的權(quán)重或概率,以自適應(yīng)地調(diào)整采樣??蓪W(xué)習(xí)的參數(shù)在正向傳播中計算,并在反向傳播中更新。這些方法分為兩類:最小方差采樣和最大性能采樣。最小方差采樣旨在分析或減少采樣方差,以近似原始的全鄰域聚合。最大性能采樣直接優(yōu)化模型性能,例如PASS使用梯度信息和任務(wù)性能損失來訓(xùn)練采樣策略。

2.3  特征選擇

“維數(shù)災(zāi)難”是指高維數(shù)據(jù)導(dǎo)致模型訓(xùn)練成本增加的問題。特征選擇(FS)是一種解決“維數(shù)災(zāi)難”的方法,通過識別與標(biāo)簽高度相關(guān)的特征并優(yōu)先考慮它們,降低計算成本并提高模型性能。在圖學(xué)習(xí)中,通常采用嵌入式和包裝器FS方法。嵌入式FS與模型的訓(xùn)練過程集成在一起,而包裝器FS利用機器學(xué)習(xí)算法評估特征的重要性。基于Lasso的正則化方法和修改網(wǎng)絡(luò)結(jié)構(gòu)的方法都是嵌入式FS的常見策略。包裝器FS方法不同于排名方法,引入了自適應(yīng)鄰居結(jié)構(gòu)和更新的特征指示器,以強調(diào)自適應(yīng)鄰居結(jié)構(gòu),然后使用特征指示器對特征進行排序。

2.4  特征補全

數(shù)據(jù)質(zhì)量在以數(shù)據(jù)為中心的學(xué)習(xí)任務(wù)中至關(guān)重要,但在訓(xùn)練場景中,數(shù)據(jù)往往不完整。圖學(xué)習(xí)通過特征補全解決此問題,提取相鄰節(jié)點屬性以獲得缺失節(jié)點屬性的表示。傳統(tǒng)方法用其他屬性向量的總和或平均值替換缺失屬性向量,忽略數(shù)據(jù)基本圖結(jié)構(gòu)。注意力算法、消息傳遞神經(jīng)網(wǎng)絡(luò)和集成方法等新方法被提出,以提高特征補全的準(zhǔn)確性和多模態(tài)屬性完成的能力。

2.5  圖結(jié)構(gòu)學(xué)習(xí)

圖結(jié)構(gòu)學(xué)習(xí)(GSL)是一種優(yōu)化拓撲結(jié)構(gòu)的方法,有助于緩解圖模型魯棒性受噪音影響的問題。聯(lián)合訓(xùn)練和雙層優(yōu)化通過優(yōu)化圖結(jié)構(gòu)和神經(jīng)網(wǎng)絡(luò)參數(shù),提高模型在稀疏圖上的去噪能力和對特征和語義之間復(fù)雜異構(gòu)交互的理解。自我訓(xùn)練方法通過訓(xùn)練循環(huán)網(wǎng)絡(luò)產(chǎn)生高質(zhì)量的網(wǎng)絡(luò)嵌入,進而訓(xùn)練圖卷積網(wǎng)絡(luò)以獲取更好的網(wǎng)絡(luò)嵌入。

2.6  圖的自適應(yīng)學(xué)習(xí)

自適應(yīng)學(xué)習(xí)是一種半監(jiān)督學(xué)習(xí)方法,用于圖機器學(xué)習(xí),通過調(diào)整實例難度和訓(xùn)練進度來更有效地利用圖結(jié)構(gòu)信息。具體方法包括DSP-GCN、CGCT和SPCGNN,它們通過調(diào)整標(biāo)簽增強策略來控制偽標(biāo)簽質(zhì)量,減輕偽標(biāo)簽對訓(xùn)練數(shù)據(jù)增強的負面影響。自適應(yīng)學(xué)習(xí)也可被視為一種自動課程學(xué)習(xí)方法,與其他類型的自動圖課程學(xué)習(xí)方法類似。

2.7  主動學(xué)習(xí)

在圖學(xué)習(xí)數(shù)據(jù)集中,存在大量未標(biāo)記數(shù)據(jù),主動學(xué)習(xí)選擇最有價值的樣本進行標(biāo)記,以提高標(biāo)簽率和GNN模型性能。主動學(xué)習(xí)分為三類:成員查詢合成、流式和基于池的?;诔氐闹鲃訉W(xué)習(xí)經(jīng)常與GNN結(jié)合使用,可按查詢方法分為基于不確定性的采樣、基于多樣性的采樣和混合模型。

2.8  偽標(biāo)簽

偽標(biāo)簽是一種解決圖神經(jīng)網(wǎng)絡(luò)中未標(biāo)記數(shù)據(jù)和難以標(biāo)記問題的方法。與主動學(xué)習(xí)不同,偽標(biāo)簽使用訓(xùn)練好的模型預(yù)測未標(biāo)記數(shù)據(jù),并參考相應(yīng)指標(biāo)進行標(biāo)注。這些指標(biāo)通常是預(yù)測樣本標(biāo)簽的置信度。偽標(biāo)簽分為自訓(xùn)練模型和聯(lián)合訓(xùn)練模型,它們主要在閉環(huán)迭代過程中是否依賴自身模型的估計和偽標(biāo)簽的預(yù)測。

3  推理階段

推斷階段是將預(yù)訓(xùn)練圖模型應(yīng)用于下游任務(wù)的階段,通過將下游任務(wù)重新定義為統(tǒng)一模板,實現(xiàn)高質(zhì)量的知識轉(zhuǎn)移和多任務(wù)適應(yīng)。推理數(shù)據(jù)是在預(yù)訓(xùn)練模型推理階段使用的圖數(shù)據(jù),調(diào)整推理數(shù)據(jù)作為提示有助于獲得所需目標(biāo)而不改變模型參數(shù)。提示學(xué)習(xí)方法在圖的上下文中逐漸流行,分為兩類:預(yù)提示和后提示,取決于任務(wù)特定提示是在消息傳遞模塊之前或之后運行,如圖1所示。

3.1  預(yù)提示

預(yù)提示方法通過修改輸入圖形數(shù)據(jù)以促進下游任務(wù)的適應(yīng)。AAGOD利用提示學(xué)習(xí)在不改變GNN主干網(wǎng)絡(luò)參數(shù)的情況下實現(xiàn)適應(yīng),通過將可學(xué)習(xí)的實例特定提示作為參數(shù)矩陣疊加在原始輸入圖的鄰接矩陣上來修改拓撲結(jié)構(gòu)。多任務(wù)提示方法通過構(gòu)建誘導(dǎo)圖并將節(jié)點級和邊級任務(wù)重新定義為圖級別任務(wù),為輸入圖設(shè)計提示令牌并在消息傳遞之前通過加權(quán)所有提示令牌來修改每個節(jié)點的特征。

3.2  后提示

后提示方法通過在已傳遞消息的表示上運行任務(wù)特定的提示,以實現(xiàn)下游任務(wù)的適應(yīng)。GraphPrompt和GPPT是圖領(lǐng)域中提示學(xué)習(xí)的早期嘗試,它們通過鏈接預(yù)測任務(wù)進行預(yù)訓(xùn)練,并利用可學(xué)習(xí)的提示來指導(dǎo)每個下游任務(wù)。GraphPrompt采用自監(jiān)督鏈接預(yù)測任務(wù),通過添加虛擬節(jié)點將節(jié)點分類任務(wù)和圖分類任務(wù)統(tǒng)一為鏈接預(yù)測形式,消除了預(yù)訓(xùn)練任務(wù)與下游任務(wù)之間的差距。GPPT則主要關(guān)注節(jié)點分類任務(wù),將特定任務(wù)的提示與節(jié)點表示拼接起來以指導(dǎo)適應(yīng)。

4  圖數(shù)據(jù)常見問題

本文討論了在以數(shù)據(jù)為中心的方法中處理圖數(shù)據(jù)問題的常見方法。首先,圖數(shù)據(jù)中的脆弱性問題可以通過證書方法提高數(shù)據(jù)對擾動的魯棒性。其次,不公平性問題可以通過公平性感知圖增強和基于插值和純化的圖增強來解決。再次,選擇性偏差可以通過穩(wěn)定學(xué)習(xí)來緩解。最后,異構(gòu)性問題可以通過圖結(jié)構(gòu)學(xué)習(xí)來減輕。

5  未來方向

標(biāo)準(zhǔn)化圖形數(shù)據(jù)處理。現(xiàn)有圖結(jié)構(gòu)構(gòu)建和數(shù)據(jù)處理方法受限于專家先驗知識,導(dǎo)致圖數(shù)據(jù)在不同領(lǐng)域間的可遷移性差。使用大型語言模型(LLMs)處理圖數(shù)據(jù),將節(jié)點特征統(tǒng)一在語言空間中,有助于在不同領(lǐng)域間轉(zhuǎn)移知識。

提高通用圖形數(shù)據(jù)質(zhì)量。防止圖模型受有問題的圖數(shù)據(jù)影響至關(guān)重要。一種通用的方法是檢測圖數(shù)據(jù)缺陷并提高其質(zhì)量。AAGOD通過自適應(yīng)調(diào)整分布外圖的邊權(quán)值,將其變換成訓(xùn)練分布,以提高圖模型性能。

圖數(shù)據(jù)的持續(xù)學(xué)習(xí)。持續(xù)學(xué)習(xí)使深度學(xué)習(xí)模型能不斷從數(shù)據(jù)流中學(xué)習(xí)新知識。圖數(shù)據(jù)也可從圖模型的預(yù)測中學(xué)習(xí)知識,優(yōu)化自身。例如,圖壓縮方法利用圖模型的梯度生成新圖數(shù)據(jù),可視為數(shù)據(jù)持續(xù)學(xué)習(xí)的特例。

少樣本學(xué)習(xí)和上下文學(xué)習(xí)。“圖基礎(chǔ)模型”有望對圖數(shù)據(jù)挖掘產(chǎn)生重大影響,關(guān)鍵在于賦予圖模型在少樣本和上下文上的學(xué)習(xí)能力。GraphPrompt首次嘗試將圖相關(guān)任務(wù)統(tǒng)一到鏈接預(yù)測框架中,并設(shè)計出任務(wù)相關(guān)的圖提示。

參考資料:

《 Data-centric Graph Learning: A Survey》

文章轉(zhuǎn)自微信公眾號@算法進階

上一篇:

卷積神經(jīng)網(wǎng)絡(luò)特征圖的可視化(CNN)

下一篇:

神經(jīng)網(wǎng)絡(luò)訓(xùn)練技巧匯總(Tricks)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費