鍵.png)
使用NestJS和Prisma構(gòu)建REST API:身份驗(yàn)證
因果理論已成統(tǒng)計(jì)學(xué)重要分支,有獨(dú)特概念、語言及方法。目前廣泛被認(rèn)可和使用的因果模型,主要包括潛在結(jié)果框架(RCM)和結(jié)構(gòu)因果模型(SCM)。
RCM主要研究兩個變量的平均因果效應(yīng)問題,而SCM使用圖結(jié)構(gòu)建模一組變量關(guān)系,除了效應(yīng)估計(jì)也會關(guān)注結(jié)構(gòu)發(fā)現(xiàn)問題。兩者的主要區(qū)別在于表述方法不同,RCM更加簡潔直白,相關(guān)研究更為豐富;而SCM表達(dá)能力更強(qiáng),更擅長描述復(fù)雜的問題。格蘭杰因果(Granger causality)描述的是引入一個變量是否對另一個變量的預(yù)測有促進(jìn)作用,本質(zhì)上仍是一種相關(guān)關(guān)系,不被視為真正的因果。
下面?zhèn)戎赜诮榻B機(jī)器學(xué)習(xí)中所使用的因果的概念和思想以及 RCM與SCM 的相關(guān)理論和技術(shù)進(jìn)行簡要介紹。
統(tǒng)計(jì)學(xué)中,因果關(guān)系是改變一個變量使得另一個變量發(fā)生相應(yīng)變化,這種變量關(guān)系稱為因果關(guān)系,改變這種關(guān)系的效應(yīng)稱為因果效應(yīng),因果效應(yīng)顯薯,則認(rèn)為存在因果關(guān)系。求解一對或多對變量的因果關(guān)系和因果效應(yīng)的任務(wù)被稱為因果推斷。相關(guān)關(guān)系和因果關(guān)系的區(qū)別是,相關(guān)關(guān)系只需檢驗(yàn)邊際分布和條件分布,而因果關(guān)系需要改變目標(biāo)變量的產(chǎn)生機(jī)制?;卮鹨蚬麊栴}需要借助反事實(shí)或干預(yù),若僅依賴關(guān)聯(lián),則需處理混雜因素,這是研究因果理論的重要概念。
下面將基于回答因果關(guān)系判定問題的角度,對反事實(shí)、干預(yù)和混雜因素 3 個概念進(jìn)行介紹:
反事實(shí)。反事實(shí)是指在已經(jīng)觀測到一組變量的情況下,假設(shè)其中部分變量具有另外的取值的操作。它是根據(jù)結(jié)果溯源尋找原因的有效手段,如果發(fā)現(xiàn)某個變量改變?nèi)≈岛髸?dǎo)致結(jié)果改變,該變量即是結(jié)果的原因之一。然而,反事實(shí)操作通常無法用于因果判定,因?yàn)樗俣▋纱斡^測之間除了需要研究的變量有所改變外,其他外部變量取值和作用機(jī)制需完全保持一致,這在實(shí)際應(yīng)用中幾乎無法實(shí)現(xiàn)。因此,想要判斷因果關(guān)系的存在性,人們只能采用干預(yù)操作。
干預(yù)。干預(yù)操作是評估因果關(guān)系的關(guān)鍵,通過改變部分變量的機(jī)制并維持其余機(jī)制不變。如果干預(yù)改變了一個變量的概率分布,則前者是后者的原因,例如海拔高度影響氣溫。通過調(diào)整地理位置來改變海拔,氣候?qū)l(fā)生變化,因?yàn)楸澈蟮奈锢頇C(jī)制不變。干預(yù)操作可以清晰地判斷因果關(guān)系的存在性和方向性。干預(yù)操作不同于反事實(shí),需要滿足密集體不變的假設(shè),但在一般應(yīng)用場景中通??尚小H欢?,許多情況下無法實(shí)施干預(yù)操作,如肺癌研究。因此,需要避免對目標(biāo)變量進(jìn)行干預(yù),僅通過觀測原有機(jī)制產(chǎn)生的數(shù)據(jù)來估計(jì)干預(yù)的效果。
混雜因素。混雜因素是對干預(yù)結(jié)果影響的變量,需要控制取值以減小偏差?;祀s因素對所研究的兩個變量有影響,例如兒童穿鞋尺碼與閱讀能力。如果不控制年齡,可能出現(xiàn)錯誤結(jié)論。如果可以控制所有的混雜因素,因果關(guān)系就等價于相關(guān)性。尋找充分的變量集合,囊括所有混雜因素很困難。鑒別和處理混雜因素是因果推斷領(lǐng)域的核心問題之一。
1.2.1? 潛在結(jié)果框架(RCM)
潛在結(jié)果框架又被稱為魯賓因果模型,是一種用于描述因果效應(yīng)的框架。在該框架中,每個個體都有一個潛在結(jié)果,即如果該個體接受某種處理,會得到什么結(jié)果。這個結(jié)果是未觀測到的,因?yàn)槊總€個體只能接受一種處理,而我們只能觀測到實(shí)際接受的處理和對應(yīng)的結(jié)果。因此,我們需要通過對不同處理下的結(jié)果進(jìn)行比較,來估計(jì)出每個個體的處理效應(yīng)(individual treatment effect, ITE)。
在實(shí)際應(yīng)用中,我們通常需要考慮多個個體和多個處理,因此需要對所有個體的處理效應(yīng)進(jìn)行匯總。這可以通過計(jì)算平均處理效應(yīng)(average treatment effect, ATE)來實(shí)現(xiàn),即所有個體的處理效應(yīng)的平均值。
在RCM 中,如果滿足一定的假設(shè),包括個體處理值穩(wěn)定假設(shè)(SUTVA)、處理分配機(jī)制可忽略性、正值性,上述計(jì)算得到的 ATE 即是X對Y的真實(shí)因果效應(yīng)。
實(shí)際問題中,采用控制所有混雜因素的方法計(jì)算 ATE 時,由于混雜因素的維度很高,控制相同取值的樣本可能很少,期望估計(jì)不太準(zhǔn)確。常見的解決方法有:基于傾向性得分的估計(jì)方法、基于回歸的估計(jì)方法以及兩者相結(jié)合的方法,還有諸如混雜平衡、分層等眾多其他方去處理混雜因素的問題,但這些方法均要求混雜因素的值可觀測,限制了RCM的應(yīng)用。部分問題可使用SCM解決,這是一個針對混雜因素的數(shù)據(jù)結(jié)構(gòu)化方法。
1.2.2? 結(jié)構(gòu)因果模型
結(jié)構(gòu)因果模型(structural causal model, SCM)是一種用于描述變量之間因果關(guān)系的模型,它使用圖結(jié)構(gòu)建模一組變量關(guān)系,除了效應(yīng)估計(jì)也會關(guān)注結(jié)構(gòu)發(fā)現(xiàn)問題。在SCM中,我們將變量表示為節(jié)點(diǎn),將因果關(guān)系表示為有向邊。每個節(jié)點(diǎn)都有一個結(jié)構(gòu)方程式,用于描述該節(jié)點(diǎn)的取值如何受到其父節(jié)點(diǎn)的影響。結(jié)構(gòu)方程式通常包含一個函數(shù)和一個誤差項(xiàng),函數(shù)描述了變量之間的因果關(guān)系,誤差項(xiàng)描述了未被考慮的因素對變量的影響。圖 1 所對應(yīng)的完整結(jié)構(gòu)方程為:Z = Nz,X = fx(Z, Nx), Y = fY (Z, X, Ny )。
圖?1?因果圖示例
SCM可以用于估計(jì)因果效應(yīng),即某個變量對另一個變量的影響。在SCM中,我們可以通過對模型進(jìn)行干預(yù)來估計(jì)因果效應(yīng)。干預(yù)可以是對某個節(jié)點(diǎn)的取值進(jìn)行人為設(shè)定,也可以是對某個節(jié)點(diǎn)的結(jié)構(gòu)方程式進(jìn)行修改。通過對干預(yù)前后的模型進(jìn)行比較,我們可以估計(jì)出干預(yù)對其他變量的影響,從而得到因果效應(yīng)。
SCM還可以用于結(jié)構(gòu)發(fā)現(xiàn),即從數(shù)據(jù)中推斷出變量之間的因果關(guān)系。結(jié)構(gòu)發(fā)現(xiàn)可以通過多種方法實(shí)現(xiàn),包括基于因果圖的搜索算法、基于獨(dú)立性測試的方法。
因果問題已成為機(jī)器學(xué)習(xí)重要且前沿的研究領(lǐng)域。機(jī)器學(xué)習(xí)可從因果技術(shù)和思想中獲得多個益處:因果理論是數(shù)據(jù)分析的工具,能進(jìn)行細(xì)致分析;因果推斷消除混雜因素和中介分析,對評估因果效應(yīng)和區(qū)分間接效應(yīng)有重要價值;反事實(shí)是人思考求解問題的常用手段,對機(jī)器學(xué)習(xí)模型構(gòu)建和問題分析有指導(dǎo)意義。
因果機(jī)器學(xué)習(xí)的核心內(nèi)容包括可解釋性問題、可遷移性問題、魯棒性問題、公平性問題和反事實(shí)評估問題。這些問題與因果理論的關(guān)系如圖2所示,將分別進(jìn)行介紹。
圖 2 因果機(jī)器學(xué)習(xí)的主要研究問題總覽
機(jī)器學(xué)習(xí)模型會計(jì)算并產(chǎn)生輸出,但一般不解釋為何得出此輸出。然而,合理解釋有助于理解模型運(yùn)作機(jī)制,增強(qiáng)結(jié)果的說服力。近年來涌現(xiàn)許多解釋模型方法的研究,為模型診斷提供有效手段。解釋核心是理解輸入特征如何導(dǎo)致輸出結(jié)果,即討論輸入特征與輸出結(jié)果的因果關(guān)系,如估計(jì)特征對輸出變量的影響。由于機(jī)器學(xué)習(xí)模型獨(dú)立處理輸入數(shù)據(jù),輸入與輸出變量之間無混雜因素,因此即使不使用因果術(shù)語也能描述任務(wù)。
因果理論為解釋性問題帶來兩大貢獻(xiàn),一是建模特征內(nèi)部因果關(guān)系,二是引入反事實(shí)解釋?;跉w因分析和反事實(shí)的解釋構(gòu)成了當(dāng)前主要的兩類模型解釋方法,見表1。表 1 因果方法在可解釋性問題上的應(yīng)用
圖 2 反事實(shí)解釋示例
圖 3 反事實(shí)圖像混合示例
機(jī)器學(xué)習(xí)模型通過分布內(nèi)泛化,基于特定訓(xùn)練集在驗(yàn)證集或測試集上驗(yàn)證性能。但在實(shí)際應(yīng)用中,模型會在特定的數(shù)據(jù)環(huán)境中運(yùn)行,并使用數(shù)據(jù)進(jìn)行訓(xùn)練。在標(biāo)注數(shù)據(jù)難以獲取的情況下,需要更多的訓(xùn)練數(shù)據(jù),可以由相似環(huán)境提供。例如,自動駕駛智能體只能在模擬系統(tǒng)的數(shù)據(jù)上訓(xùn)練,這種任務(wù)被稱為域適應(yīng),屬于遷移學(xué)習(xí)范疇,即遷移源域知識到目標(biāo)域。
研究可遷移性中,因果理論的重要性是提供清晰的描述和分析工具,幫助識別可遷移和不可遷移的成分,設(shè)計(jì)適用于不同場景的策略。在效應(yīng)估計(jì)中,因果推斷關(guān)注的是特定環(huán)境下改變機(jī)制的影響,這與遷移學(xué)習(xí)的域改變假設(shè)相符。因此,遷移學(xué)習(xí)的核心是建模識別變與不變的機(jī)制。因果遷移學(xué)習(xí)一般假設(shè)輸入和輸出的因果關(guān)系,關(guān)注無混雜因素影響下的變量因果方向和不可變機(jī)制。表 2 因果方法在可遷移性問題上的應(yīng)用
圖 4 3 類反因果遷移問題的因果圖
遷移學(xué)習(xí)幫助模型在目標(biāo)環(huán)境中,利用有限的數(shù)據(jù)進(jìn)行適應(yīng)。然而,在某些高風(fēng)險場景中,例如醫(yī)療、法律、金融和交通等領(lǐng)域,模型需要面對完全未知的環(huán)境。以自動駕駛為例,即使有大量的真實(shí)道路行駛數(shù)據(jù),自動駕駛智能體仍會遭遇各種無法預(yù)見的突發(fā)情況,這些情況需要正確處理。這類任務(wù)無法提供目標(biāo)環(huán)境下的訓(xùn)練數(shù)據(jù),此時模型的表現(xiàn)稱為分布外泛化。如果模型具有良好的分布外泛化能力,則稱其具有魯棒性(robustness),展現(xiàn)出一種適應(yīng)新環(huán)境、應(yīng)對變化的能力。
因果理論的引入為魯棒性問題的解決提供了全新的視角,其核心優(yōu)勢在于對變量結(jié)構(gòu)的精確建模和更符合邏輯的假設(shè)。這類方法涵蓋了反事實(shí)數(shù)據(jù)增強(qiáng)、因果效應(yīng)校準(zhǔn)以及不變性學(xué)習(xí)等。詳見表3,反事實(shí)數(shù)據(jù)增強(qiáng)旨在消弭數(shù)據(jù)中的偽相關(guān)性,因果效應(yīng)校準(zhǔn)則通過調(diào)節(jié)偏差特征的功能來減輕偏差,而不變性學(xué)習(xí)則通過改變建模方式以學(xué)習(xí)穩(wěn)定的因果關(guān)系。
表 3 因果方法在魯棒性問題上的應(yīng)用
圖 5 視覺對話任務(wù)的因果圖和 2 種校準(zhǔn)策略
圖 6 不變性學(xué)習(xí)方法的因果圖
在機(jī)器學(xué)習(xí)領(lǐng)域,公平性是指在對特定敏感特征如性別、年齡、種族等的處理中,不同的取值不應(yīng)影響機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果,如在貸款發(fā)放、法律判決、招生招聘等任務(wù)中。公平性對于機(jī)器學(xué)習(xí)在社會決策中的應(yīng)用至關(guān)重要,與因果關(guān)系緊密相關(guān),它體現(xiàn)了敏感特征不應(yīng)成為預(yù)測結(jié)果的主要因素。模型中存在的不公平往往由偽相關(guān)特征問題導(dǎo)致,因此公平性也可以視為針對敏感特征的魯棒性,這一概念擁有自己獨(dú)特的研究體系和術(shù)語。
因果理論的引入為公平性研究起到了極大地推動作用,許多概念必須借助因果的語言才能表達(dá),如表 4 所示:表 4 因果方法在公平性問題上的應(yīng)用
機(jī)器學(xué)習(xí)公平性研究與因果關(guān)系密切相連,因果理論在此領(lǐng)域發(fā)揮著不可替代的作用。描述語言、建模方法和求解手段都依賴于因果研究的相關(guān)成果,未來仍將繼續(xù)發(fā)揮其重要作用。
反事實(shí)評估,是指機(jī)器學(xué)習(xí)模型的優(yōu)化目標(biāo)自身為反事實(shí),這種情況通常出現(xiàn)在使用有偏差的標(biāo)注數(shù)據(jù)訓(xùn)練出無偏模型的場景中,例如基于點(diǎn)擊數(shù)據(jù)的檢索和推薦系統(tǒng)學(xué)習(xí)任務(wù)。由于任務(wù)本身依賴于反事實(shí)術(shù)語進(jìn)行描述,因果理論在這類問題的建模和研究中發(fā)揮了至關(guān)重要的作用,如表5所示:
表 5 因果方法在反事實(shí)評估問題上的應(yīng)用
圖 7?廣告推薦系統(tǒng)的因果圖
機(jī)器學(xué)習(xí)領(lǐng)域的因果關(guān)系研究成果豐富多樣。除對于可解釋性、遷移性、魯棒性、公平性以及反事實(shí)評估等關(guān)鍵問題的深入探討外,還涉及其他相關(guān)領(lǐng)域的研究。例如,因果理論在結(jié)構(gòu)化變量的場景下特別有效,如多警老虎機(jī)問題。因果理論中的反事實(shí)思想和技術(shù),被用于解決多個領(lǐng)域的問題。因果機(jī)器學(xué)習(xí)引入了干預(yù)和反事實(shí)結(jié)果預(yù)測問題,需要機(jī)器學(xué)習(xí)與因果推斷協(xié)作。
本文介紹因果關(guān)系概念、模型和方法,包括可解釋性、可遷移性、魯棒性、公平性和反事實(shí)評估等問題。在應(yīng)用中,因果理論使機(jī)器學(xué)習(xí)在數(shù)據(jù)結(jié)構(gòu)、不變性假設(shè)、反事實(shí)概念和效應(yīng)估計(jì)上建模,不使用則無法實(shí)現(xiàn)。因果理論幫助解決干預(yù)和反事實(shí)操作問題,解決傳統(tǒng)機(jī)器學(xué)習(xí)無法討論的問題。
目前,因果相關(guān)方法在遷移性和魯棒性問題上挖掘尚淺,需繼續(xù)深入。未來,因果機(jī)器學(xué)習(xí)研究將向更準(zhǔn)確、高效發(fā)展。
文章轉(zhuǎn)自微信公眾號@算法進(jìn)階