鍵.png)
使用這些基本 REST API 最佳實(shí)踐構(gòu)建出色的 API
本章介紹一些用于模型評估的高級技術(shù)。我們首先討論用來評估模型性能不確定性和模型方差、穩(wěn)定性的技術(shù)。之后我們將介紹交叉驗(yàn)證方法用于模型選擇。如第一章所述,關(guān)于我們?yōu)槭裁匆P(guān)心模型評估,存在三個相關(guān)但不同的任務(wù)或原因。
3 交叉驗(yàn)證和超參數(shù)優(yōu)化
幾乎所有機(jī)器學(xué)習(xí)算法都需要我們機(jī)器學(xué)習(xí)研究者和從業(yè)者指定大量設(shè)置。這些超參數(shù)幫助我們控制機(jī)器學(xué)習(xí)算法在優(yōu)化性能、找出偏差方差最佳平衡時的行為。用于性能優(yōu)化的超參數(shù)調(diào)整本身就是一門藝術(shù),沒有固定規(guī)則可以保證在給定數(shù)據(jù)集上的性能最優(yōu)。前面的章節(jié)提到了用于評估模型泛化性能的留出技術(shù)和 bootstrap 技術(shù)。偏差-方差權(quán)衡和計算性能估計的不穩(wěn)定性方法都得到了介紹。本章主要介紹用于模型評估和選擇的不同交叉驗(yàn)證方法,包括對不同超參數(shù)配置的模型進(jìn)行排序和評估其泛化至獨(dú)立數(shù)據(jù)集的性能。
本章生成圖像的代碼詳見:https://github.com/rasbt/model-eval-article-
supplementary/blob/master/code/resampling-and-kfold.ipynb。
我們可以把超參數(shù)調(diào)整(又稱超參數(shù)優(yōu)化)和模型選擇的過程看作元優(yōu)化任務(wù)。當(dāng)學(xué)習(xí)算法在訓(xùn)練集上優(yōu)化目標(biāo)函數(shù)時(懶惰學(xué)習(xí)器是例外),超參數(shù)優(yōu)化是基于它的另一項(xiàng)任務(wù)。這里,我們通常想優(yōu)化性能指標(biāo),如分類準(zhǔn)確度或接受者操作特征曲線(ROC 曲線)下面積。超參數(shù)調(diào)整階段之后,基于測試集性能選擇模型似乎是一種合理的方法。但是,多次重復(fù)使用測試集可能會帶來偏差和最終性能估計,且可能導(dǎo)致對泛化性能的預(yù)期過分樂觀,可以說是「測試集泄露信息」。為了避免這個問題,我們可以使用三次分割(three-way split),將數(shù)據(jù)集分割成訓(xùn)練集、驗(yàn)證集和測試集。對超參數(shù)調(diào)整和模型選擇進(jìn)行訓(xùn)練-驗(yàn)證可以保證測試集「獨(dú)立」于模型選擇。這里,我們再回顧一下性能估計的「3 個目標(biāo)」:
本文章轉(zhuǎn)載微信公眾號@算法進(jìn)階