日韩欧美tⅴ一中文字暮,人人爽人人爱

2 Bootstrapping 和不確定性

本章介紹一些用于模型評估的高級技術(shù)。我們首先討論用來評估模型性能不確定性和模型方差、穩(wěn)定性的技術(shù)。之后我們將介紹交叉驗(yàn)證方法用于模型選擇。如第一章所述，關(guān)于我們?yōu)槭裁匆P(guān)心模型評估，存在三個相關(guān)但不同的任務(wù)或原因。

我們想評估泛化準(zhǔn)確度，即模型在未見數(shù)據(jù)上的預(yù)測性能。

我們想通過調(diào)整學(xué)習(xí)算法、從給定假設(shè)空間中選擇性能最好的模型，來改善預(yù)測性能。

我們想確定手頭最適合待解決問題的機(jī)器學(xué)習(xí)算法。因此，我們想對比不同的算法，選出性能最好的一個；或從算法的假設(shè)空間中選出性能最好的模型。

3 交叉驗(yàn)證和超參數(shù)優(yōu)化

幾乎所有機(jī)器學(xué)習(xí)算法都需要我們機(jī)器學(xué)習(xí)研究者和從業(yè)者指定大量設(shè)置。這些超參數(shù)幫助我們控制機(jī)器學(xué)習(xí)算法在優(yōu)化性能、找出偏差方差最佳平衡時的行為。用于性能優(yōu)化的超參數(shù)調(diào)整本身就是一門藝術(shù)，沒有固定規(guī)則可以保證在給定數(shù)據(jù)集上的性能最優(yōu)。前面的章節(jié)提到了用于評估模型泛化性能的留出技術(shù)和 bootstrap 技術(shù)。偏差-方差權(quán)衡和計算性能估計的不穩(wěn)定性方法都得到了介紹。本章主要介紹用于模型評估和選擇的不同交叉驗(yàn)證方法，包括對不同超參數(shù)配置的模型進(jìn)行排序和評估其泛化至獨(dú)立數(shù)據(jù)集的性能。

本章生成圖像的代碼詳見：https://github.com/rasbt/model-eval-article-
supplementary/blob/master/code/resampling-and-kfold.ipynb。

我們可以把超參數(shù)調(diào)整（又稱超參數(shù)優(yōu)化）和模型選擇的過程看作元優(yōu)化任務(wù)。當(dāng)學(xué)習(xí)算法在訓(xùn)練集上優(yōu)化目標(biāo)函數(shù)時（懶惰學(xué)習(xí)器是例外），超參數(shù)優(yōu)化是基于它的另一項(xiàng)任務(wù)。這里，我們通常想優(yōu)化性能指標(biāo)，如分類準(zhǔn)確度或接受者操作特征曲線（ROC 曲線）下面積。超參數(shù)調(diào)整階段之后，基于測試集性能選擇模型似乎是一種合理的方法。但是，多次重復(fù)使用測試集可能會帶來偏差和最終性能估計，且可能導(dǎo)致對泛化性能的預(yù)期過分樂觀，可以說是「測試集泄露信息」。為了避免這個問題，我們可以使用三次分割（three-way split），將數(shù)據(jù)集分割成訓(xùn)練集、驗(yàn)證集和測試集。對超參數(shù)調(diào)整和模型選擇進(jìn)行訓(xùn)練-驗(yàn)證可以保證測試集「獨(dú)立」于模型選擇。這里，我們再回顧一下性能估計的「3 個目標(biāo)」：

我們想評估泛化準(zhǔn)確度，即模型在未見數(shù)據(jù)上的預(yù)測性能。

我們想通過調(diào)整學(xué)習(xí)算法、從給定假設(shè)空間中選擇性能最好的模型，來改善預(yù)測性能。

我們想確定最適合待解決問題的機(jī)器學(xué)習(xí)算法。因此，我們想對比不同的算法，選出性能最好的一個，從算法的假設(shè)空間中選出性能最好的模型。