奇米影视7777久久精品,骚片av蜜桃精品一区,日韩avav天堂

上圖為大家熟悉的機(jī)器學(xué)習(xí)建模流程圖（擴(kuò)展閱讀：一文全覽機(jī)器學(xué)習(xí)建模流程（Python代碼）），整個(gè)建模流程非常重要的一步，是對(duì)于數(shù)據(jù)的預(yù)處理和特征工程，它很大程度決定了最后建模效果的好壞。

特征工程簡(jiǎn)介

首先我們來(lái)了解一下『特征工程』。事實(shí)上大家在ShowMeAI的實(shí)戰(zhàn)系列文章?Python機(jī)器學(xué)習(xí)綜合項(xiàng)目-電商銷量預(yù)估^[2]?和?Python機(jī)器學(xué)習(xí)綜合項(xiàng)目-電商銷量預(yù)估(進(jìn)階)^[3]?中已經(jīng)看到了我們做了特征工程的處理。

如果我們對(duì)特征工程（feature engineering）做一個(gè)定義，那它指的是：利用領(lǐng)域知識(shí)和現(xiàn)有數(shù)據(jù)，創(chuàng)造出新的特征，用于機(jī)器學(xué)習(xí)算法；可以手動(dòng)或自動(dòng)。

在業(yè)界有一個(gè)很流行的說(shuō)法：據(jù)與特征工程決定了模型的上限，改進(jìn)算法只不過(guò)是逼近這個(gè)上限而已。

這是因?yàn)?，在?shù)據(jù)建模上，『理想狀態(tài)』和『真實(shí)場(chǎng)景』是有差別的，很多時(shí)候原始數(shù)據(jù)并不是規(guī)矩干凈含義明確充分的形態(tài)：

而特征工程處理，相當(dāng)于對(duì)數(shù)據(jù)做一個(gè)梳理，結(jié)合業(yè)務(wù)提取有意義的信息，以干凈整齊地形態(tài)進(jìn)行組織：特征工程有著非常重要的意義：

本篇內(nèi)容，ShowMeAI帶大家一起來(lái)系統(tǒng)學(xué)習(xí)一下特征工程，包括『1.特征類型』『2.數(shù)據(jù)清洗』『3.特征構(gòu)建』『4.特征變換』『5.特征選擇』等板塊內(nèi)容。

Titanic實(shí)戰(zhàn)項(xiàng)目

我們這里用最簡(jiǎn)單和常用的Titanic數(shù)據(jù)集給大家講解。

Titanic 數(shù)據(jù)集是非常適合數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)新手入門練習(xí)的數(shù)據(jù)集，數(shù)據(jù)集為1912年泰坦尼克號(hào)沉船事件中一些船員的個(gè)人信息以及存活狀況。我們可以根據(jù)數(shù)據(jù)集訓(xùn)練出合適的模型并預(yù)測(cè)新數(shù)據(jù)(測(cè)試集)中的存活狀況。

Titanic 數(shù)據(jù)集可以通過(guò) Seaborn 工具庫(kù)直接加載，如下代碼所示：

import pandas as pd

import numpy as np

import seaborn as sns

df_titanic = sns.load_dataset('titanic')

其中數(shù)據(jù)集的數(shù)據(jù)字段描述如下圖所示：

1.特征類型

在具體演示 Titanic 的數(shù)據(jù)預(yù)處理與特征工程之前，ShowMeAI再給大家構(gòu)建一些關(guān)于數(shù)據(jù)的基礎(chǔ)知識(shí)。

數(shù)據(jù)可以分為『結(jié)構(gòu)化數(shù)據(jù)』和『非結(jié)構(gòu)化數(shù)據(jù)』，比如在互聯(lián)網(wǎng)領(lǐng)域，大部分存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi)的表格態(tài)業(yè)務(wù)數(shù)據(jù)，都是結(jié)構(gòu)化數(shù)據(jù)；而文本、語(yǔ)音、圖像視頻等就屬于非結(jié)構(gòu)化數(shù)據(jù)。

對(duì)于我們記錄到的數(shù)據(jù)，我們通常又可以以『定量數(shù)據(jù)』和『定性數(shù)據(jù)』對(duì)齊進(jìn)行區(qū)分，其中：

定量數(shù)據(jù)：指的是一些數(shù)值，用于衡量數(shù)量與大小。例如高度，長(zhǎng)度，體積，面積，濕度，溫度等測(cè)量值。
定性數(shù)據(jù)：指的是一些類別，用于描述物品性質(zhì)。例如紋理，味道，氣味，顏色等。

2.數(shù)據(jù)清洗

實(shí)際數(shù)據(jù)挖掘或者建模之前，我們會(huì)有『數(shù)據(jù)預(yù)處理』環(huán)節(jié)，對(duì)原始態(tài)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗等操作處理。

因?yàn)楝F(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整、不一致的『臟數(shù)據(jù)』，無(wú)法直接進(jìn)行數(shù)據(jù)挖掘，或者挖掘結(jié)果差強(qiáng)人意。

『臟數(shù)據(jù)』產(chǎn)生的主要成因包括：篡改數(shù)據(jù)、數(shù)據(jù)不完整、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)、異常數(shù)據(jù)等。

數(shù)據(jù)清洗過(guò)程包括『2.1 數(shù)據(jù)對(duì)齊』、『2.2 缺失值處理』、『2.3 異常值處理』『2.4 數(shù)據(jù)轉(zhuǎn)化等』數(shù)據(jù)處理方法。我們對(duì)這些處理方法做詳細(xì)講解。

2.1 數(shù)據(jù)對(duì)齊

采集到的原始數(shù)據(jù)，格式形態(tài)不一，我們會(huì)對(duì)時(shí)間、字段以及相關(guān)量綱等進(jìn)行數(shù)據(jù)對(duì)齊處理，數(shù)據(jù)對(duì)齊和規(guī)整化之后的數(shù)據(jù)整齊一致，更加適合建模。如下圖為一些處理示例：

① 時(shí)間

日期格式不一致〖2022-02-20、20220220、2022/02/20、20/02/2022〗。
時(shí)間戳單位不一致，有的用秒表示，有的用毫秒表示。
使用無(wú)效時(shí)間表示，時(shí)間戳使用0表示，結(jié)束時(shí)間戳使用FFFF表示。

② 字段

姓名寫了性別，身份證號(hào)寫了手機(jī)號(hào)等。

③ 量綱

數(shù)值類型統(tǒng)一〖如1、2.0、3.21E3、四〗。
單位統(tǒng)一〖如180cm、1.80m〗。

2.2 缺失值處理

數(shù)據(jù)缺失是真實(shí)數(shù)據(jù)中常見(jiàn)的問(wèn)題，因?yàn)榉N種原因我們采集到的數(shù)據(jù)并不一定是完整的，我們有一些缺失值的常見(jiàn)處理方式。具體的處理方式可以展開(kāi)成圖：

不處理(部分模型如 XGBoost^[4] / LightGBM^[5]等可以處理缺失值)。
刪除缺失數(shù)據(jù)(按照樣本維度或者字段維度)。
采用均值、中位數(shù)、眾數(shù)、同類均值或預(yù)估值填充。

下面回到我們的Titanic數(shù)據(jù)集，我們演示一下各種方法。我們先對(duì)數(shù)據(jù)集的缺失值情況做一個(gè)了解(匯總分布)：

df_titanic.isnull().sum()

survived         0

pclass           0

sex              0

age            177

sibsp            0

parch            0

fare             0

embarked         2

class            0

who              0

adult_male       0

deck           688

embark_town      2

alive            0

alone            0

(1) 刪除 · 缺失值處理

最直接粗暴的處理是剔除缺失值，即將存在遺漏信息屬性值的對(duì)象 (字段，樣本/記錄) 刪除，從而得到一個(gè)完備的信息表。優(yōu)缺點(diǎn)如下：

優(yōu)點(diǎn)：簡(jiǎn)單易行，在對(duì)象有多個(gè)屬性缺失值、被刪除的含缺失值的對(duì)象與初始數(shù)據(jù)集的數(shù)據(jù)量相比非常小的情況下有效；
不足：當(dāng)缺失數(shù)據(jù)所占比例較大，特別當(dāng)遺漏數(shù)據(jù)非隨機(jī)分布時(shí)，這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離，從而引出錯(cuò)誤的結(jié)論。

在我們當(dāng)前Titanic的案例中，embark_town字段有 2 個(gè)空值，考慮刪除缺失處理下。

df_titanic[df_titanic["embark_town"].isnull()]

df_titanic.dropna(axis=0,how='any',subset=['embark_town'],inplace=True)

(2) 數(shù)據(jù)填充 · 缺失值處理

第2大類是我們可以通過(guò)一些方法去填充缺失值。比如基于統(tǒng)計(jì)方法、模型方法、結(jié)合業(yè)務(wù)的方法等進(jìn)行填充。

① 手動(dòng)填充。根據(jù)業(yè)務(wù)知識(shí)來(lái)進(jìn)行人工手動(dòng)填充。

② 特殊值填充。將空值作為一種特殊的屬性值來(lái)處理，它不同于其他的任何屬性值。如所有的空值都用unknown填充。一般作為臨時(shí)填充或中間過(guò)程。

df_titanic['embark_town'].fillna('unknown', inplace=True)

③ 統(tǒng)計(jì)量填充。若缺失率較低，可以根據(jù)數(shù)據(jù)分布的情況進(jìn)行填充。常用填充統(tǒng)計(jì)量如下：

中位數(shù)：對(duì)于數(shù)據(jù)存在傾斜分布的情況，采用中位數(shù)填補(bǔ)缺失值。
眾數(shù)：離散特征可使用眾數(shù)進(jìn)行填充缺失值。
平均值：對(duì)于數(shù)據(jù)符合均勻分布，用該變量的均值填補(bǔ)缺失值。

中位數(shù)填充——fare：缺失值較多，使用中位數(shù)填充。

df_titanic['fare'].fillna(df_titanic['fare'].median(), inplace=True)

眾數(shù)填充——embarked：只有兩個(gè)缺失值，使用眾數(shù)填充。

df_titanic['embarked'].isnull().sum()

#執(zhí)行結(jié)果：2

df_titanic['embarked'].fillna(df_titanic['embarked'].mode(), inplace=True)

df_titanic['embarked'].value_counts()

#執(zhí)行結(jié)果：

#S    64

同類均值填充。

age：根據(jù) sex、pclass 和 who 分組，如果落在相同的組別里，就用這個(gè)組別的均值或中位數(shù)填充。

df_titanic.groupby(['sex', 'pclass', 'who'])['age'].mean()

age_group_mean = df_titanic.groupby(['sex', 'pclass', 'who'])['age'].mean().reset_index()

def select_group_age_median(row):

    condition = ((row['sex'] == age_group_mean['sex']) &

                (row['pclass'] == age_group_mean['pclass']) &

                (row['who'] == age_group_mean['who']))

    return age_group_mean[condition]['age'].values[0]



df_titanic['age'] =df_titanic.apply(lambda x: select_group_age_median(x) if np.isnan(x['age']) else x['age'],axis=1)

④ 模型預(yù)測(cè)填充。如果其他無(wú)缺失字段豐富，我們也可以借助于模型進(jìn)行建模預(yù)測(cè)填充，將待填充字段作為L(zhǎng)abel，沒(méi)有缺失的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，建立分類/回歸模型，對(duì)待填充的缺失字段進(jìn)行預(yù)測(cè)并進(jìn)行填充。

最近距離鄰法(KNN)。先根據(jù)歐式距離或相關(guān)分析來(lái)確定距離具有缺失數(shù)據(jù)樣本最近的個(gè)樣本，將這個(gè)值加權(quán)平均/投票來(lái)估計(jì)該樣本的缺失數(shù)據(jù)。
回歸(Regression)。基于完整的數(shù)據(jù)集，建立回歸方程。對(duì)于包含空值的對(duì)象，將已知屬性值代入方程來(lái)估計(jì)未知屬性值，以此估計(jì)值來(lái)進(jìn)行填充。當(dāng)變量不是線性相關(guān)時(shí)會(huì)導(dǎo)致有偏差的估計(jì)，常用線性回歸。

我們以 Titanic 案例中的 age 字段為例，講解一下：

age 缺失量較大，這里我們用 sex、pclass、who、fare、parch、sibsp 六個(gè)特征構(gòu)建隨機(jī)森林模型，填充年齡缺失值。

df_titanic_age = df_titanic[['age', 'pclass', 'sex', 'who','fare', 'parch', 'sibsp']]

df_titanic_age = pd.get_dummies(df_titanic_age)

df_titanic_age.head()

# 乘客分成已知年齡和未知年齡兩部分

known_age = df_titanic_age[df_titanic_age.age.notnull()]

unknown_age = df_titanic_age[df_titanic_age.age.isnull()]

# y 即目標(biāo)年齡

y_for_age = known_age['age']

# X 即特征屬性值

X_train_for_age = known_age.drop(['age'], axis=1)

X_test_for_age = unknown_age.drop(['age'], axis=1)

from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1)

rfr.fit(X_train_for_age, y_for_age)

# 用得到的模型進(jìn)行未知年齡結(jié)果預(yù)測(cè)

y_pred_age = rfr.predict(X_test_for_age)

# 用得到的預(yù)測(cè)結(jié)果填補(bǔ)原缺失數(shù)據(jù)

df_titanic.loc[df_titanic.age.isnull(), 'age'] = y_pred_age

sns.distplot(df_titanic.age)

⑤ 插值法填充。還可以用插值法對(duì)數(shù)據(jù)填充，細(xì)分一下包括線性插值、多重插補(bǔ)、熱平臺(tái)插補(bǔ)、拉格朗日插值、牛頓插值等。

線性插值法

使用插值法可以計(jì)算缺失值的估計(jì)值，所謂的插值法就是通過(guò)兩點(diǎn) ，估計(jì)中間點(diǎn)的值。假設(shè) 是一條直線，通過(guò)已知的兩點(diǎn)來(lái)計(jì)算函數(shù) ，然后只要知道就能求出，以此方法來(lái)估計(jì)缺失值。

.interpolate(method = 'linear', axis)方法將通過(guò)linear插值使用沿著給定axis的值替換 NaN 值，這個(gè)差值也就是前后或者上下的中間值

df_titanic['fare'].interpolate(method = 'linear', axis = 0)

同時(shí)，也可用行值插入

df_titanic['fare'].interpolate(method = 'linear', axis = 1)

多重插補(bǔ)(Multiple Imputation)

多值插補(bǔ)的思想來(lái)源于貝葉斯估計(jì)，認(rèn)為待插補(bǔ)的值是隨機(jī)的，它的值來(lái)自于已觀測(cè)到的值。具體實(shí)踐上通常是估計(jì)出待插補(bǔ)的值，然后再加上不同的噪聲，形成多組可選插補(bǔ)值。根據(jù)某種選擇依據(jù)，選取最合適的插補(bǔ)值。多重插補(bǔ)方法分為三個(gè)步驟：

① 為每個(gè)空值產(chǎn)生一套可能的插補(bǔ)值，這些值反映了無(wú)響應(yīng)模型的不確定性；每個(gè)值都可以被用來(lái)插補(bǔ)數(shù)據(jù)集中的缺失值，產(chǎn)生若干個(gè)完整數(shù)據(jù)集合；
② 每個(gè)插補(bǔ)數(shù)據(jù)集合都用針對(duì)完整數(shù)據(jù)集的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)分析；
③ 對(duì)來(lái)自各個(gè)插補(bǔ)數(shù)據(jù)集的結(jié)果，根據(jù)評(píng)分函數(shù)進(jìn)行選擇，產(chǎn)生最終的插補(bǔ)值。

⑥ 啞變量填充。有另外一種非常有意思的填充方式，叫做『?jiǎn)∽兞刻畛洹?，在變量為離散型，且不同值較少的情況下可以采用。以 Titanic 數(shù)據(jù)為例：

性別 SEX 變量，存在 male，fameal，NA（缺失）三個(gè)不同的值，可將該列轉(zhuǎn)換成IS_SEX_MALE、IS_SEX_FEMALE、IS_SEX_NA。
若某個(gè)變量存在十幾個(gè)不同的值，可根據(jù)每個(gè)值的頻數(shù)，將頻數(shù)較小的值歸為一類other，降低維度。此做法可最大化保留變量的信息。

以下為參考代碼示例：

sex_list = ['MALE', 'FEMALE', np.NaN, 'FEMALE', 'FEMALE', np.NaN, 'MALE']

df = pd.DataFrame({'SEX': sex_list})

display(df)



df.fillna('NA', inplace=True)

df = pd.get_dummies(df['SEX'],prefix='IS_SEX')

display(df)

# 原始數(shù)據(jù)

 SEX

0    MALE

1    FEMALE

2    NaN

3    FEMALE

4    FEMALE

5    NaN

6    MALE

# 填充后

 IS_SEX_FEMALE     IS_SEX_MALE    IS_SEX_NA

0    0                 1                0

1    1                 0                0

2    0                 0                1

3    1                 0                0

4    1                 0                0

5    0                 0                1

6    0                 1

當(dāng)特征值缺失超過(guò)??以上，建議刪除〖或加入『是』『否』標(biāo)記位信息〗，容易影響模型效果

df_titanic.drop(["deck"],axis=1)

2.3 異常值處理

數(shù)據(jù)質(zhì)量也會(huì)很大程度影響機(jī)器學(xué)習(xí)應(yīng)用效果，數(shù)據(jù)的錯(cuò)誤值或異常值可能會(huì)造成測(cè)量誤差或異常系統(tǒng)條件的結(jié)果，給模型學(xué)習(xí)帶來(lái)很大的問(wèn)題。實(shí)際我們很多時(shí)候會(huì)有異常值檢測(cè)與處理環(huán)節(jié)，下面給大家做一個(gè)梳理。

(1) 異常檢測(cè)方法

① 基于統(tǒng)計(jì)分析。通常用戶用某個(gè)統(tǒng)計(jì)分布對(duì)數(shù)據(jù)點(diǎn)進(jìn)行建模，再以假定的模型，根據(jù)點(diǎn)的分布來(lái)確定是否異常。如通過(guò)分析統(tǒng)計(jì)數(shù)據(jù)的散度情況，即數(shù)據(jù)變異指標(biāo)，對(duì)數(shù)據(jù)的分布情況有所了解，進(jìn)而通過(guò)數(shù)據(jù)變異指標(biāo)來(lái)發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn)數(shù)據(jù)。

常用的數(shù)據(jù)變異指標(biāo)有極差、四分位數(shù)間距、均差、標(biāo)準(zhǔn)差、變異系數(shù)等等，如變異指標(biāo)的值大表示變異大、散布廣；值小表示離差小，較密集。

比如，最大最小值可以用來(lái)判斷這個(gè)變量的取值是否超過(guò)了合理的范圍，如客戶的年齡為歲或歲，為異常值。

② 3σ原則。如果數(shù)據(jù)近似正態(tài)分布，在??原則下，異常值為一組測(cè)定值中與平均值的偏差超過(guò)??倍標(biāo)準(zhǔn)差的值。

如果數(shù)據(jù)服從正態(tài)分布，距離平均值之外的值出現(xiàn)的概率為，屬于極個(gè)別的小概率事件。如果數(shù)據(jù)不服從正態(tài)分布，也可以用遠(yuǎn)離平均值的多少倍標(biāo)準(zhǔn)差來(lái)描述。

③ 箱線圖分析。大家還記得在數(shù)據(jù)分析部分有一個(gè)很有效的工具叫做箱線圖^[6]。箱型圖判斷異常值的方法以四分位數(shù)和四分位距為基礎(chǔ)，四分位數(shù)具有魯棒性，因此箱型圖識(shí)別異常值比較客觀，在識(shí)別異常值時(shí)有一定的優(yōu)越性。

箱線圖提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn)：如果一個(gè)值小于或大于的值，則被稱為異常值。

為下四分位數(shù)，表示全部觀察值中有四分之一的數(shù)據(jù)取值比它?。?/li>
為上四分位數(shù)，表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大；
為四分位數(shù)間距，是上四分位數(shù) 與下四分位數(shù) 的差值，包含了全部觀察值的一半。

sns.catplot(y="fare",x="survived", kind="box", data=df_titanic,palette="Set2")

④ 基于模型檢測(cè)。我們也可以基于模型對(duì)異常值檢測(cè)?；舅悸肥窍冉⒁粋€(gè)數(shù)據(jù)模型，那些同模型不能完美擬合的對(duì)象就視作異常。如果模型是簇的集合，則異常是不顯著屬于任何簇的對(duì)象。在使用回歸模型時(shí)，異常是相對(duì)遠(yuǎn)離預(yù)測(cè)值的對(duì)象。

優(yōu)點(diǎn)：有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ)，當(dāng)存在充分的數(shù)據(jù)和所用的檢驗(yàn)類型的知識(shí)時(shí)，這些檢驗(yàn)可能非常有效。
缺點(diǎn)：對(duì)于多元數(shù)據(jù)，可用的選擇少一些，并且對(duì)于高維數(shù)據(jù)，這些檢測(cè)可能性很差。

⑤ 基于距離。我們還有基于距離的方法可以用于異常檢測(cè)。這類方法基于下面這個(gè)假設(shè)：如果一個(gè)數(shù)據(jù)對(duì)象和大多數(shù)點(diǎn)距離都很遠(yuǎn)，那這個(gè)對(duì)象就是異常。通過(guò)定義對(duì)象之間的臨近性度量，根據(jù)距離判斷異常對(duì)象是否遠(yuǎn)離其他對(duì)象，主要使用的距離度量方法有絕對(duì)距離(曼哈頓距離)、歐氏距離和馬氏距離等方法。

優(yōu)點(diǎn)：基于距離的方法比基于統(tǒng)計(jì)類方法要簡(jiǎn)單得多；因?yàn)闉橐粋€(gè)數(shù)據(jù)集合定義一個(gè)距離的度量要比確定數(shù)據(jù)集合的分布容易的多。
缺點(diǎn)：
- 基于鄰近度的方法需要時(shí)間，大數(shù)據(jù)集不適用；
- 該方法對(duì)參數(shù)的選擇也是敏感的；
- 不能處理具有不同密度區(qū)域的數(shù)據(jù)集，因?yàn)樗褂萌珠撝担荒芸紤]這種密度的變化。

⑥ 基于密度。一個(gè)很直接的異常檢測(cè)思路是基于分布密度來(lái)做。具體為：考察當(dāng)前點(diǎn)周圍密度，局部異常點(diǎn)/離群點(diǎn)的局部密度顯著低于大部分近鄰點(diǎn)。這類方法適用于非均勻的數(shù)據(jù)集。

優(yōu)點(diǎn)：給出了對(duì)象是離群點(diǎn)的定量度量，并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理。
缺點(diǎn)：
- 與基于距離的方法一樣，這些方法必然具有的時(shí)間復(fù)雜度。
- 對(duì)于低維數(shù)據(jù)使用特定的數(shù)據(jù)結(jié)構(gòu)可以達(dá)到；
- 參數(shù)選擇困難。
- 雖然算法通過(guò)觀察不同的k值，取得最大離群點(diǎn)得分來(lái)處理該問(wèn)題，但是，仍然需要選擇這些值的上下界。

⑦ 基于聚類。我們可以基于聚類的方法進(jìn)行異常檢測(cè)，遠(yuǎn)離 cluster 的樣本更可能是異常值。

不過(guò)該方法會(huì)受到聚類 cluster 個(gè)數(shù) 的影響，一種策略是對(duì)于不同的簇個(gè)數(shù)重復(fù)該分析；另一種方法是找出大量小簇，其想法是較小的簇傾向于更加凝聚。如果存在大量小簇時(shí)一個(gè)對(duì)象是異常點(diǎn)，則它多半是一個(gè)真正的異常點(diǎn)。不利的一面是一組異常點(diǎn)可能形成小簇而逃避檢測(cè)。

優(yōu)點(diǎn)：
- 基于線性和接近線性復(fù)雜度(k均值)的聚類技術(shù)來(lái)發(fā)現(xiàn)離群點(diǎn)可能是高度有效的；
- 簇的定義通常是離群點(diǎn)的補(bǔ)，因此可能同時(shí)發(fā)現(xiàn)簇和離群點(diǎn)。
缺點(diǎn)：
- 產(chǎn)生的離群點(diǎn)集和它們的得分可能非常依賴所用的簇的個(gè)數(shù)和數(shù)據(jù)中離群點(diǎn)的存在性；
- 聚類算法產(chǎn)生的簇的質(zhì)量對(duì)該算法產(chǎn)生的離群點(diǎn)的質(zhì)量影響非常大。

⑧ 基于鄰近度的異常點(diǎn)檢測(cè)。同樣的，我們也有基于近鄰度的思路來(lái)做異常檢測(cè)，我們認(rèn)為異常點(diǎn)遠(yuǎn)離大部分的點(diǎn)。這種方法比統(tǒng)計(jì)學(xué)方法更一般、更容易使用，因?yàn)榇_定數(shù)據(jù)集的有意義的鄰近性度量比確定它的統(tǒng)計(jì)分布更容易。

一個(gè)對(duì)象的異常點(diǎn)得分由到它的最近鄰的距離給定，所以異常點(diǎn)得分對(duì) 的取值高度敏感：

如果太小(例如 )，則少量的鄰近異常異常點(diǎn)可能導(dǎo)致較異常低的異常點(diǎn)得分。
如果太大，則點(diǎn)數(shù)少于的簇中所有的對(duì)象可能都成了異常異常點(diǎn)。
為了使該方案對(duì)于的選取更具有魯棒性，可以使用個(gè)最近鄰的平均距離。

優(yōu)點(diǎn)：簡(jiǎn)單。
缺點(diǎn)：
- 基于鄰近度的方法需要時(shí)間，大數(shù)據(jù)集不適用；
- 該方法對(duì)參數(shù)的選擇也是敏感的；
- 不能處理具有不同密度區(qū)域的數(shù)據(jù)集，因?yàn)樗褂萌珠撝?，不能考慮這種密度的變化。

在數(shù)據(jù)處理階段將離群點(diǎn)作為影響數(shù)據(jù)質(zhì)量的異常點(diǎn)考慮，而不是作為通常所說(shuō)的異常檢測(cè)目標(biāo)點(diǎn)，一般采用較為簡(jiǎn)單直觀的方法，結(jié)合箱線圖和 MAD 的統(tǒng)計(jì)方法判斷變量的離群點(diǎn)。如下為繪制散點(diǎn)圖根據(jù)分布直接判斷。

sns.scatterplot(x="fare", y="age", hue="survived",data=df_titanic,palette="Set1")

(2) 異常處理方法

對(duì)異常值處理，需要具體情況具體分析，異常值處理方法常用的有以下幾種：

刪除含有異常值的記錄：某些篩選出來(lái)的異常樣本是否真的是不需要的異常特征樣本，最好結(jié)合業(yè)務(wù)再確認(rèn)一編，防止正常樣本被過(guò)濾。
將異常值視為缺失值，交給缺失值處理方法來(lái)處理。
使用均值/中位數(shù)/眾數(shù)來(lái)修正。
不處理。

3.特征構(gòu)建

前序的數(shù)據(jù)預(yù)處理過(guò)程能保證我們拿到干凈整齊準(zhǔn)確的數(shù)據(jù)，但這些數(shù)據(jù)未必對(duì)于建模是最有效的，下一步我們通常會(huì)進(jìn)行特征構(gòu)建，結(jié)合業(yè)務(wù)場(chǎng)景產(chǎn)生衍生變量來(lái)提升數(shù)據(jù)表達(dá)能力和模型建模效果。

3.1 統(tǒng)計(jì)特征構(gòu)建

統(tǒng)計(jì)特征是一類非常有效的特征，尤其在時(shí)序問(wèn)題場(chǎng)景中，以下為統(tǒng)計(jì)特征構(gòu)建的一些思考維度和方法：

基于業(yè)務(wù)規(guī)則、先驗(yàn)知識(shí)等構(gòu)建新特征。
四分位數(shù)、中位數(shù)、平均值、標(biāo)準(zhǔn)差、偏差、偏度、偏鋒、離散系統(tǒng)。
構(gòu)造長(zhǎng)、短期統(tǒng)計(jì)量(如周、月)。
時(shí)間衰減(越靠近觀測(cè)權(quán)重值高)。

回到Titanic數(shù)據(jù)集，我們來(lái)看看結(jié)合業(yè)務(wù)理解，我們可以做哪些新特征：

① 年齡處理。我們對(duì)年齡 age 字段進(jìn)行進(jìn)一步處理，考慮到不同的年齡段對(duì)應(yīng)的人群可能獲救概率不同，我們根據(jù)年齡值分成不同區(qū)間段，對(duì)應(yīng)到 child、young、midlife、old 等

def age_bin(x):

 if x <= 18:

 return 'child'

 elif x <= 30:

 return 'young'

 elif x <= 55:

 return 'midlife'

 else:

 return 'old'

df_titanic['age_bin'] = df_titanic['age'].map(age_bin)

df_titanic['age_bin'].unique()

執(zhí)行結(jié)果：

array(['young', 'midlife', 'child', 'old'], dtype=object)

② 抽取『稱呼』特征。我們?cè)?name 字段里，可以看到各種不同的稱呼，如『Mr』『Master』『Dr』等，這些稱呼體現(xiàn)了乘客的身份等信息，我們可以對(duì)其做抽取構(gòu)建新的特征。

# 提取稱呼

df_titanic['title'] = df_titanic['name'].map(lambda x: x.split(',')[1].split('.')[0].strip())



df_titanic['title'].value_counts()

執(zhí)行結(jié)果如下：

Mr              757

Miss            260

Mrs             197

Master           61

Rev               8

Dr                8

Col               4

Ms                2

Major             2

Mlle              2

Dona              1

Sir               1

Capt              1

Don               1

Lady              1

Mme               1

the Countess      1

Jonkheer          1

我們做一個(gè)簡(jiǎn)單的『稱呼』統(tǒng)計(jì)

# 對(duì)稱呼細(xì)分，是官員，還是皇室，還是女士、先生、小姐

df_titanic['title'].unique()

執(zhí)行結(jié)果：

array(['Mr', 'Mrs', 'Miss', 'Master', 'Don', 'Rev', 'Dr', 'Mme', 'Ms',

 'Major', 'Lady', 'Sir', 'Mlle', 'Col', 'Capt', 'the Countess',

 'Jonkheer', 'Dona'], dtype=object)

下面我們對(duì)這些『稱呼』『稱謂』做一個(gè)規(guī)范化統(tǒng)一。

title_dictionary = {

 "Mr": "Mr",

 "Mrs": "Mrs",

 "Miss": "Miss",

 "Master": "Master",

 "Don": "Royalty",

 "Rev": "Officer",

 "Dr": "Officer",

 "Mme": "Mrs",

 "Ms": "Mrs",

 "Major": "Officer",

 "Lady": "Royalty",

 "Sir": "Royalty",

 "Mlle": "Miss",

 "Col": "Officer",

 "Capt": "Officer",

 "the Countess": "Royalty",

 "Jonkheer": "Royalty",

 "Dona": 'Mrs'

}

df_titanic['title'] = df_titanic['title'].map(title_dictionary)

df_titanic['title'].value_counts()

執(zhí)行結(jié)果如下：

Mr         757

Miss       262

Mrs        201

Master      61

Officer     23

Royalty      5

③ 抽取家庭規(guī)模。在 Titanic 上，有的成員之間有親屬關(guān)系，考慮到家族大小對(duì)于最終是否獲救也有影響，我們可以構(gòu)建一個(gè)?family_size?的特征，用于表征家庭規(guī)模。

df_titanic['family_size'] = df_titanic['sibsp'] + df_titanic['parch'] + 1

df_titanic['family_size'].head()

執(zhí)行結(jié)果如下：

3.2 周期值

在電商等場(chǎng)景下，數(shù)據(jù)有一定的周期規(guī)律，我們可以提取一些周期值作為有效信息。時(shí)序周期的一些考慮維度如下：

前 n 個(gè)周期/天/月/年的周期值，如過(guò)去 5 天分位數(shù)、平均值等
同比/環(huán)比

3.3 數(shù)據(jù)分桶

數(shù)據(jù)分桶，是對(duì)連續(xù)值屬性處理的一種常用方法，它指的是我們把連續(xù)數(shù)值切段，并把連續(xù)值歸屬到對(duì)應(yīng)的段中。數(shù)據(jù)分桶也叫做數(shù)據(jù)分箱或離散化。

① 等頻、等距分桶

(a) 自定義分箱。指根據(jù)業(yè)務(wù)經(jīng)驗(yàn)或者常識(shí)等自行設(shè)定劃分的區(qū)間，然后將原始數(shù)據(jù)歸類到各個(gè)區(qū)間中。

(b) 等距分箱。按照相同寬度將數(shù)據(jù)分成幾等份。

從最小值到最大值之間，均分為等份。如果、為最小最大值，則每個(gè)區(qū)間的長(zhǎng)度為，區(qū)間邊界值為、、、。

等距分箱只考慮邊界，每個(gè)等份里面的實(shí)例數(shù)量可能不等。等距分桶的缺點(diǎn)是受到異常值的影響比較大。

(c) 等頻分箱。將數(shù)據(jù)分成幾等份，每等份數(shù)據(jù)里面的個(gè)數(shù)是一樣的。

在等頻分箱中，區(qū)間的邊界值要經(jīng)過(guò)計(jì)算獲得，最終每個(gè)區(qū)間包含大致相等的實(shí)例數(shù)量。比如說(shuō) ，每個(gè)區(qū)間應(yīng)該包含大約的實(shí)例。

數(shù)值變量分箱。我們先對(duì)船票價(jià)格做一個(gè)等頻切分(大家如果對(duì)船票價(jià)格進(jìn)行分布繪圖，會(huì)發(fā)現(xiàn)是很長(zhǎng)尾的分布，并不適合等距切分)，看看分開(kāi)的區(qū)間段。

# qcut 等頻率分箱

df_titanic['fare_bin'], bins = pd.qcut(df_titanic['fare'], 5, retbins=True)

df_titanic['fare_bin'].value_counts()

結(jié)果如下：

(7.854, 10.5]        184

(21.679, 39.688]     180

(-0.001, 7.854]      179

(39.688, 512.329]    176

(10.5, 21.679]       172

bins #array([  0.    ,   7.8542,  10.5   ,  21.6792,  39.6875, 512.3292])

下面根據(jù)區(qū)間段對(duì)其進(jìn)行等頻切分

# 對(duì)船票fare進(jìn)行分段分桶

def fare_cut(fare):

    if fare <=  7.8958:

        return 0

    if fare <= 10.5:

        return 1

    if fare <= 21.6792:

        return 2

    if fare <=  39.6875:

        return 3

    return 4



df_titanic['fare_bin'] = df_titanic['fare'].map(fare_cut)

相比船票價(jià)格，年齡 age 字段的分布更加集中，且區(qū)間大小比較明確，我們采用等距切分，代碼如下：

# cut 等距離分箱

bins = [0, 12, 18, 65, 100]

pd.cut(df_titanic['age'], bins).value_counts

② Best-KS分桶。

實(shí)現(xiàn)步驟：

將特征值值進(jìn)行從小到大的排序。

計(jì)算出  最大的那個(gè)值，即為切點(diǎn)，記為。然后把數(shù)據(jù)切分成兩部分。

重復(fù)步驟2，進(jìn)行遞歸，左右的數(shù)據(jù)進(jìn)一步切割。直到  的箱體數(shù)達(dá)到我們的預(yù)設(shè)閾值即可。

連續(xù)型變量：分箱后的值  分箱前的  值

分箱過(guò)程中，決定分箱后的  值是某一個(gè)切點(diǎn)，而不是多個(gè)切點(diǎn)的共同作用。這個(gè)切點(diǎn)的位置是原始  值最大的位置。

③ 卡方分桶。自底向上的(即基于合并的)數(shù)據(jù)離散化方法，依賴于卡方檢驗(yàn)：具有最小卡方值的相鄰區(qū)間合并在一起，直到滿足確定的停止準(zhǔn)則。

基本思想：如果兩個(gè)相鄰的區(qū)間具有非常類似的類分布，則這兩個(gè)區(qū)間可以合并；否則，它們應(yīng)當(dāng)保持分開(kāi)。而低卡方值表明它們具有相似的類分布。

實(shí)現(xiàn)步驟：

預(yù)先定義一個(gè)卡方的閾值

初始化；根據(jù)要離散的屬性對(duì)實(shí)例進(jìn)行排序，每個(gè)實(shí)例屬于一個(gè)區(qū)間

合并區(qū)間：計(jì)算每一對(duì)相鄰區(qū)間的卡方值，將卡方值最小的一對(duì)區(qū)間合并

代碼實(shí)現(xiàn)：https://github.com/Lantianzz/Scorecard-Bundle

④ 最小熵法分箱。還有最小熵分箱法，需要使總熵值達(dá)到最小，也就是使分箱能夠最大限度地區(qū)分因變量的各類別。

熵是信息論中數(shù)據(jù)無(wú)序程度的度量標(biāo)準(zhǔn)，提出信息熵的基本目的是找出某種符號(hào)系統(tǒng)的信息量和冗余度之間的關(guān)系，以便能用最小的成本和消耗來(lái)實(shí)現(xiàn)最高效率的數(shù)據(jù)存儲(chǔ)、管理和傳遞。

數(shù)據(jù)集的熵越低，說(shuō)明數(shù)據(jù)之間的差異越小，最小熵劃分就是為了使每箱中的數(shù)據(jù)具有最好的相似性。給定箱的個(gè)數(shù)，如果考慮所有可能的分箱情況，最小熵方法得到的箱應(yīng)該是具有最小熵的分箱。

3.4 特征組合

我們?cè)谟行﹫?chǎng)景下會(huì)考慮特征組合構(gòu)建強(qiáng)特征，如下為常用的特征組合構(gòu)建方式：（擴(kuò)展閱讀：一文歸納Python特征生成方法(全)）

離散+離散：構(gòu)建笛卡爾積（即兩兩組合『且』關(guān)系）。
離散+連續(xù)：連續(xù)特征分桶后進(jìn)行笛卡爾積或基于類別特征 group by 構(gòu)建統(tǒng)計(jì)特征。
連續(xù)+連續(xù)：加減乘除，多項(xiàng)式特征，二階差分等。

多項(xiàng)式特征。針對(duì)連續(xù)值特征，我們對(duì)幾個(gè)特征構(gòu)建多項(xiàng)式特征，以達(dá)到特征組合與高階增強(qiáng)的作用。

在Titanic的例子中，如下為數(shù)值型特征：

df_titanic_numerical = df_titanic[['age','sibsp','parch','fare','family_size']]

df_titanic_numerical.head()

我們可以參考下述代碼構(gòu)建多項(xiàng)式特征

# 擴(kuò)展數(shù)值特征

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, include_bias=False, interaction_only=False)

df_titanic_numerical_poly = poly.fit_transform(df_titanic_numerical)

pd.DataFrame(df_titanic_numerical_poly, columns=poly.get_feature_names()).head()

在構(gòu)建完成特征后，我們查看下衍生新特征變量的相關(guān)性情況，下面的熱力圖heatmap里顏色越深相關(guān)性越大：

sns.heatmap(pd.DataFrame(df_titanic_numerical_poly, columns=poly.get_feature_names()).corr())

4.特征變換

我們對(duì)于構(gòu)建完的特征，會(huì)做一些『特征變換』的操作，以適應(yīng)不同的模型，更好地完成建模。

4.1 標(biāo)準(zhǔn)化(Standardization)

標(biāo)準(zhǔn)化操作也稱作 Z-score 變換，它使數(shù)值特征列的算數(shù)平均為，方差(以及標(biāo)準(zhǔn)差)為，如圖所示。

注意：如果數(shù)值特征列中存在數(shù)值極大或極小的outlier(通過(guò)EDA發(fā)現(xiàn))，應(yīng)該使用更穩(wěn)健(robust)的統(tǒng)計(jì)數(shù)據(jù)：用中位數(shù)而不是算術(shù)平均數(shù)，用分位數(shù)(quantile)而不是方差。這種標(biāo)準(zhǔn)化方法有一個(gè)重要的參數(shù)：(分位數(shù)下限，分位數(shù)上限)，最好通過(guò)EDA的數(shù)據(jù)可視化確定。免疫outlier。

from sklearn.preprocessing import StandardScale

#標(biāo)準(zhǔn)化模型訓(xùn)練

Stan_scaler = StandardScaler()

Stan_scaler.fit(x)

x_zscore = Stan_scaler.transform(x)

x_test_zscore = Stan_scaler.transform(x_test)

joblib.dump(Stan_scaler,'zscore.m')  #寫入文件

4.2 歸一化(Normalization)

歸一化操作會(huì)基于向量模長(zhǎng)調(diào)整數(shù)據(jù)幅度大小，但并不會(huì)改變?cè)紨?shù)據(jù)的順序。如圖所示。

4.3 幅度縮放(scaling)

幅度縮放是為了讓不同特征的取值在大體一致的數(shù)量級(jí)和數(shù)據(jù)區(qū)間內(nèi)，比較常用的方法是最大最小值縮放，如圖所示。

from sklearn import preprocessing

min_max_scaler = preprocessing.MinMaxScaler()

min_max_scaler.fit_transform(x)

x_minmax = min_max_scaler.transform(x)

x_test_minmax = min_max_scaler.transform(x_test)

joblib.dump(min_max_scaler,'min_max_scaler.m')  #寫入文件

4.4 歸一化 VS 標(biāo)準(zhǔn)化

歸一化和標(biāo)準(zhǔn)化是兩個(gè)非常常見(jiàn)的特征變換操作，下面我們來(lái)對(duì)比一下標(biāo)準(zhǔn)化和歸一化：

目的不同，歸一化是為了消除綱量壓縮到區(qū)間；標(biāo)準(zhǔn)化只是調(diào)整特征整體的分布。
歸一化與最大，最小值有關(guān)；標(biāo)準(zhǔn)化與均值，標(biāo)準(zhǔn)差有關(guān)。
歸一化輸出在之間；標(biāo)準(zhǔn)化無(wú)限制。

它們分別的適用場(chǎng)景可以歸納總結(jié)如下：

在分類、聚類算法中，需要使用距離來(lái)度量相似性的時(shí)候(如 SVM、KNN)或者使用 PCA 技術(shù)進(jìn)行降維的時(shí)候，標(biāo)準(zhǔn)化(Z-score standardization)表現(xiàn)更好。

參考ShowMeAI教程 圖解機(jī)器學(xué)習(xí)算法：從入門到精通系列教程^[7]

在不涉及距離度量、協(xié)方差計(jì)算、數(shù)據(jù)不符合正太分布的時(shí)候，可以使用第一種方法或其他歸一化方法。例如圖像處理時(shí)，將 RGB 圖像轉(zhuǎn)換為灰度圖像后將其值限定在的范圍。
基于樹(shù)的模型(如隨機(jī)森林、GBDT、XGBoost、LightGBM等)不需要進(jìn)行特征的歸一化。如果是基于參數(shù)的模型或者基于距離的模型(邏輯回歸、K-Means聚類、神經(jīng)網(wǎng)絡(luò)等)，因?yàn)樾枰獙?duì)參數(shù)或者距離進(jìn)行計(jì)算，都需要進(jìn)行歸一化。

具體模型參考ShowMeAI教程?圖解機(jī)器學(xué)習(xí)算法：從入門到精通系列教程^[8]

4.5 非線性變換

我們?cè)谟行﹫?chǎng)景下，還會(huì)對(duì)數(shù)值字段進(jìn)行分布調(diào)整或者校正，利用統(tǒng)計(jì)或數(shù)學(xué)變換來(lái)減輕數(shù)據(jù)分布傾斜的影響。使原本密集的區(qū)間的值盡可能的分散，原本分散的區(qū)間的值盡量的聚合。大部分變換函數(shù)都屬于冪變換函數(shù)簇，主要作用是穩(wěn)定方差，保持分布接近于正態(tài)分布并使得數(shù)據(jù)與分布的平均值無(wú)關(guān)。我們來(lái)看看一些典型的非線性統(tǒng)計(jì)變換。

① log變換。log 變換通常用來(lái)創(chuàng)建單調(diào)的數(shù)據(jù)變換。主要作用為穩(wěn)定方差，始終保持分布接近于正態(tài)分布并使得數(shù)據(jù)與分布的平均值無(wú)關(guān)。

log 變換傾向于拉伸那些落在較低的幅度范圍內(nèi)自變量值的范圍，傾向于壓縮或減少更高幅度范圍內(nèi)的自變量值的范圍，從而使得傾斜分布盡可能的接近正態(tài)分布。
針對(duì)一些數(shù)值連續(xù)特征的方差不穩(wěn)定，特征值重尾分布我們需要采用 log 化來(lái)調(diào)整整個(gè)數(shù)據(jù)分布的方差，屬于方差穩(wěn)定型數(shù)據(jù)轉(zhuǎn)換。

log 變換屬于冪變換函數(shù)簇，數(shù)學(xué)表達(dá)式為

下面我們對(duì) Titanic 數(shù)據(jù)集中的船票價(jià)格字段進(jìn)行 log1p 變換，示例代碼如下：

sns.distplot(df_titanic.fare,kde=False)

df_titanic['fare_log'] = np.log((1+df_titanic['fare']))

sns.distplot(df_titanic.fare_log,kde=False)

② box-cox變換。box-cox 變換是 box 和 cox 在1964年提出的一種廣義冪變換方法，是統(tǒng)計(jì)建模中常用的一種數(shù)據(jù)變換，用于連續(xù)的響應(yīng)變量不滿足正態(tài)分布的情況。box-cox 變換之后，可以一定程度上減小不可觀測(cè)的誤差和預(yù)測(cè)變量的相關(guān)性。

box-cox 變換的主要特點(diǎn)是引入一個(gè)參數(shù)，通過(guò)數(shù)據(jù)本身估計(jì)該參數(shù)進(jìn)而確定應(yīng)采取的數(shù)據(jù)變換形式，box-cox 變換可以明顯地改善數(shù)據(jù)的正態(tài)性、對(duì)稱性和方差相等性，對(duì)許多實(shí)際數(shù)據(jù)都是行之有效的。

box-cox 變換函數(shù)數(shù)學(xué)表達(dá)式如下：

生成的變換后的輸出，是輸入和變換參數(shù)的函數(shù)；當(dāng) 時(shí)，該變換就是自然對(duì)數(shù) log 變換，前面我們已經(jīng)提到過(guò)了。的最佳取值通常由最大似然或最大對(duì)數(shù)似然確定。

下面我們對(duì)Titanic數(shù)據(jù)集中的船票價(jià)格字段進(jìn)行 box-cox 變換，示例代碼如下：

# 從數(shù)據(jù)分布中移除非零值

fare_positive_value = df_titanic[(~df_titanic['fare'].isnull()) & (df_titanic['fare']>0)]['fare']

import scipy.stats as spstats

# 計(jì)算最佳λ值

l, opt_lambda = spstats.boxcox(fare_positive_value)

print('Optimal lambda value:', opt_lambda) # -0.5239075895755266

# 進(jìn)行 Box-Cox 變換

fare_boxcox_lambda_opt = spstats.boxcox(df_titanic[df_titanic['fare']>0]['fare'],lmbda=opt_lambda)

sns.distplot(fare_boxcox_lambda_opt,kde=Fal

4.6 離散變量處理

對(duì)于類別型的字段特征（比如顏色、類型、好壞程度），有很多模型并不能直接處理，我們對(duì)其進(jìn)行編碼后能更好地呈現(xiàn)信息和支撐模型學(xué)習(xí)。有以下常見(jiàn)的類別型變量編碼方式：

① 標(biāo)簽編碼(label encoding)。標(biāo)簽編碼(label encoding)是最常見(jiàn)的類別型數(shù)據(jù)編碼方式之一，編碼值介于??和 n_classes-1 之間的標(biāo)簽。例如：比如有?我們把其轉(zhuǎn)換為?。

優(yōu)點(diǎn)：相對(duì)于 OneHot 編碼，LabelEncoder 編碼占用內(nèi)存空間小，并且支持文本特征編碼。
缺點(diǎn)：它的編碼方式給不同類別帶來(lái)了額外的大小順序關(guān)系，在有些計(jì)算型模型(比如邏輯回歸)里有影響，它可以使用在樹(shù)模型中。

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()

le.fit(["超一線", "一線", "二線", "三線"])

print('特征：{}'.format(list(le.classes_)))

# 輸出 特征：['一線', '三線', '二線', '超一線']

print('轉(zhuǎn)換標(biāo)簽值：{}'.format(le.transform(["超一線", "一線", "二線"])))

# 輸出 轉(zhuǎn)換標(biāo)簽值：array([3 0 2]...)

print('特征標(biāo)簽值反轉(zhuǎn)：{}'.format(list(le.inverse_transform([2, 2, 1]))))

# 輸出 特征標(biāo)簽值反轉(zhuǎn)：['二線', '二線', '三線

② 獨(dú)熱向量編碼(one hot encoding)。獨(dú)熱編碼通常用于處理類別間不具有大小關(guān)系的特征。例如：特征：血型，一共有四種類別?，采用獨(dú)熱編碼后，會(huì)把血型變成有一個(gè)4維的稀疏向量（最終生成的稀疏向量的維度，和類別數(shù)相同）：

優(yōu)點(diǎn)：獨(dú)熱編碼解決了分類器不好處理屬性數(shù)據(jù)的問(wèn)題，在一定程度上也起到了擴(kuò)充特征的作用。它的值只有和，不同的類型存儲(chǔ)在垂直的空間。
缺點(diǎn)：只能對(duì)數(shù)值型變量二值化，無(wú)法直接對(duì)字符串型的類別變量編碼。當(dāng)類別的數(shù)量很多時(shí)，特征空間會(huì)變得非常大。在這種情況下，一般可以用 PCA 來(lái)減少維度。而且 one hot encoding+PCA 這種組合在實(shí)際中也非常有用。

如果借助于pandas工具庫(kù)(查看ShowMeAI的?數(shù)據(jù)分析系列教程^[9]?和?數(shù)據(jù)科學(xué)工具速查 | Pandas使用指南^[10]?進(jìn)行詳細(xì)了解)，獨(dú)熱向量編碼的 Python 代碼參考示例如下：

sex_list = ['MALE', 'FEMALE', np.NaN, 'FEMALE', 'FEMALE', np.NaN, 'MALE']

df = pd.DataFrame({'SEX': sex_list})

display(df)

df.fillna('NA', inplace=True)

df = pd.get_dummies(df['SEX'],prefix='IS_SEX')

display(df)

最終變換前后的結(jié)果如下：

# 原始數(shù)據(jù)

 SEX

0   MALE

1   FEMALE

2   NaN

3   FEMALE

4   FEMALE

5   NaN

6   MALE



# 獨(dú)熱向量編碼后

 IS_SEX_FEMALE     IS_SEX_MALE    IS_SEX_NA

0    0                 1                0

1    1                 0                0

2    0                 0                1

3    1                 0                0

4    1                 0                0

5    0                 0                1

下面我們對(duì)’sex’, ‘class’, ‘pclass’, ’embarked’, ‘who’, ‘family_size’, ‘age_bin’這些字段都進(jìn)行獨(dú)熱向量編碼。

pd.get_dummies(df_titanic, columns=['sex', 'class', 'pclass', 'embarked', 'who', 'family_size', 'age_bin'],drop_first=True)

當(dāng)然，我們也可以借助SKLearn(查看ShowMeAI教程?SKLearn最全應(yīng)用指南?和?AI建模工具速查 | Scikit-learn使用指南?詳細(xì)學(xué)習(xí))，進(jìn)行獨(dú)熱向量編碼實(shí)現(xiàn)：

import numpy as np

from sklearn.preprocessing import OneHotEncoder

# 非負(fù)整數(shù)表示的標(biāo)簽列表

labels = [0,1,0,2]

# 行向量轉(zhuǎn)列向量

labels = np.array(labels).reshape(len(labels), -1)

# 獨(dú)熱向量編碼

enc = OneHotEncoder()

enc.fit(labels)

targets = enc.transform(labels).toarray()

# 如果不加 toarray() 的話，輸出的是稀疏的存儲(chǔ)格式，即索引加值的形式，也可以通過(guò)參數(shù)指定 sparse = False 來(lái)達(dá)到同樣的效果

輸出結(jié)果如下：

array([[ 1.,  0.,  0.],

 [ 0.,  1.,  0.],

 [ 1.,  0.,  0.],

 [ 0.,  0.,  1.]])

③ 標(biāo)簽二值化(LabelBinarizer)。功能與 OneHotEncoder 一樣，但是 OneHotEncoder 只能對(duì)數(shù)值型變量二值化，無(wú)法直接對(duì)字符串型的類別變量編碼，而 LabelBinarizer 可以直接對(duì)字符型變量二值化。

from sklearn.preprocessing import LabelBinarizer

lb=LabelBinarizer()

labelList=['yes', 'no', 'no', 'yes','no2']

# 將標(biāo)簽矩陣二值化

dummY=lb.fit_transform(labelList)

print("dummY:",dummY)

# 逆過(guò)程

yesORno=lb.inverse_transform(dummY)

print("yesOrno:",yesORno)

輸出如下：

dummY: [[0 0 1]

 [1 0 0]

 [1 0 0]

 [0 0 1]

 [0 1 0]]

yesOrno: ['yes' 'no' 'no' 'yes' 'no2']

4.7 降維

在實(shí)際的機(jī)器學(xué)習(xí)項(xiàng)目中，我們可能還會(huì)做降維^[11]處理，主要因?yàn)閿?shù)據(jù)存在以下幾個(gè)問(wèn)題：

數(shù)據(jù)的多重共線性：特征屬性之間存在著相互關(guān)聯(lián)關(guān)系。多重共線性會(huì)導(dǎo)致解的空間不穩(wěn)定，從而導(dǎo)致模型的泛化能力弱。
高緯空間樣本具有稀疏性，導(dǎo)致模型比較難找到數(shù)據(jù)特征。
過(guò)多的變量會(huì)妨礙模型查找規(guī)律。
僅僅考慮單個(gè)變量對(duì)于目標(biāo)屬性的影響可能忽略變量之間的潛在關(guān)系。

通過(guò)特征降維希望達(dá)到的目的：減少特征屬性的個(gè)數(shù)，確保特征屬性之間是相互獨(dú)立的。

常用的降維方法有：PCA、SVD、LDA、T-sne等非線性降維。

這里降維的講解，我們給大家基于 iris 數(shù)據(jù)集講解：

from sklearn import datasets



iris_data = datasets.load_iris()



X = iris_data.data

y = iris_data.target



def draw_result(X, y):

    plt.figure()

    # 提取 Iris-setosa

    setosa = X[y == 0]

    # 繪制點(diǎn)：參數(shù) 1 x 向量，y 向量

    plt.scatter(setosa[:, 0], setosa[:, 1], color="red", label="Iris-setosa")



    versicolor = X[y == 1]

    plt.scatter(versicolor[:, 0], versicolor[:, 1], color="orange", label="Iris-versicolor")



    virginica = X[y == 2]

    plt.scatter(virginica[:, 0], virginica[:, 1], color="blue", label="Iris-virginica")



    plt.legend()

    plt.show()



draw_result(X, y)

① PCA(Principal Component Analysis)。關(guān)于PCA主成分分析降維算法，大家可以查閱ShowMeAI文章?圖解機(jī)器學(xué)習(xí) | 降維算法詳解^[12]?進(jìn)行詳細(xì)學(xué)習(xí)。

② SVD(Singular Value Decomposition)

SVD方法的主要步驟如下：

所以??是??特征值分解的特征向量按列組成的正交矩陣，??是??特征值組成的對(duì)角矩陣，也可以看出??的奇異值??是??特征值??的平方根。

假如的特征向量為，中對(duì)應(yīng)的則可以由下式求出：

也即奇異值分解的關(guān)鍵在于對(duì)??進(jìn)行特征值分解。

from sklearn.decomposition import TruncatedSVD

iris_2d = TruncatedSVD(2).fit_transform(X)

draw_result(iris_2d, y)

PCA VS SVD

PCA求解關(guān)鍵在于求解協(xié)方差矩陣的特征值分解。

SVD關(guān)鍵在于的特征值分解。

很明顯二者所解決的問(wèn)題非常相似，都是對(duì)一個(gè)實(shí)對(duì)稱矩陣進(jìn)行特征值分解，如果?。?/p>

則有:

此時(shí)SVD與PCA等價(jià)，所以PCA問(wèn)題可以轉(zhuǎn)化為SVD問(wèn)題求解。

③ ?LDA(Linear Discriminant Analysis)。是有監(jiān)督的降維，通過(guò)最小化類內(nèi)離散度與最大化類間離散度來(lái)獲得最優(yōu)特征子集。

上圖解讀：LD1通過(guò)線性判定，可以很好的將呈正態(tài)分布的兩個(gè)類分開(kāi)。LD2的線性判定保持了數(shù)據(jù)集的較大方差，但LD2無(wú)法提供關(guān)于類別的信息，因此LD2不是一個(gè)好的線性判定。

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

lda = LDA(n_components=2)

iris_2d = lda.fit_transform(X, y)

draw_result(iris_2d, y)

LDA VS PCA

PCA 試圖尋找到方差最大的正交的主成分分量軸 LDA 發(fā)現(xiàn)可以最優(yōu)化分類的特征子空間 LDA 和 PCA 都是可用于降低數(shù)據(jù)集維度的線性轉(zhuǎn)換技巧 PCA 是無(wú)監(jiān)督算法 LDA 是監(jiān)督算法 LDA 是一種更優(yōu)越的用于分類的特征提取技術(shù)

④ ?T-SNE。T-SNE(t-distributed stochastic neighbor embedding)是一種非線性降維方法：

from sklearn.manifold import TSNE

tsne = TSNE(n_components=2)

iris_2d = tsne.fit_transform(X)

draw_result(iris_2d, y)

5.特征選擇

特征選擇是在建模過(guò)程中經(jīng)常會(huì)用到的一個(gè)處理，也有重要意義：

特征冗余，部分特征相關(guān)度太高，消耗計(jì)算資源。
存在噪聲，對(duì)模型結(jié)果有負(fù)面影響。
部分特征容易引起過(guò)擬合。

總體來(lái)說(shuō)，進(jìn)行特征選擇有2個(gè)主要考慮方向：

特征發(fā)散程度：如果一個(gè)特征不發(fā)散，例如方差接近于，也就是說(shuō)樣本在這個(gè)特征上基本上沒(méi)有差異，這個(gè)特征對(duì)于樣本的區(qū)分并沒(méi)有什么用。
特征與目標(biāo)的相關(guān)性：特征與目標(biāo)相關(guān)性高，越應(yīng)當(dāng)被保留，這點(diǎn)大家也比較容易理解。

對(duì)特征選擇的方法進(jìn)行歸類，又大體可以歸納為下述3種：

Filter：過(guò)濾法，按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分，設(shè)定閾值或者待選擇閾值的個(gè)數(shù)來(lái)選擇特征。
Wrapper：包裝法，根據(jù)目標(biāo)函數(shù)(通常是預(yù)測(cè)效果評(píng)分)，每次選擇若干特征或者排除若干特征。
Embedded：嵌入法，先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練，得到各個(gè)特征的權(quán)值系數(shù)，根據(jù)系數(shù)從大到小選擇特征。類似于Filter 方法，但是是通過(guò)訓(xùn)練來(lái)確定特征的優(yōu)劣。我們使用 SKLearn 中的?feature_selection?庫(kù)來(lái)進(jìn)行特征選擇。

5.1 過(guò)濾式Filter

① 方差過(guò)濾。這是通過(guò)特征本身的方差來(lái)篩選特征的類。比如一個(gè)特征本身的方差很小，就表示樣本在這個(gè)特征上基本沒(méi)有差異，可能特征中的大多數(shù)值都一樣，甚至整個(gè)特征的取值都相同，那這個(gè)特征對(duì)于樣本區(qū)分沒(méi)有什么作用。

我們會(huì)剔除掉方差非常小的字段特征，參考代碼實(shí)現(xiàn)如下：

from sklearn.feature_selection import VarianceThreshold

variancethreshold = VarianceThreshold() #實(shí)例化，默認(rèn)方差為 0.方差<=0 的過(guò)濾掉

df_titanic_numerical = df_titanic[['age','sibsp','parch','fare','family_size']]

X_var = variancethreshold.fit_transform(df_titanic_numerical)    #獲取刪除不合格特征后的新特征矩陣

del_list = df_titanic_numerical.columns[variancethreshold.get_support()==0].to_list()  #獲得刪除

② 卡方過(guò)濾?？ǚ綑z驗(yàn)，專用于分類算法，捕捉相關(guān)性，追求p小于顯著性水平的特征?？ǚ竭^(guò)濾是專門針對(duì)離散型標(biāo)簽(即分類問(wèn)題)的相關(guān)性過(guò)濾。

p值和取到這一個(gè)統(tǒng)計(jì)量的概率取值其實(shí)是正相關(guān)的：?值越大，取到這個(gè)統(tǒng)計(jì)量的概率就越大，即越合理；?值越小，取到這個(gè)統(tǒng)計(jì)量的概率就越小，即越不合理，此時(shí)應(yīng)該拒絕原假設(shè)，接收備擇假設(shè)。

df_titanic_categorical = df_titanic[['sex', 'class', 'embarked', 'who',  'age_bin','adult_male','alone','fare_bin']]

df_titanic_numerical = df_titanic[['age','sibsp','parch','fare','family_size','pclass']]

df_titanic_categorical_one_hot = pd.get_dummies(df_titanic_categorical, columns=['sex', 'class', 'embarked', 'who',  'age_bin','adult_male','alone','fare_bin'], drop_first=True)

df_titanic_combined = pd.concat([df_titanic_numerical,df_titanic_categorical_one_hot],axis=1)



y = df_titanic['survived']

X = df_titanic_combined.iloc[:,1:]



from sklearn.feature_selection import chi2

from sklearn.feature_selection import SelectKBest

chi_value, p_value = chi2(X,y)

#根據(jù) p 值，得出 k 值

k = chi_value.shape[0] - (p_value > 0.05).sum()  #要保留的特征的數(shù)量 14

#根據(jù)卡方值，選擇前幾特征,篩選后特征

X_chi = SelectKBest(chi2, k=14).fit_transform(X, y)

③ F檢驗(yàn)。?檢驗(yàn)捕捉線性相關(guān)性，要求數(shù)據(jù)服從正態(tài)分布，追求??值小于顯著性水平特征。

from sklearn.feature_selection import f_classif

f_value, p_value = f_classif(X,y)

#根據(jù) p 值，得出 k 值

k = f_value.shape[0] - (p_value > 0.05).sum()

#篩選后特征

X_classif = SelectKBest(f_classif, k=14).fit_transform(X, y)

④ 互信息法?；バ畔⒎ㄊ怯脕?lái)捕捉每個(gè)特征與標(biāo)簽之間的任意關(guān)系(包括線性和非線性關(guān)系)的過(guò)濾方法。

from sklearn.feature_selection import mutual_info_classif as MIC

#互信息法

mic_result = MIC(X,y)   #互信息量估計(jì)

k = mic_result.shape[0] - sum(mic_result <= 0)    #16

X_mic = SelectKBest(MIC, k=16).fit_transform(X, y)

5.2 包裹式Wrapper

① 歸特征刪除法。遞歸消除刪除法使用一個(gè)基模型來(lái)進(jìn)行多輪訓(xùn)練，每輪訓(xùn)練后，消除若干權(quán)值系數(shù)的特征，再基于新的特征集進(jìn)行下一輪訓(xùn)練。使用feature_selection?庫(kù)的 RFE 類來(lái)選擇特征的代碼如下：

from sklearn.feature_selection import RFE

from sklearn.linear_model import LogisticRegression

#遞歸特征消除法，返回特征選擇后的數(shù)據(jù)

#參數(shù) estimator 為基模型

#參數(shù) n_features_to_select 為選擇的特征個(gè)數(shù)

X_ref = RFE(estimator=LogisticRegression(), n_features_to_select=10).fit_transform(X, y)

② 特征重要性評(píng)估。我們基于一些模型(如各類樹(shù)模型)可以得到特征重要度，進(jìn)而進(jìn)行篩選

from sklearn.ensemble import ExtraTreesClassifier

# 建模與獲取特征重要度

model = ExtraTreesClassifier()

model.fit(X, y)

print(model.feature_importances_)



# 特征重要度排序

feature=list(zip(X.columns,model.feature_importances_))

feature=pd.DataFrame(feature,columns=['feature','importances'])

feature.sort_values(by='importances',ascending=False).head(20)

③ 排列重要性評(píng)估。我們還有一類方法可以評(píng)估特征重要度，進(jìn)而進(jìn)行篩選，叫作排列重要度。

原理：在訓(xùn)練機(jī)器學(xué)習(xí)模型之后計(jì)算置換重要性。這種方法在向模型提出假設(shè)，如果在保留目標(biāo)和所有其他列的同時(shí)隨機(jī)打亂一列驗(yàn)證集特征數(shù)據(jù)，對(duì)預(yù)測(cè)機(jī)器學(xué)習(xí)模型的準(zhǔn)確性的影響程度。對(duì)于一個(gè)具有高度重要性的特征，random-reshuffle 會(huì)對(duì)機(jī)器學(xué)習(xí)模型預(yù)測(cè)的準(zhǔn)確性造成更大的損害。

優(yōu)點(diǎn)：快速計(jì)算；易于使用和理解；特征重要性度量的屬性；追求特征穩(wěn)定性。

參考代碼實(shí)現(xiàn)如下：

import numpy as np

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

import eli5

from eli5.sklearn import PermutationImportance

my_model = RandomForestClassifier(random_state=0).fit(train_X, train_y)

perm = PermutationImportance(my_model, random_state=1).fit(val_X, val_y)

eli5.show_weights(perm, feature_names = val_X.columns.tolist())

5.3 嵌入式Embedded

① 基于懲罰項(xiàng)的特征選擇法。使用帶懲罰項(xiàng)的基模型，除了篩選出特征外，同時(shí)也進(jìn)行了降維。

使用feature_selection庫(kù)的SelectFromModel類結(jié)合帶 L1 懲罰項(xiàng)的邏輯回歸模型，來(lái)選擇特征的代碼如下：

from sklearn.feature_selection import SelectFromModel

from sklearn.linear_model import LogisticRegression

#帶 L1 和 L2 懲罰項(xiàng)的邏輯回歸作為基模型的特征選擇,這個(gè)設(shè)置帶 L1 懲罰項(xiàng)的邏輯回歸作為基模型的特征選擇

lr = LogisticRegression(solver='liblinear',penalty="l1", C=0.1)

X_sfm = SelectFromModel(lr).fit_transform(X, y)

X_sfm.shape

(891, 7

使用 feature_selection 庫(kù)的 SelectFromModel 類結(jié)合 SVM 模型，來(lái)選擇特征的代碼如下：

from sklearn.feature_selection import SelectFromModel

from sklearn.svm import LinearSVC

lsvc = LinearSVC(C=0.01,penalty='l1',dual=False).fit(X, y)

model = SelectFromModel(lsvc,prefit=True)

X_sfm_svm = model.transform(X)

X_sfm_svm.shape

(891, 7

② 基于樹(shù)模型。樹(shù)模型中 GBDT 也可用來(lái)作為基模型進(jìn)行特征選擇，使用 feature_selection 庫(kù)的 SelectFromModel 類結(jié)合 GBDT 模型，來(lái)選擇特征的代碼如下：

from sklearn.feature_selection import SelectFromModel

from sklearn.ensemble import GradientBoostingClassifier

#GBDT 作為基模型的特征選擇

gbdt = GradientBoostingClassifier()

X_sfm_gbdt = SelectFromModel(gbdt).fit_transform(X, y)

5.4 特征選擇總結(jié)

關(guān)于特征選擇，做一個(gè)經(jīng)驗(yàn)總結(jié)，如下：

類別型特征變量，那么可以從SelectKBest開(kāi)始，用卡方或者基于樹(shù)的選擇器來(lái)選擇變量；
定量特征變量，可以直接用線性模型和基于相關(guān)性的選擇器來(lái)選擇變量；
二分類問(wèn)題，可以考慮使用SelectFromModel和SVC；
特征選擇前，要充分了解數(shù)據(jù)，一般需要做探索性數(shù)據(jù)分析EDA。

6.特征工程實(shí)戰(zhàn)建議

最后，ShowMeAI結(jié)合實(shí)際工業(yè)應(yīng)用經(jīng)驗(yàn)，總結(jié)一些特征工程要點(diǎn)：

6.1 數(shù)據(jù)理解

構(gòu)建特征的有效性，和業(yè)務(wù)及數(shù)據(jù)分布強(qiáng)相關(guān)，因此建議在此步驟之前做EDA探索性數(shù)據(jù)分析來(lái)充分理解數(shù)據(jù)。

可以參考ShowMeAI文章?Python機(jī)器學(xué)習(xí)綜合項(xiàng)目-電商銷量預(yù)估^[13]?和?Python機(jī)器學(xué)習(xí)綜合項(xiàng)目-電商銷量預(yù)估<進(jìn)階>^[14]?了解EDA的基本過(guò)程和方法。

6.2 數(shù)據(jù)預(yù)處理

我們可能會(huì)做的一些數(shù)據(jù)預(yù)處理與特征處理如下：

① 連續(xù)特征離散化

本質(zhì)是限制浮點(diǎn)數(shù)特征的精度，異常數(shù)據(jù)有很強(qiáng)的魯棒性，模型也會(huì)更穩(wěn)定。
樹(shù)模型不需要做

② 數(shù)值截?cái)?/strong>

把特征值的取值限制在一定范圍內(nèi)(對(duì)異常剔除有幫助)

可以用 pandas dataframe 的 .clip(low,upper) 方法

6.3 數(shù)據(jù)清洗

結(jié)合業(yè)務(wù)場(chǎng)景和數(shù)據(jù)分布，進(jìn)行合理的缺失值、異常值處理。

6.4 特征構(gòu)建與變換

建議不要上來(lái)就做PCA或LDA降維，最好先構(gòu)建特征并對(duì)特征做篩選。
① 線性組合(linear combination)
適用于決策樹(shù)以及基于決策樹(shù)的ensemble(如gradient boosting,random forest)，因?yàn)槌Ｒ?jiàn)的 axis-aligned split function 不擅長(zhǎng)捕獲不同特征之間的相關(guān)性；不適用于SVM、線性回歸、神經(jīng)網(wǎng)絡(luò)等。
② 類別特征與數(shù)值特征的組合
用 N1 和 N2 表示數(shù)值特征，用 C1 和 C2 表示類別特征，利用 pandas 的 groupby 操作，可以創(chuàng)造出以下幾種有意義的新特征：(其中，C2還可以是離散化了的 N1)

median(N1)_by(C1) 中位數(shù) mean(N1)_by(C1) 算術(shù)平均數(shù) mode(N1)_by(C1) 眾數(shù) min(N1)_by(C1) 最小值 max(N1)_by(C1) 最大值 std(N1)_by(C1) 標(biāo)準(zhǔn)差 var(N1)_by(C1) 方差 freq(C2)_by(C1) 頻數(shù)

③ 統(tǒng)計(jì)特征+線性組合

統(tǒng)計(jì)特征可以和線性組合等基礎(chǔ)特征工程方法結(jié)合(僅用于決策樹(shù))，可以得到更多有意義的特征，如：

N1 - median(N1)_by(C1) N1 - mean(N1)_by(C1)

④ 基于樹(shù)模型創(chuàng)造新特征

在決策樹(shù)系列算法中(例決策樹(shù)、gbdt、隨機(jī)森林，具體可以查看ShowMeAI教程?圖解機(jī)器學(xué)習(xí)算法：從入門到精通系列教程?詳細(xì)學(xué)習(xí)理解)，每一個(gè)樣本都會(huì)被映射到?jīng)Q策樹(shù)的葉子上。

我們可以把樣本經(jīng)過(guò)每一棵決策樹(shù)映射后的 index(自然數(shù))或 one-hot-encoding-vector (啞編碼得到的稀疏矢量)作為一項(xiàng)新的特征，加入到模型中。

在 Scikit-Learn 和 XGBoost 里，可以基于 apply() 以及 decision_path() 等方法實(shí)現(xiàn)。

6.5 模型

我們?cè)诓煌愋偷哪Ｐ屠?，也?huì)考慮不同的特征工程方法：

① 樹(shù)模型

對(duì)特征數(shù)值幅度不敏感，可以不進(jìn)行無(wú)量綱化和統(tǒng)計(jì)變換處理；

數(shù)模型特征依賴于樣本距離來(lái)進(jìn)行學(xué)習(xí)，可以不進(jìn)行類別特征編碼(但字符型特征不能直接作為輸入，所以需要至少要進(jìn)行標(biāo)簽編碼)。

LightGBM 和 XGBoost 都能將缺失值作為數(shù)據(jù)的一部分進(jìn)行學(xué)習(xí)，所以不需要處理缺失值。其他情況需要填充缺失。

② 依賴樣本距離的模型

如線性回歸、SVM、深度學(xué)習(xí)等屬于這一類。

對(duì)于數(shù)值型特征需要進(jìn)行無(wú)量綱化處理。

對(duì)于一些長(zhǎng)尾分布的數(shù)據(jù)特征，可以做統(tǒng)計(jì)變換，使得模型能更好優(yōu)化。

對(duì)于線性模型，特征分箱可以提升模型表達(dá)能力。

文章轉(zhuǎn)自微信公眾號(hào)@算法進(jìn)階

上一篇：

Python數(shù)據(jù)分析指南(全)

下一篇：

吳恩達(dá)：機(jī)器學(xué)習(xí)的6個(gè)核心算法

#你可能也喜歡這些API文章!

使用這些基本 REST API 最佳實(shí)踐構(gòu)建出色的 API

如何使用API：初學(xué)者的分步教程

使用NestJS和Prisma構(gòu)建REST API：身份驗(yàn)證

我們有何不同？

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型，提升決策效率
查看全部API→

??
熱門場(chǎng)景實(shí)測(cè)，選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

內(nèi)容目錄

特征工程簡(jiǎn)介
Titanic實(shí)戰(zhàn)項(xiàng)目
1.特征類型
2.數(shù)據(jù)清洗
3.特征構(gòu)建
4.特征變換
5.特征選擇
6.特征工程實(shí)戰(zhàn)建議

返回頂部

冪簡(jiǎn)集成是創(chuàng)新的API接口平臺(tái)，一站搜索、試用、集成國(guó)內(nèi)外API接口。

API接口

API接口大全

免費(fèi)API接口

抽象API接口

精選API接口

美國(guó)API接口

國(guó)外API接口

API接口

人工智能API

AI生成API

Web3 API

SEO API接口

數(shù)據(jù)API接口

在線工具API

API知識(shí)庫(kù)

API是什么

如何調(diào)用API

如何集成API

API貨幣化

如何開(kāi)發(fā)API

API安全

冪簡(jiǎn)集成

關(guān)于我們

加入我們

服務(wù)條款

隱私協(xié)議

網(wǎng)站地圖

Copyright ? 2024 All Rights Reserved 北京蜜堂有信科技有限公司

增值電信業(yè)務(wù)經(jīng)營(yíng)許可證：京B2-20191889

京ICP備18034931號(hào)

公司地址：北京市朝陽(yáng)區(qū)光華路和喬大廈C座1508

意見(jiàn)反饋：010-533324933,mtyy@miitang.com

感谢您访问我们的网站，您可能还对以下资源感兴趣：
三级a黄在线观看

特征工程簡(jiǎn)介

Titanic實(shí)戰(zhàn)項(xiàng)目

1.特征類型

2.數(shù)據(jù)清洗

2.1 數(shù)據(jù)對(duì)齊

2.2 缺失值處理

(1) 刪除 · 缺失值處理

2.3 異常值處理

(1) 異常檢測(cè)方法

(2) 異常處理方法

3.特征構(gòu)建

3.1 統(tǒng)計(jì)特征構(gòu)建

3.2 周期值

3.3 數(shù)據(jù)分桶

3.4 特征組合

4.特征變換

4.1 標(biāo)準(zhǔn)化(Standardization)

4.2 歸一化(Normalization)

4.3 幅度縮放(scaling)

4.4 歸一化 VS 標(biāo)準(zhǔn)化

4.5 非線性變換

4.6 離散變量處理

4.7 降維

5.特征選擇

5.1 過(guò)濾式Filter

5.2 包裹式Wrapper

5.3 嵌入式Embedded

5.4 特征選擇總結(jié)

6.特征工程實(shí)戰(zhàn)建議

6.1 數(shù)據(jù)理解

6.2 數(shù)據(jù)預(yù)處理

6.3 數(shù)據(jù)清洗

6.4 特征構(gòu)建與變換

6.5 模型

Python數(shù)據(jù)分析指南(全)

吳恩達(dá)：機(jī)器學(xué)習(xí)的6個(gè)核心算法

我們有何不同？

熱門場(chǎng)景實(shí)測(cè)，選對(duì)API

#AI文本生成大模型API

#AI深度推理大模型API

我們有何不同？

熱門場(chǎng)景實(shí)測(cè)，選對(duì)API