欧美va亚洲va日韩va,人人玩人人妻精品,99精品

總之，K-均值聚類是一種把數(shù)據(jù)分組的方法，它通過找到每組數(shù)據(jù)的中心點(diǎn)，并不斷調(diào)整這些中心點(diǎn)的位置，來達(dá)到分組的目的。

理論基礎(chǔ)

數(shù)學(xué)原理與公式推理

1. 目標(biāo)函數(shù)

K-均值聚類的目標(biāo)是最小化每個(gè)簇內(nèi)樣本到簇中心的距離之和。用數(shù)學(xué)符號表示，即最小化以下目標(biāo)函數(shù)：

其中：

是簇的數(shù)量。
是第個(gè)簇的樣本集合。
是樣本點(diǎn)。
是第個(gè)簇的中心（質(zhì)心）。

2. 質(zhì)心的計(jì)算

質(zhì)心是簇內(nèi)所有點(diǎn)的平均值。第??個(gè)簇的質(zhì)心??的計(jì)算公式為：

其中是簇中的樣本點(diǎn)數(shù)量。

算法流程

初始化：

隨機(jī)選擇個(gè)初始質(zhì)心。

分配樣本到最近的質(zhì)心：

對每個(gè)樣本點(diǎn) ，計(jì)算其到每個(gè)質(zhì)心的距離：

將??分配到最近的質(zhì)心所對應(yīng)的簇?：

更新質(zhì)心：

對每個(gè)簇，重新計(jì)算其質(zhì)心：

檢查收斂條件：

如果質(zhì)心的位置在前后兩次迭代中沒有顯著變化，或者達(dá)到預(yù)設(shè)的迭代次數(shù)，則算法終止。
否則，返回步驟2。

詳細(xì)推導(dǎo)

目標(biāo)函數(shù)的推導(dǎo)：

目標(biāo)函數(shù) 表示簇內(nèi)平方誤差總和（Sum of Squared Errors, SSE），即所有樣本點(diǎn)到其所屬簇質(zhì)心的歐幾里得距離的平方和：

為了最小化，我們需要反復(fù)調(diào)整每個(gè)簇的質(zhì)心位置并重新分配樣本點(diǎn)到簇。

質(zhì)心計(jì)算的推導(dǎo)：

對于每個(gè)簇，質(zhì)心是簇內(nèi)所有點(diǎn)的平均值：

這是因?yàn)橘|(zhì)心是使得簇內(nèi)點(diǎn)到質(zhì)心距離平方和最小的點(diǎn)。

迭代更新：

在每次迭代中，通過最小化每個(gè)簇的內(nèi)部誤差來更新質(zhì)心，并通過最小化樣本點(diǎn)到質(zhì)心的距離重新分配樣本點(diǎn)。
反復(fù)進(jìn)行質(zhì)心更新和樣本點(diǎn)分配，直到收斂。

收斂性與復(fù)雜度分析

收斂性：K-均值算法通過每次迭代減少目標(biāo)函數(shù) 的值，最終收斂到一個(gè)局部最優(yōu)解。雖然不能保證找到全局最優(yōu)解，但通常通過多次運(yùn)行K-均值并選擇最小的值的結(jié)果來提高效果。
復(fù)雜度：在每次迭代中，計(jì)算每個(gè)樣本點(diǎn)到每個(gè)質(zhì)心的距離的復(fù)雜度是，更新質(zhì)心的復(fù)雜度是，因此總的時(shí)間復(fù)雜度大致為，其中是迭代次數(shù)，是樣本數(shù)量，是簇的數(shù)量。

綜上，K-均值聚類通過迭代優(yōu)化，逐步最小化樣本點(diǎn)到質(zhì)心的距離平方和，達(dá)到將數(shù)據(jù)分成多個(gè)相似簇的目的。

完整案例

我們來進(jìn)行一個(gè)完整的K-均值聚類實(shí)際案例示例。

還是使用經(jīng)典的鳶尾花數(shù)據(jù)集（Iris Dataset），這個(gè)數(shù)據(jù)集包含150個(gè)樣本，每個(gè)樣本有4個(gè)特征：花萼長度、花萼寬度、花瓣長度和花瓣寬度。此外，每個(gè)樣本還標(biāo)注了其所屬的花的品種（鳶尾花的三種品種：Iris-setosa、Iris-versicolor和Iris-virginica）。

完整代碼，大家可以根據(jù)注釋進(jìn)行理解，后面可以使用自己的數(shù)據(jù)集進(jìn)行實(shí)現(xiàn)，加強(qiáng)理解。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.cluster import KMeans

from sklearn.datasets import load_iris

from sklearn.decomposition import PCA

from sklearn.metrics import silhouette_score



# 加載數(shù)據(jù)集

iris = load_iris()

X = iris.data

y = iris.target

feature_names = iris.feature_names



# 將數(shù)據(jù)集轉(zhuǎn)換為DataFrame，便于處理

df = pd.DataFrame(X, columns=feature_names)

df['target'] = y



# 數(shù)據(jù)可視化

sns.pairplot(df, hue='target', markers=["o", "s", "D"])

plt.suptitle('Iris Data Pair Plot', y=1.02)

plt.show()

# 使用PCA進(jìn)行降維到2D，以便于可視化

pca = PCA(n_components=2)

X_pca = pca.fit_transform(X)

df_pca = pd.DataFrame(X_pca, columns=['PCA1', 'PCA2'])

df_pca['target'] = y



# 可視化降維后的數(shù)據(jù)

plt.figure(figsize=(10, 6))

sns.scatterplot(x='PCA1', y='PCA2', hue='target', data=df_pca, palette='deep', markers=["o", "s", "D"])

plt.title('PCA of Iris Dataset')

plt.show()

# 確定最優(yōu)的簇?cái)?shù)

inertia = []

silhouette_scores = []

K_range = range(2, 11)



for k in K_range:

    kmeans = KMeans(n_clusters=k, random_state=42)

    kmeans.fit(X)

    inertia.append(kmeans.inertia_)

    score = silhouette_score(X, kmeans.labels_)

    silhouette_scores.append(score)



# 繪制肘部法圖和輪廓系數(shù)圖

fig, ax1 = plt.subplots(figsize=(12, 6))

plt.subplot(1, 2, 1)

plt.plot(K_range, inertia, 'bo-')

plt.xlabel('Number of clusters (k)')

plt.ylabel('Inertia')

plt.title('Elbow Method For Optimal k')



plt.subplot(1, 2, 2)

plt.plot(K_range, silhouette_scores, 'bo-')

plt.xlabel('Number of clusters (k)')

plt.ylabel('Silhouette Score')

plt.title('Silhouette Scores For Optimal k')



plt.show()

# 選擇最優(yōu)簇?cái)?shù)并進(jìn)行K-均值聚類

optimal_k = 3  # 根據(jù)肘部法和輪廓系數(shù)選擇

kmeans = KMeans(n_clusters=optimal_k, random_state=42)

kmeans.fit(X)

labels = kmeans.labels_



# 將聚類結(jié)果加入到DataFrame

df_pca['cluster'] = labels



# 可視化聚類結(jié)果

plt.figure(figsize=(10, 6))

sns.scatterplot(x='PCA1', y='PCA2', hue='cluster', data=df_pca, palette='deep', markers=["o", "s", "D"])

plt.title('K-means Clustering of Iris Dataset')

plt.show()



# 打印聚類中心

centroids = kmeans.cluster_centers_

centroids_df = pd.DataFrame(centroids, columns=feature_names)

print("Cluster Centers (Centroids):\n", centroids_df)



# 打印輪廓系數(shù)

final_silhouette_score = silhouette_score(X, labels)

print(f"Final Silhouette Score: {final_silhouette_score}")

其中需要注意的幾個(gè)步驟：

數(shù)據(jù)加載與初步處理：

加載鳶尾花數(shù)據(jù)集，并將其轉(zhuǎn)換為DataFrame格式。
使用Seaborn進(jìn)行數(shù)據(jù)的初步可視化，繪制特征對特征的散點(diǎn)圖，展示不同類別的分布情況。

降維與可視化：

使用PCA將數(shù)據(jù)降維到2D，以便于后續(xù)的可視化。
繪制降維后的數(shù)據(jù)分布圖，進(jìn)一步觀察數(shù)據(jù)的結(jié)構(gòu)。

確定最優(yōu)的簇?cái)?shù)：

使用肘部法和輪廓系數(shù)（Silhouette Score）來確定最優(yōu)的簇?cái)?shù)。
繪制肘部法圖和輪廓系數(shù)圖，根據(jù)圖形選擇最優(yōu)的簇?cái)?shù)（本例中選擇k=3）。

K-均值聚類：

使用K-均值算法進(jìn)行聚類，并將結(jié)果標(biāo)簽加入到DataFrame中。
可視化聚類結(jié)果，展示不同簇的分布情況。

聚類中心與輪廓系數(shù)：

打印聚類中心（質(zhì)心）的位置。
計(jì)算并打印最終的輪廓系數(shù)，以評估聚類效果。

算法優(yōu)化

算法優(yōu)化方面，可以考慮三方面：

初始質(zhì)心選擇優(yōu)化
數(shù)據(jù)標(biāo)準(zhǔn)化
重復(fù)實(shí)驗(yàn)

1. 初始質(zhì)心選擇優(yōu)化：使用k-means++算法來優(yōu)化初始質(zhì)心的選擇，從而提高聚類的穩(wěn)定性和準(zhǔn)確性。

kmeans = KMeans(n_clusters=optimal_k, init='k-means++', random_state=42)

2. 數(shù)據(jù)標(biāo)準(zhǔn)化：在聚類之前，對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，使得每個(gè)特征的均值為0，方差為1。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

3. 重復(fù)實(shí)驗(yàn)：運(yùn)行多次K-均值聚類，并選擇最小的目標(biāo)函數(shù)值對應(yīng)的聚類結(jié)果。

kmeans = KMeans(n_clusters=optimal_k, init='k-means++', n_init=10, random_state=42)

通過整個(gè)的代碼和優(yōu)化策略，大家可以感受整個(gè)過程。代碼中，實(shí)現(xiàn)了鳶尾花數(shù)據(jù)集的聚類分析，并且通過可視化、評估指標(biāo)等手段對聚類效果進(jìn)行了詳細(xì)的評估和優(yōu)化。

模型分析

K-均值聚類模型的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

簡單易實(shí)現(xiàn)：K-均值聚類算法簡單直觀，易于理解和實(shí)現(xiàn)。
計(jì)算速度快：適用于大規(guī)模數(shù)據(jù)集，計(jì)算復(fù)雜度較低。
適用范圍廣：對于球狀分布的數(shù)據(jù)效果較好，特別是在數(shù)據(jù)量不是很大、簇的形狀規(guī)則且差異明顯時(shí)表現(xiàn)良好。

缺點(diǎn)：

需要預(yù)先指定簇的數(shù)量K：對于不知道簇?cái)?shù)量的數(shù)據(jù)，難以確定合適的K值。
對初始質(zhì)心的選擇敏感：初始質(zhì)心的選擇會影響最終的聚類結(jié)果，可能導(dǎo)致局部最優(yōu)解。
對異常值敏感：異常值或噪聲會對質(zhì)心的計(jì)算和最終的聚類結(jié)果產(chǎn)生較大影響。

與相似算法的對比

K-均值聚類 vs 層次聚類（Hierarchical Clustering）：

層次聚類不需要預(yù)先指定簇的數(shù)量，能夠從數(shù)據(jù)中找出不同層次的簇結(jié)構(gòu)，但計(jì)算復(fù)雜度較高，不適合大數(shù)據(jù)集。
K-均值聚類適用于大數(shù)據(jù)集和球狀分布的數(shù)據(jù)，但需要預(yù)先指定簇的數(shù)量。

K-均值聚類 vs 密度聚類（Density-Based Clustering，如DBSCAN）：

DBSCAN能夠發(fā)現(xiàn)任意形狀的簇，并且對噪聲和異常值不敏感，但需要調(diào)整一些參數(shù)如鄰域大小和最小樣本數(shù)。
K-均值聚類簡單易懂，適用于較為規(guī)則的簇形狀和較大的數(shù)據(jù)集，但對數(shù)據(jù)的分布形狀和簇的數(shù)量敏感。

優(yōu)選和考慮其他算法的情況

K-均值聚類適用情況：

數(shù)據(jù)量較大：K-均值聚類的計(jì)算速度快，適合處理大規(guī)模數(shù)據(jù)集。
簇的形狀較為規(guī)則：如果數(shù)據(jù)集的簇形狀接近球狀，K-均值聚類效果較好。
已知簇的數(shù)量：當(dāng)我們事先知道數(shù)據(jù)應(yīng)該分成幾個(gè)簇時(shí)，K-均值聚類是一個(gè)簡單有效的選擇。

考慮其他算法的情況：

不確定簇的數(shù)量：如果無法確定簇的數(shù)量，可以考慮使用層次聚類或基于密度的聚類算法。
數(shù)據(jù)包含異常值或噪聲：對于數(shù)據(jù)中存在異常值或噪聲的情況，可以考慮使用DBSCAN等密度聚類算法，這些算法對異常值較為魯棒。
簇形狀復(fù)雜：如果數(shù)據(jù)集中的簇形狀非常復(fù)雜或者不規(guī)則，層次聚類或者基于密度的聚類可能更適合。

最后

K-均值聚類是一種簡單且有效的聚類算法，特別適合處理大規(guī)模數(shù)據(jù)集和具有明顯球狀分布的數(shù)據(jù)。在選擇算法時(shí)，需要根據(jù)數(shù)據(jù)的特點(diǎn)（如簇的形狀、數(shù)據(jù)量、簇?cái)?shù)量的確定性等）來權(quán)衡不同算法的優(yōu)缺點(diǎn)，以達(dá)到最佳的聚類效果。

本文章轉(zhuǎn)載微信公眾號@深夜努力寫Python