散點(diǎn)圖

線性模型(擬合線及其置信區(qū)間)

通過(guò)整合皮爾遜相關(guān)系數(shù)及其顯著性水平(p值)、散點(diǎn)圖結(jié)合線性回歸擬合線及置信區(qū)間、以及對(duì)角線的單變量直方圖,用一個(gè)矩陣可視化全面展示數(shù)據(jù)特征間的相關(guān)性和分布趨勢(shì)

代碼實(shí)現(xiàn)

基礎(chǔ)相關(guān)性熱圖繪制

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
import seaborn as sns
warnings.filterwarnings("ignore")
plt.rcParams['font.family'] = 'Times New Roman'
plt.rcParams['axes.unicode_minus'] = False
df = pd.read_excel('2024-12-4-公眾號(hào)Python機(jī)器學(xué)習(xí)AI.xlsx')
# 計(jì)算皮爾遜相關(guān)系數(shù)矩陣
corr = df.corr()
plt.figure(figsize=(10, 8))
# 使用 Seaborn 繪制熱圖
sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm", square=True, cbar_kws={"shrink": .8})
plt.title("Correlation Matrix Heatmap")
plt.savefig("Correlation Matrix Heatmap.pdf", format='pdf', bbox_inches='tight', dpi=1200)
plt.show()

這是一個(gè)基礎(chǔ)的熱圖繪制,通過(guò)計(jì)算數(shù)據(jù)框的皮爾遜相關(guān)系數(shù)矩陣,利用Seaborn庫(kù)的heatmap函數(shù)可視化各特征間的相關(guān)性,熱圖通過(guò)顏色深淺直觀展示相關(guān)性強(qiáng)弱,是分析特征間關(guān)系的簡(jiǎn)單且常用的方法

如何繪制帶擬合線及其置信區(qū)間的散點(diǎn)圖

基礎(chǔ)散點(diǎn)圖繪制

plt.figure(figsize=(8, 6))
plt.scatter(df["Variable_1"], df["Variable_2"], alpha=0.7, edgecolor='k')
plt.title("Scatter Plot of Variable_1 vs Variable_2", fontsize=14)
plt.xlabel("Variable_1", fontsize=12)
plt.ylabel("Variable_2", fontsize=12)
plt.grid(alpha=0.3)
plt.savefig("1.pdf", format='pdf', bbox_inches='tight', dpi=1200)
plt.show()

通過(guò)plt.scatter() 繪制了一個(gè)基礎(chǔ)散點(diǎn)圖,展示df[“Variable_1”]和df[“Variable_2”]之間的關(guān)系,直觀反映數(shù)據(jù)的分布情況。為了進(jìn)一步分析,可以在此基礎(chǔ)上利用statsmodels庫(kù)擬合線性模型,添加擬合線和置信區(qū)間,以可視化兩變量之間的線性趨勢(shì)及其統(tǒng)計(jì)可靠性,從而實(shí)現(xiàn)更深入的數(shù)據(jù)洞察

添加擬合線及其置信區(qū)間

import statsmodels.api as sm
# 擬合線性模型
X = sm.add_constant(df["Variable_1"]) # 添加常數(shù)項(xiàng)以適應(yīng)截距
model = sm.OLS(df["Variable_2"], X).fit() # 使用最小二乘法擬合
predictions = model.get_prediction(X) # 獲取預(yù)測(cè)結(jié)果
confidence_intervals = predictions.conf_int(alpha=0.05) # 獲取95%置信區(qū)間
# 為擬合線生成 x 和 y 值
x_values = np.linspace(df["Variable_1"].min(), df["Variable_1"].max(), 100)
X_pred = sm.add_constant(x_values)
predicted_means = model.predict(X_pred)
conf_int_pred = model.get_prediction(X_pred).conf_int()
# 繪制散點(diǎn)圖和擬合線
plt.figure(figsize=(8, 6))
plt.scatter(df["Variable_1"], df["Variable_2"], alpha=0.7, edgecolor='k', label="Data Points") # 數(shù)據(jù)點(diǎn)
plt.plot(x_values, predicted_means, color='red', label=f"Fit Line: y = {coefficients[0]:.2f}x + {coefficients[1]:.2f}") # 擬合線
# 繪制置信區(qū)間
plt.fill_between(
x_values,
conf_int_pred[:, 0], # 置信區(qū)間下界
conf_int_pred[:, 1], # 置信區(qū)間上界
color='blue',
alpha=0.2,
label="95% Confidence Interval"
)
plt.title("Scatter Plot of Variable_1 and Variable_2 with Fit Line and Confidence Interval", fontsize=14)
plt.xlabel("Variable_1", fontsize=12)
plt.ylabel("Variable_2", fontsize=12)
plt.grid(alpha=0.3)
plt.legend(fontsize=10, loc='best')
plt.savefig("3.pdf", format='pdf', bbox_inches='tight', dpi=1200)
plt.show()

過(guò)擬合線性模型繪制散點(diǎn)圖、擬合線以及95%的置信區(qū)間,展示Variable_1和Variable_2之間的線性關(guān)系及其統(tǒng)計(jì)可靠性

接下來(lái),可以將這邏輯整合到相關(guān)系數(shù)熱圖中:上三角保留相關(guān)系數(shù)熱圖和顯著性標(biāo)記,下三角繪制散點(diǎn)圖并疊加擬合線和置信區(qū)間,對(duì)角線保留特征的分布直方圖,實(shí)現(xiàn)全面分析特征間的關(guān)系

進(jìn)階相關(guān)性熱圖1

構(gòu)建一個(gè)帶有多種形式可視化的相關(guān)系數(shù)可視化,用于全面分析數(shù)據(jù)特征之間的關(guān)系,對(duì)角線展示每個(gè)特征的直方圖和核密度估計(jì) (KDE),直觀反映單變量的分布形態(tài);下三角繪制散點(diǎn)圖并疊加線性擬合線及95%置信區(qū)間,呈現(xiàn)特征間的線性趨勢(shì)和統(tǒng)計(jì)置信度;上三角顯示皮爾遜相關(guān)系數(shù)熱圖,通過(guò)顏色深淺和數(shù)字注釋量化特征間的相關(guān)性強(qiáng)弱。

進(jìn)階相關(guān)性熱圖2

增強(qiáng)對(duì)特征間線性關(guān)系可靠性的統(tǒng)計(jì)檢驗(yàn)解讀,使得相關(guān)性分析更具科學(xué)性和直觀性

文章轉(zhuǎn)自微信公眾號(hào)@Python機(jī)器學(xué)習(xí)AI

上一篇:

如何用SHAP解讀集成學(xué)習(xí)Stacking中的基學(xué)習(xí)器和元學(xué)習(xí)器以及整體模型貢獻(xiàn)

下一篇:

實(shí)用機(jī)器學(xué)習(xí)技巧:帶有95%置信區(qū)間的ROC曲線繪制
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)