机器学习——K-means聚类

无监督学习是机器学习的重要分支，它从无标签数据中发现隐藏模式和结构。以下是关于无监督学习的深度解析：

一、核心概念

1. 定义与特点

无监督学习处理没有预先标记的数据集，目标是：

发现数据中的隐藏模式
识别内在结构
提取有意义特征

2. 与监督学习的对比

特性

无监督学习

监督学习

数据要求	无需标签	需要标注数据
目标	发现结构	预测输出
应用场景	探索性分析	预测性任务
典型算法	K-means, PCA	回归, 分类

二、主要算法分类

1. 聚类分析

将相似数据分组：

K-means：基于距离的划分聚类
层次聚类：构建树状聚类结构
DBSCAN：基于密度的聚类
高斯混合模型(GMM)：概率软聚类

2. 降维技术

减少特征维度：

PCA：主成分分析（线性）
t-SNE：t分布随机邻域嵌入（非线性）
UMAP：统一流形逼近与投影
自动编码器：神经网络降维

3. 关联规则学习

发现变量间关系：

Apriori：频繁项集挖掘
FP-Growth：高效频繁模式发现

4. 异常检测

识别异常点：

孤立森林
局部离群因子(LOF)
一类SVM

三、k-means聚类

K-means是最经典且广泛使用的聚类算法之一，属于无监督学习。下面我将全面介绍K-means的原理、实现和应用。

算法原理

k-means 聚类的核心目标是将 n 个数据点划分到 k 个簇中，通过优化以下两个条件来达到最佳的聚类效果：

数据点归属原则：

每个数据点会被分配到距离最近的簇中心所在的簇。具体来说，对于数据集中的每一个点，计算它与所有簇中心（质心）的欧氏距离，然后将其归入距离最短的那个簇。
公式化表示：对于数据点 ( x_i )，其所属的簇 ( C_j ) 满足 ( j = \\text{argmin}_k ||x_i – \\mu_k||^2 )，其中 ( \\mu_k ) 是第 k 个簇的中心。

优化目标：

算法通过迭代优化，使得所有簇内数据点到其簇中心的平方距离和（也称为簇内平方和，Within-Cluster Sum of Squares, WCSS）最小化。
数学表达式：最小化目标函数

其中：

Ci：第i个簇
μi：第i个簇的质心
x：数据点

算法步骤的详细说明：

初始化：

随机选择 k 个数据点作为初始的簇中心（质心）。这一步对最终聚类结果有较大影响，常见的改进方法包括 k-means++ 初始化，以减少对初始中心的敏感性。

分配阶段：

遍历所有数据点，计算每个点到当前各个簇中心的距离，并将其分配到最近的簇。通常使用欧氏距离，但也可以根据具体问题选择其他距离度量（如曼哈顿距离）。

更新阶段：

重新计算每个簇的中心，即取簇内所有数据点的均值作为新的质心。例如，对于簇 ( C_j )，其新中心 ( \\mu_j ) 更新为 ( \\mu_j = \\frac{1}{|C_j|} \\sum_{x_i \\in C_j} x_i )。

迭代优化：

重复分配和更新步骤，直到满足停止条件（如质心变化小于某个阈值，或目标函数 ( J ) 的变化不再显著）。

应用场景示例：

客户细分：在市场营销中，根据客户的购买行为、 demographics 等特征，将客户分成不同的群体，以便制定个性化策略。
图像压缩：通过将图像中颜色相近的像素聚类，用少量代表性颜色替代原始颜色，减少存储空间。
异常检测：通过聚类分析，将正常数据和异常数据分离，例如在网络安全中识别异常流量。

注意事项：

需要预先指定簇的数量 k，选择不合适的 k 值可能导致聚类效果不佳。可以通过肘部法则（Elbow Method）或轮廓系数（Silhouette Score）来确定最佳 k 值。
对噪声和异常值敏感，因为平方距离会放大离群点的影响。改进方法包括使用 k-medoids 或其他鲁棒性更强的算法。

通过以上步骤和优化目标，k-means 能够高效地将数据划分为具有高内聚性的簇，适用于大规模数据集的聚类任务。

四、k-means聚类的使用

class sklearn.cluster.KMeans( n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=1e-4, verbose=0, random_state=None, copy_x=True, algorithm='lloyd' )

二、核心参数详解

1. 聚类配置参数

参数

类型

说明

推荐值

n_clusters	int	要形成的簇数（k值）	通过肘部法则确定
init	str/array	初始化方法	'k-means++'(默认) 或 'random'
n_init	int/str	不同初始化的运行次数	'auto' 或 10(默认)
algorithm	str	K-means算法变体	'lloyd'(默认), 'elkan'

2. 优化控制参数

参数

类型

说明

推荐值

max_iter	int	单次运行的最大迭代次数	300(默认)
tol	float	收敛阈值	1e-4(默认)
random_state	int	随机种子	任意整数(保证可复现)

三、主要属性

训练后模型将获得以下重要属性：

属性

说明

形状

cluster_centers_	簇中心坐标	(n_clusters, n_features)
labels_	每个样本的簇标签	(n_samples,)
inertia_	样本到最近簇中心的平方距离和	标量
n_iter_	实际迭代次数	标量

四、核心方法

1. 训练模型

fit(X, y=None, sample_weight=None)

X：训练数据，形状 (n_samples, n_features)
sample_weight：样本权重，形状 (n_samples,)

2. 预测簇标签

predict(X, sample_weight=None)

返回每个样本所属的簇

3. 训练并预测

fit_predict(X, y=None, sample_weight=None)

一步完成训练和预测

4. 模型评分

score(X, y=None, sample_weight=None)

返回负的inertia值（越大越好）

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成样本数据
X, _ = make_blobs(n_samples=300, centers=4, random_state=42)

# 创建KMeans实例
kmeans = KMeans(
n_clusters=4,
init='k-means++',
n_init=10,
max_iter=300,
random_state=42
)

# 训练模型
kmeans.fit(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0],
kmeans.cluster_centers_[:, 1],
s=200, marker='*', c='red')
plt.title('K-means Clustering')
plt.show()

一、核心概念

1. 定义与特点

2. 与监督学习的对比

二、主要算法分类

1. 聚类分析

2. 降维技术

3. 关联规则学习

4. 异常检测

三、k-means聚类

算法原理

算法步骤的详细说明：

应用场景示例：

注意事项：

四、k-means聚类的使用

二、核心参数详解

1. 聚类配置参数

2. 优化控制参数

三、主要属性

四、核心方法

1. 训练模型

2. 预测簇标签

3. 训练并预测

4. 模型评分

相关推荐

评论抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

一、核心概念

1. 定义与特点

2. 与监督学习的对比

二、主要算法分类

1. 聚类分析

2. 降维技术

3. 关联规则学习

4. 异常检测

三、k-means聚类

算法原理

算法步骤的详细说明：

应用场景示例：

注意事项：

四、k-means聚类的使用

二、核心参数详解

1. 聚类配置参数

2. 优化控制参数

三、主要属性

四、核心方法

1. 训练模型

2. 预测簇标签

3. 训练并预测

4. 模型评分

相关推荐

评论 抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

评论抢沙发