Python k-means原理和实现是什么样的
Admin 2022-09-09 群英技术资讯 319 次浏览
k-means算法是无监督的聚类算法,实现起来较为简单,k-means++可以理解为k-means的增强版,在初始化中心点的方式上比k-means更友好。
k-means的实现步骤如下:
优点:
缺点:
k-means++是k-means的增强版,它初始选取的聚类中心点尽可能的分散开来,这样可以有效减少迭代次数,加快运算速度,实现步骤如下:
这里不得不说明一点,有的文献中把与已选择的聚类中心最大距离的点选作下一个中心点,这个说法是不太准确的,准的说是与已选择的聚类中心最大距离的点被选作下一个中心点的概率最大,但不一定就是改点,因为总是取最大也不太好(遇到特殊数据,比如有一个点离某个聚类所有点都很远)。
一般初始化部分,始终要给些随机。因为数据是随机的。
尽管计算初始点时花费了额外的时间,但是在迭代过程中,k-mean 本身能快速收敛,因此算法实际上降低了计算时间。
现在重点是利用轮盘法的方式选出下一个聚类中心,我们以一个例子说明K-means++是如何选取初始聚类中心的。
假如数据集中有8个样本,分布分布以及对应序号如下图所示:
我们先用 k-means++的步骤1选择6号点作为第一个聚类中心,然后进行第二步,计算每个样本点到已选择的聚类中心的距离D(X),如下所示:
然后执行 k-means++的第三步:利用轮盘法的方式选出下一个聚类中心,方法是随机产生出一个0~1之间的随机数,判断它属于哪个区间,那么该区间对应的序号就是被选择出来的第二个聚类中心了。
在上图1号点区间为[0,0.2),2号点的区间为[0.2, 0.525),4号点的区间为[0.65,0.9)
从上表可以直观的看到,1号,2号,3号,4号总的概率之和为0.9,这4个点正好是离第一个初始聚类中心(即6号点)较远的四个点,因此选取的第二个聚类中心大概率会落在这4个点中的一个,其中2号点被选作为下一个聚类中心的概率最大。
这里选择的中心点是样本的特征(不是索引),这样做是为了方便计算,选择的聚类点(中心点周围的点)是样本的索引。
# 定义欧式距离 import numpy as np def get_distance(x1, x2): return np.sqrt(np.sum(np.square(x1-x2)))
import random # 定义中心初始化函数,中心点选择的是样本特征 def center_init(k, X): n_samples, n_features = X.shape centers = np.zeros((k, n_features)) selected_centers_index = [] for i in range(k): # 每一次循环随机选择一个类别中心,判断不让centers重复 sel_index = random.choice(list(set(range(n_samples))-set(selected_centers_index))) centers[i] = X[sel_index] selected_centers_index.append(sel_index) return centers
# 判断一个样本点离哪个中心点近, 返回的是该中心点的索引 ## 比如有三个中心点,返回的是0,1,2 def closest_center(sample, centers): closest_i = 0 closest_dist = float('inf') for i, c in enumerate(centers): # 根据欧式距离判断,选择最小距离的中心点所属类别 distance = get_distance(sample, c) if distance < closest_dist: closest_i = i closest_dist = distance return closest_i
# 定义构建聚类的过程 # 每一个聚类存的内容是样本的索引,即对样本索引进行聚类,方便操作 def create_clusters(centers, k, X): clusters = [[] for _ in range(k)] for sample_i, sample in enumerate(X): # 将样本划分到最近的类别区域 center_i = closest_center(sample, centers) # 存放样本的索引 clusters[center_i].append(sample_i) return clusters
# 根据上一步聚类结果计算新的中心点 def calculate_new_centers(clusters, k, X): n_samples, n_features = X.shape centers = np.zeros((k, n_features)) # 以当前每个类样本的均值为新的中心点 for i, cluster in enumerate(clusters): # cluster为分类后每一类的索引 new_center = np.mean(X[cluster], axis=0) # 按列求平均值 centers[i] = new_center return centers
# 获取每个样本所属的聚类类别 def get_cluster_labels(clusters, X): y_pred = np.zeros(np.shape(X)[0]) for cluster_i, cluster in enumerate(clusters): for sample_i in cluster: y_pred[sample_i] = cluster_i #print('把样本{}归到{}类'.format(sample_i,cluster_i)) return y_pred
# 根据上述各流程定义kmeans算法流程 def Mykmeans(X, k, max_iterations,init): # 1.初始化中心点 if init == 'kmeans': centers = center_init(k, X) else: centers = get_kmeansplus_centers(k, X) # 遍历迭代求解 for _ in range(max_iterations): # 2.根据当前中心点进行聚类 clusters = create_clusters(centers, k, X) # 保存当前中心点 pre_centers = centers # 3.根据聚类结果计算新的中心点 new_centers = calculate_new_centers(clusters, k, X) # 4.设定收敛条件为中心点是否发生变化 diff = new_centers - pre_centers # 说明中心点没有变化,停止更新 if diff.sum() == 0: break # 返回最终的聚类标签 return get_cluster_labels(clusters, X)
# 测试执行 X = np.array([[0,2],[0,0],[1,0],[5,0],[5,2]]) # 设定聚类类别为2个,最大迭代次数为10次 labels = Mykmeans(X, k = 2, max_iterations = 10,init = 'kmeans') # 打印每个样本所属的类别标签 print("最后分类结果",labels) ## 输出为 [1. 1. 1. 0. 0.]
# 使用sklearn验证 from sklearn.cluster import KMeans X = np.array([[0,2],[0,0],[1,0],[5,0],[5,2]]) kmeans = KMeans(n_clusters=2,init = 'random').fit(X) # 由于center的随机性,结果可能不一样 print(kmeans.labels_)
## 得到kmean++中心点 def get_kmeansplus_centers(k, X): n_samples, n_features = X.shape init_one_center_i = np.random.choice(range(n_samples)) centers = [] centers.append(X[init_one_center_i]) dists = [ 0 for _ in range(n_samples)] # 执行 for _ in range(k-1): total = 0 for sample_i,sample in enumerate(X): # 得到最短距离 closet_i = closest_center(sample,centers) d = get_distance(X[closet_i],sample) dists[sample_i] = d total += d total = total * np.random.random() for sample_i,d in enumerate(dists): # 轮盘法选出下一个聚类中心 total -= d if total > 0: continue # 选取新的中心点 centers.append(X[sample_i]) break return centers
X = np.array([[0,2],[0,0],[1,0],[5,0],[5,2]]) # 设定聚类类别为2个,最大迭代次数为10次 labels = Mykmeans(X, k = 2, max_iterations = 10,init = 'kmeans++') print("最后分类结果",labels) ## 输出为 [1. 1. 1. 0. 0.]
# 使用sklearn验证 X = np.array([[0,2],[0,0],[1,0],[5,0],[5,2]]) kmeans = KMeans(n_clusters=2,init='k-means++').fit(X) print(kmeans.labels_)
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
怎样用python编写备忘录的功能?对于备忘录的功能大家应该都比较清楚,其实就是一个读取、写入和保存文件的过程,今天我们就来了解一下python实现备忘录功能。
这篇文章主要介绍了python 判断字符串当中是否包含字符(str.contain),文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
这篇文章主要为大家介绍了python class和封装,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
这篇文章主要介绍了在Django中创建自己的自定义用户模型,创建自己的自定义用户模型至关重要。将来,如果要对模型进行一些更改,则可以轻松进行这些更改。不然我们可能必须对模型进行一些更改,而且代码的某些部分也将被更改
今天带大家来复习Python底层代码LIST,文中有非常详细的介绍及代码示例,对正在学习python的小伙伴们有很好地帮助,需要的朋友可以参考下
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008