- 随机设置K个特征空间内的点作为初始的聚类中心
- 对去其他每个点计算到K个中心的距離,未知的点选择最近的一个聚类中心作为标记类别
- 接着对着标记的聚类中心之后重新计算出每个聚类的新中心点(平均值)
- 如果计算嘚出的新中心点与原中心点一样,那么结束否则重新进行第二步过程
注:对于每个点i为已聚类数据中的样本,为i到其他族群的所有样本嘚距离最小值为i到本身族群的距离平均值
最终计算出所有样本点的轮廓系数平均值
特点:采用迭代试算法,直观易懂并且非常实用
缺点:容易收敛到局部最优解(多次聚类)
注意:聚类一般做在分类之前
# 合并四张表到一张表 # 将数据变成行:用户 列:物品类别名称 分组 交叉表; 特殊的分组 # 假设已经知道类别 4