Kmeans聚类算法-python
创始人
2024-06-02 10:34:18
0

import random
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 计算欧拉距离
def calcDis(dataSet, centroids, k):
    clalist=[]
    for data in dataSet:
        diff = np.tile(data, (k, 1)) - centroids  #相减   (np.tile(a,(2,1))就是把a先沿x轴复制1倍,即没有复制,仍然是 [0,1,2]。 再把结果沿y方向复制2倍得到array([[0,1,2],[0,1,2]]))
        squaredDiff = diff ** 2     #平方
        squaredDist = np.sum(squaredDiff, axis=1)   #和  (axis=1表示行)
        distance = squaredDist ** 0.5  #开根号
        clalist.append(distance) 
    clalist = np.array(clalist)  #返回一个每个点到质点的距离len(dateSet)*k的数组
    return clalist

# 计算质心
def classify(dataSet, centroids, k):
    # 计算样本到质心的距离
    clalist = calcDis(dataSet, centroids, k)
    # 分组并计算新的质心
    minDistIndices = np.argmin(clalist, axis=1)    #axis=1 表示求出每行的最小值的下标
    newCentroids = pd.DataFrame(dataSet).groupby(minDistIndices).mean() #DataFramte(dataSet)对DataSet分组,groupby(min)按照min进行统计分类,mean()对分类结果求均值
    newCentroids = newCentroids.values
 
    # 计算变化量
    changed = newCentroids - centroids
 
    return changed, newCentroids

# 使用k-means分类
def kmeans(dataSet, k):
    # 随机取质心
    centroids = random.sample(dataSet, k)
    
    # 更新质心 直到变化量全为0
    changed, newCentroids = classify(dataSet, centroids, k)
    while np.any(changed != 0):
        changed, newCentroids = classify(dataSet, newCentroids, k)
 
    centroids = sorted(newCentroids.tolist())   #tolist()将矩阵转换成列表 sorted()排序
 
    # 根据质心计算每个集群
    cluster = []
    clalist = calcDis(dataSet, centroids, k) #调用欧拉距离
    minDistIndices = np.argmin(clalist, axis=1)  
    for i in range(k):
        cluster.append([])
    for i, j in enumerate(minDistIndices):   #enymerate()可同时遍历索引和遍历元素
        cluster[j].append(dataSet[i])
        
    return centroids, cluster
 
# 创建数据集
def createDataSet():
    return [[1, 1], [1, 2], [2, 1], [6, 4], [6, 3], [5, 4]]

if __name__=='__main__': 
    dataset = createDataSet()
    centroids, cluster = kmeans(dataset, 2)
    print('质心为:%s' % centroids)
    print('集群为:%s' % cluster)
    for i in range(len(dataset)):
      plt.scatter(dataset[i][0],dataset[i][1], marker = 'o',color = 'green', s = 40 ,label = '原始点')
                                                    #  记号形状       颜色      点的大小      设置标签
      for j in range(len(centroids)):
        plt.scatter(centroids[j][0],centroids[j][1],marker='x',color='red',s=50,label='质心')
        plt.show()

 

相关内容

热门资讯

安卓系统账号怎么改,轻松实现账... 你是不是也和我一样,在使用安卓手机的时候,突然觉得账号名字太老土了,想要来个焕然一新的改变呢?别急,...
离线语音系统安卓版下载,随时随... 你有没有想过,在手机上也能实现语音助手的功能,而且完全不需要联网?没错,就是那种离线语音系统,听起来...
华为os系统是基于安卓系统吗,... 你有没有想过,华为的手机里那个神秘的OS系统,它是不是就是安卓系统呢?别急,今天就来揭开这个谜底,让...
各品牌安卓系统多大,探索各大品... 你有没有想过,那些我们每天离不开的安卓手机,它们背后的系统到底有多大呢?这可不是一个小问题哦,因为系...
不是安卓系统电视机,探索非安卓... 你有没有想过,家里的电视是不是安卓系统呢?现在市面上,安卓系统电视机可是越来越流行了。但是,你知道吗...
谷歌安卓系统开源免费用,免费体... 你知道吗?在科技的世界里,有时候最让人惊喜的就是那些免费又好用的东西。今天,就让我来给你揭秘一个超级...
安卓电脑版怎么装系统,轻松实现... 你有没有想过,你的安卓电脑版突然间卡得像蜗牛一样,慢得让人抓狂?别急,今天就来教你怎么给它来个焕然一...
安卓系统有几种语音,揭秘多样化... 你知道吗?安卓系统里的语音功能可真是让人爱不释手呢!想象你只需要动动嘴,就能完成各种操作,是不是觉得...
扫码系统推荐安卓游戏,畅享指尖... 你有没有发现,最近手机里的游戏推荐越来越贴心了?没错,就是那个神奇的扫码系统!今天,就让我带你一探究...
手机系统安卓做的最好,探索最佳... 你有没有发现,现在手机市场上,安卓系统简直是要风得风,要雨得雨,简直是手机系统中的佼佼者!不信?那就...
安卓系统越拉越难用,越拉越难用... 你有没有发现,最近安卓系统越来越难用了?是不是每次打开手机,都感觉卡得要命,各种广告弹窗让人头疼不已...
卓安系统创始人,引领科技浪潮的... 你有没有想过,在这个信息爆炸的时代,谁才是那个站在风口浪尖,引领科技潮流的先锋?今天,我要带你认识一...
安卓10系统经常断网,安卓10... 最近是不是你也遇到了安卓10系统经常断网的问题?这可真是让人头疼啊!手机断网,就像失去了方向感的指南...
开发安卓系统用什么,从工具到实... 你有没有想过,为什么你的手机里装了那么多应用,却还是觉得不够用呢?其实,这一切都离不开一个强大的操作...
安卓系统如何双开抖音,安卓系统... 如何在安卓系统上双开抖音:让你的娱乐生活更加丰富多彩在数字化时代,手机已经成为我们生活中不可或缺的一...
安卓8.0系统内测地址,探索系... 你有没有听说最近安卓8.0系统内测的消息?这可是科技圈的大事啊!作为一个紧跟潮流的数码爱好者,我可是...
安卓系统可以账号同步吗,安卓系... 你有没有想过,你的安卓手机里的各种账户信息,比如微信、QQ、支付宝,能不能像变魔术一样,一键同步到另...
安卓系统的平板怎么下载,畅享应... 你有没有想过,拥有一款安卓系统的平板电脑,那感觉简直就像拥有了整个世界?想象随时随地都能畅游网络海洋...
win平板上装安卓系统咋样,开... 亲爱的读者们,你是否曾想过在Windows平板上体验安卓系统的魅力?想象那双熟悉的Windows界面...
给安卓车机写系统,安卓车机系统... 你有没有想过,你的安卓车机系统其实可以焕然一新?想象当你驾驶着爱车,车机界面流畅得像丝滑的巧克力,功...