机器学习中的距离和相似性计算以及python实现
创始人
2024-05-30 04:58:32
0

机器学习中的距离和相似性计算以及python实现


欧氏距离

也称欧几里得距离,是指在m维空间中两个点之间的真实距离。欧式距离在ML中使用的范围比较广,也比较通用,就比如说利用k-Means对二维平面内的数据点进行聚类,对魔都房价的聚类分析(price/m^2 与平均房价)等。

两个n维向量a(x11,x12.....x1n)(x_{11},x_{12}.....x_{1n})(x11​,x12​.....x1n​)与 b(x21,x22.....x2n)(x_{21},x_{22}.....x_{2n})(x21​,x22​.....x2n​)间的欧氏距离

python 实现为:

def EuclideanDistance(x, y):import numpy as npx = np.array(x)y = np.array(y)return np.sqrt(np.sum(np.square(x-y)))

这里传入的参数可以是任意维的,该公式也适应上边的二维和三维

曼哈顿距离

D12=∑k=1n∣x1k−x2k∣D_{12}=\sum_{k=1}^{n}|x_{1k}-x_{2k}|D12​=k=1∑n​∣x1k​−x2k​∣

python 实现为:

def ManhattanDistance(x, y):import numpy as npx = np.array(x)y = np.array(y)return np.sum(np.abs(x-y))

切比雪夫距离

切比雪夫距离(Chebyshev Distance)的定义为:max( | x2-x1 | , |y2-y1 | , … ), 切比雪夫距离用的时候数据的维度必须是三个以上

python 实现为:

def ChebyshevDistance(x, y):import numpy as npx = np.array(x)y = np.array(y)return np.max(np.abs(x-y))

马氏距离

有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为

D(x)=(X−u)TS−1(X−u)D(x)=\sqrt {(X-u)^TS^{-1}(X-u)}D(x)=(X−u)TS−1(X−u)
python实现:

def MahalanobisDistance(x, y):'''马氏居立中的(x,y)与欧几里得距离的(x,y)不同,欧几里得距离中的(x,y)指2个样本,每个样本的维数为x或y的维数;这里的(x,y)指向量是2维的,样本个数为x或y的维数,若要计算n维变量间的马氏距离则需要改变输入的参数如(x,y,z)为3维变量。'''import numpy as npx = np.array(x)y = np.array(y)X = np.vstack([x,y])X_T = X.Tsigma = np.cov(X)sigma_inverse = np.linalg.inv(sigma)d1=[]for i in range(0, X_T.shape[0]):for j in range(i+1, X_T.shape[0]):delta = X_T[i] - X_T[j]d = np.sqrt(np.dot(np.dot(delta,sigma_inverse),delta.T))d1.append(d)return d1

夹角余弦

cosθ=a∗b∣a∣∣b∣cos \theta = \frac {a*b} {|a||b|}cosθ=∣a∣∣b∣a∗b​ cosθ=∑k=1nx1kx2k∑k=1nx1k2∑k=1nx2k2cos \theta = \frac {\sum_{k=1}^{n}x_{1k}x_{2k}} {\sqrt {\sum_{k=1}^{n}x_{1k}^2}\sqrt {\sum_{k=1}^{n}x_{2k}^2}}cosθ=∑k=1n​x1k2​​∑k=1n​x2k2​​∑k=1n​x1k​x2k​​

def moreCos(a,b):sum_fenzi = 0.0sum_fenmu_1,sum_fenmu_2 = 0,0for i in range(len(a)):sum_fenzi += a[i]*b[i]sum_fenmu_1 += a[i]**2 sum_fenmu_2 += b[i]**2 return sum_fenzi/( sqrt(sum_fenmu_1) * sqrt(sum_fenmu_2) )

闵可夫斯基距离

p∑k=1n∣x1k−x2k∣pp\sqrt{\sum_{k=1}^{n}|x_{1k}-x_{2k}|^p}pk=1∑n​∣x1k​−x2k​∣p

当p=1时,就是曼哈顿距离

当p=2时,就是欧氏距离

当p→∞时,就是切比雪夫距离
python实现:

def MinkowskiDistance(x, y, p):import mathimport numpy as npzipped_coordinate = zip(x, y)return math.pow(np.sum([math.pow(np.abs(i[0]-i[1]), p) for i in zipped_coordinate]), 1/p)

汉明距离

两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数

def hanmingDis(a,b):sumnum = 0for i in range(len(a)):if a[i]!=b[i]:sumnum += 1return sumnum

杰卡德距离 & 杰卡德相似系数

杰卡德距离,杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

Jδ(A,B)=∣A∪B∣−∣A∩B∣∣A∪B∣J_{\delta}(A, B)=\frac{|A \cup B|-|A \cap B|}{|A \cup B|}Jδ​(A,B)=∣A∪B∣∣A∪B∣−∣A∩B∣​

def jiekadeDis(a,b):set_a = set(a)set_b = set(b)dis = float(len( (set_a | set_b) - (set_a & set_b) ) )/ len(set_a | set_b)return dis

杰卡德相似系数

两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。

J(A,B)=∣A∩B∣∣A∪B∣J(A, B)=\frac{|A \cap B|}{|A \cup B|}J(A,B)=∣A∪B∣∣A∩B∣​

def jiekadeXSDis(a,b):set_a = set(a)set_b = set(b)dis = float(len(set_a & set_b)  )/ len(set_a | set_b)return dis

相关系数 & 相关距离

相关系数

ρXY=Cov⁡(X,Y)D(X)D(Y)=E((X−EX)(Y−EY))D(X)D(Y)\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}=\frac{E((X-E X)(Y-E Y))}{\sqrt{D(X)} \sqrt{D(Y)}}ρXY​=D(X)​D(Y)​Cov(X,Y)​=D(X)​D(Y)​E((X−EX)(Y−EY))​

import mathdef c_Pearson(x, y):x_mean, y_mean = sum(x)/len(x), sum(y)/len(y)cov =0.0x_pow = 0.0y_pow = 0.0for i in range(len(x)):cov += (x[i]-x_mean) *(y[i] - y_mean)for i in range(len(x)):x_pow += math.pow(x[i] - x_mean, 2)for i in range(len(x)):y_pow += math.pow(y[i] - y_mean, 2)sumBm = math.sqrt(x_pow * y_pow)p = cov / sumBmreturn p

信息熵

衡量分布的混乱程度或分散程度的一种度量.

(X)=∑i=1n−pilog⁡2pi(X)=\sum_{i=1}^{n}-p_{i} \log _{2} p_{i}(X)=i=1∑n​−pi​log2​pi​

import numpy as npdata=['a','b','c','a','a','b']
data1=np.array(data)
#计算信息熵的方法
def calc_ent(x):"""calculate shanno ent of x"""x_value_list = set([x[i] for i in range(x.shape[0])])ent = 0.0for x_value in x_value_list:p = float(x[x == x_value].shape[0]) / x.shape[0]logp = np.log2(p)ent -= p * logpreturn ent

相关内容

热门资讯

恋夜视频安卓系统Uc,恋夜视频... 亲爱的读者,你是否曾在深夜时分,被手机屏幕上跳动的视频吸引?今天,就让我带你一探究竟,揭开恋夜视频安...
鸿蒙套娃安卓系统视频,融合与创... 你知道吗?最近科技圈可是炸开了锅,因为华为的新操作系统鸿蒙OS又有了新动作。这不,他们竟然把鸿蒙套娃...
xp系统连接安卓手机问题,实用... 你有没有遇到过这样的情况:你的电脑上还运行着那个经典的XP系统,而你的安卓手机却时不时地想要和你亲密...
压缩安卓系统储存空间,高效管理... 手机里的照片越来越多,游戏也越玩越上瘾,可这安卓系统的储存空间却越来越紧张,是不是感觉像是在挤牙膏?...
安卓手游转苹果系统教程,轻松实... 你是不是也和我一样,手头有一堆安卓手游,突然之间想换换口味,体验一下苹果系统的魅力呢?别急,今天就来...
安卓原生系统锁屏暗,安卓系统锁... 亲爱的手机控们,你是否曾为安卓手机锁屏时的暗模式而感到好奇?那种在夜晚或光线不足的环境中,屏幕自动调...
安卓系统表情包下载地址,安卓系... 你是不是也和我一样,对安卓系统的表情包爱不释手?那些搞笑的、可爱的、甚至是有点小调皮的表情,总能让我...
原生安卓系统声音bug,揭秘那... 你有没有遇到过这种情况?手机里突然传来一阵奇怪的声音,让你瞬间从美梦中惊醒,或者正在专心工作时被打扰...
水果收银机安卓系统,便捷高效的... 你有没有想过,在繁忙的超市里,那些摆满新鲜水果的摊位,背后竟然隐藏着一个小小的科技秘密?没错,就是那...
安卓系统变苹果界面了吗,苹果界... 最近手机界可是炸开了锅,不少安卓用户都在议论纷纷:“安卓系统变苹果界面了吗?”这事儿可真不简单,得好...
miui操作系统与安卓系统吗,... 亲爱的读者,你是否曾在手机上看到过MIUI操作系统和安卓系统这两个名字,好奇它们之间有什么区别?今天...
安卓系统怎么卡道具界面,探究原... 手机用久了,是不是感觉安卓系统越来越卡?尤其是那个道具界面,点开就慢吞吞的,真是让人头疼。别急,今天...
安卓系统红包加速器,畅享无阻新... 你有没有发现,现在用手机抢红包简直是一场速度与激情的较量?别急,别急,让我来给你揭秘一款神器——安卓...
安卓经典版系统更新时间,从首次... 你有没有发现,最近你的安卓手机又悄悄地变了个样?没错,就是那个陪伴我们多年的经典版系统,它又来更新啦...
安卓系统开发要多久,约需1-2... 你有没有想过,自己动手开发一个安卓应用,究竟需要多长时间呢?这可是个让人好奇的问题,毕竟安卓系统开发...
原生安卓系统手机壁纸图片,探索... 亲爱的手机控们,你是否曾为寻找一款独特的壁纸而烦恼?今天,就让我带你走进原生安卓系统手机壁纸的奇幻世...
bmw安卓互联系统,智能驾驶新... 你有没有发现,现在开车已经不仅仅是驾驶那么简单了?一辆好车,还得有个好“大脑”,这样才能让你的驾驶体...
安卓手机升级系统卡吗,安卓手机... 你有没有遇到过这种情况:安卓手机升级系统后,突然感觉手机像蜗牛一样慢吞吞的,心里那个急啊!今天,就让...
无线麦克风安卓系统,轻松实现无... 你有没有想过,在一场热闹的K歌派对或者重要的演讲场合,无线麦克风简直就是救星啊!想象你手握麦克风,自...
怎么重新定制安卓系统,打造专属... 你有没有想过,你的安卓手机其实可以变得独一无二,就像是你自己的小宇宙一样?没错,就是重新定制安卓系统...