python pca/svd原理及应用
创始人
2024-05-30 19:37:01
0

PCA的定义

  • 主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域。它的主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。

PCA的实现步骤

  1. 计算样本每个特征的平均值;

  1. 每个样本数据减去该特征的平均值;

  1. 对样本组成的矩阵求协方差矩阵;

  1. 对协方差矩阵做分解得到特征值和特征向量,并将特征值和特征向量重新按照降序排列;

  1. 对特征值求取累计贡献率;

  1. 通过累计贡献率选取适合的特征向量子集合;

  1. 对原始数据进行转换


注意:假设有m个样本,每个样本有n个特征,即组成m行n列的矩阵A,如果是图像的话,由于图像是二维向量,所以先要将图像转换为一个行向量。求均值是对A矩阵的每一列求均值,此处协方差矩阵应该是A.T * A而不是A*A.T,最后得到的协方差矩阵的形状应为n*n。

协方差矩阵分解

  1. 原始算法(硬算,特征数很大时计算量非常大)

  1. numpy的svd算法来分解(使用svd分解出来的右奇异矩阵和直接求出来的特征向量矩阵是一个意思,但是svd并不是通过协方差矩阵来计算的,而是通过某种强大的算法近似求解)

  1. scikit-learn实现的PCA

PCA实现

mat = [[-1,-1,0,2,1],[2,0,0,-1,-1],[2,0,1,1,0]]
mat = np.array(mat)
#原始算法
def origin_algorithm_pca(mat, 2):#对列求均值mean = np.mean(mat, 0)#去中心化A = mat - mean#求方差矩阵cov = np.dot(A.T, A)/2#求解协方差矩阵的特征值和特征向量s, vector = np.linalg.eig(cov)#对特征进行压缩compression = np.dot(A, vector[:2,:].T)return compressiondef numpy_svd(mat, 2):#对列求均值mean = np.mean(mat, 0)#去中心化A = mat - mean#u,s,VT = np.linalg.svd(A)#压缩compression = np.dot(A, VT[:2,:])return compression

PCA实现人脸识别

  1. 将每张图像拉直为一维行向量

  1. 将所有样本存储为矩阵形式,矩阵的每一列表示图像的一个特征也是一个像素

  1. 按列求取均值,并用原始矩阵减去均值

  1. 利用A.T * A得到协方差矩阵(这一步代码中直接利用svd方法得到U,S,VT)

  1. 将原始矩阵乘以VT得到压缩后的矩阵,将VT存储起来用于测试测试样本

  1. train_A*VT和test_A*VT,将test_A*VT中的每个样本与train_A*VT计算平方差,并按行求和后排序,得到距离最小的对应的train_A的label,就是预测结果

  1. 根据预测结果和真实标签计算准确率

# coding:utf-8
import os
from numpy import *
import numpy as np
import cv2
import matplotlib.pyplot as plt
from pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei']# 图片矢量化
def img2vector(image):img = cv2.imread(image, 0)  # 读取图片rows, cols = img.shape  #获取图片的像素imgVector = np.zeros((1, rows * cols))imgVector = np.reshape(img, (1, rows * cols))#使用imgVector变量作为一个向量存储图片矢量化信息,初始值均设置为0return imgVectororlpath = "./ORL"# 读入人脸库,每个人随机选择k张作为训练集,其余构成测试集
def load_orl(k):#参数K代表选择K张图片作为训练图片使用'''对训练数据集进行数组初始化,用0填充,每张图片尺寸都定为112*92,现在共有40个人,每个人都选择k张,则整个训练集大小为40*k,112*92'''train_face = np.zeros((40 * k, 112 * 92))train_label = np.zeros(40 * k)  # [0,0,.....0](共40*k个0)test_face = np.zeros((40 * (10 - k), 112 * 92))test_label = np.zeros(40 * (10 - k))# sample=random.sample(range(10),k)#每个人都有的10张照片中,随机选取k张作为训练样本(10个里面随机选取K个成为一个列表)sample = random.permutation(10) + 1  # 随机排序1-10 (0-9)+1for i in range(40):  # 共有40个人people_num = i + 1for j in range(10):  # 每个人都有10张照片image = orlpath + '/s' + str(people_num) + '/' + str(sample[j]) + '.jpg'# 读取图片并进行矢量化img = img2vector(image)if j < k:# 构成训练集train_face[i * k + j, :] = imgtrain_label[i * k + j] = people_numelse:# 构成测试集test_face[i * (10 - k) + (j - k), :] = imgtest_label[i * (10 - k) + (j - k)] = people_numreturn train_face, train_label, test_face, test_label# 定义PCA算法
def PCA(data, r):#降低到r维data = np.float32(np.mat(data))rows, cols = np.shape(data)# print(rows, cols)data_mean = np.mean(data, 0)  # 对列求平均值A = data - np.tile(data_mean, (rows, 1))  # 将所有样例减去对应均值得到Au, s, VT = np.linalg.svd(A) #利用svd求解右奇异向量即需要将原始数组映射的向量空间矩阵V_r = VT[:, 0:r]  # 按列取前r个特征向量#将原始数据乘上新的空间向量得到降维后的矩阵final_data = A * V_rreturn final_data, data_mean, V_rdef face_recongize():for r in range(10, 81, 10):  # 最多降到40维,即选取前40个主成分(因为当k=1时,只有40维)print("当降维到%d时" % (r))x_value = []y_value = []train_face, train_label, test_face, test_label = load_orl(7)  # 得到数据集# 利用PCA算法进行训练data_train_new, data_mean, V_r = PCA(train_face, r)# print(data_train_new.shape)num_train = data_train_new.shape[0]  # 训练脸总数num_test = test_face.shape[0]  # 测试脸总数temp_face = test_face - np.tile(data_mean, (num_test, 1))data_test_new = temp_face * V_r  # 得到测试脸在特征向量下的数据data_test_new = np.array(data_test_new)  # mat change to array# print(data_test_new.shape)data_train_new = np.array(data_train_new)# 测试准确度true_num = 0for i in range(num_test):testFace = data_test_new[i, :]# print(testFace.shape)diffMat = data_train_new - np.tile(testFace, (num_train, 1))  # 训练数据与测试脸之间距离print(diffMat.shape)sqDiffMat = diffMat ** 2sqDistances = sqDiffMat.sum(axis=1)  # 按行求和sortedDistIndicies = sqDistances.argsort()  # 对向量从小到大排序,使用的是索引值,得到一个向量indexMin = sortedDistIndicies[0]  # 距离最近的索引if train_label[indexMin] == test_label[i]:true_num += 1else:passaccuracy = float(true_num) / num_testx_value.append(7)y_value.append(round(accuracy, 2))print('当每个人选择%d张照片进行训练时,The classify accuracy is: %.2f%%' % (7, accuracy * 100))if __name__ == '__main__':face_recongize()

PCA的优缺点

  1. 优点

  • 仅仅需要以方差衡量信息量,不受数据集以外的因素影响。

  • 各主成分之间正交,可消除原始数据成分间的相互影响的因素

  • 计算方法简单,主要运算是特征值分解,易于实现。

  1. 缺点

  • 主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。

  • 方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

SVD原理

任意形状的矩阵A经过svd分解会得到U,Σ,VT(V的转置)三个矩阵,其中U是一个M×M的方阵,被称为左奇异向量,方阵里面的向量是正交的;Σ是一个M×N的对角矩阵,除了对角线的元素其他都是0,对角线上的值称为奇异值;VT(V的转置)是一个N×N的矩阵,被称为右奇异向量,方阵里面的向量也都是正交的。

可以计算ΣΣ前x个奇异值的平方和占所有奇异值的平方和的比例,如果大于90%,我们就选这x个奇异值重构矩阵(剩余的数据代表的可能是噪声,无用数据)。

那么重构的A'为:

SVD的应用

  • svd实现图像压缩

import scipy.misc
from scipy.linalg import svd
import matplotlib.pyplot as plt
import numpy as np
import numpy
img = scipy.misc.face()[:,:,0]
img = np.array(img)
U,s,Vh=svd(img)
#将特征压缩到十维,并还原图像
A = numpy.dot(U[:,0:10],numpy.dot(numpy.diag(s[0:10]),Vh[0:10,:]))
plt.subplot(111,aspect='equal')
plt.title(":10")
plt.imshow(A)
plt.imsave('a10.png', A)
  • svd实现信号去噪

import matplotlib.pylab as plt
import numpy as np
import numpy
from scipy.linalg import svd
x = np.linspace(-np.pi, np.pi, 400)
mu, sigma = 0, 0.05
ss = np.random.normal(mu, sigma, 400)
a = (np.sin(x) + ss).reshape(20, 20)U,s,Vh = svd(a)
print s
A = numpy.dot(U[:,0:2],numpy.dot(numpy.diag(s[0:2]),Vh[0:2,:]))
aa = A.reshape((400,))plt.subplot(221,aspect='equal')
plt.plot(x, np.sin(x))
plt.title("sin")plt.subplot(222,aspect='equal')
plt.plot(x, np.sin(x) + ss)
plt.title("sin with noise")plt.subplot(223,aspect='equal')
plt.title("sin remove noise x = 2")
plt.plot(x, aa)A = numpy.dot(U[:,0:1],numpy.dot(numpy.diag(s[0:1]),Vh[0:1,:]))
aa = A.reshape((400,))
plt.subplot(224,aspect='equal')
plt.title("sin remove noise x = 1")
plt.plot(x, aa)plt.show()

第一副图是纯sin波形,第2副图是加了噪声的波形,第三副选择2个奇异值重构A结果很接近标准sin波形实现了去噪,第四副图是选了1个奇异值重构A的结果。

参考文献

http://liao.cpython.org/scipy06.html

https://www.cnblogs.com/jclian91/p/8024101.html

https://blog.csdn.net/m0_50572604/article/details/121018988

https://www.cnblogs.com/pinard/p/6239403.html

https://www.cnblogs.com/pinard/p/6251584.html

https://github.com/Gaoshiguo/PCA-Principal-Components-Analysis

相关内容

热门资讯

安卓系统播放器apk,安卓系统... 你有没有发现,手机里那个小小的播放器,竟然能承载我们那么多美好的回忆?今天,就让我带你一起探索安卓系...
安卓系统微信突然没了,原因揭秘... 最近我的安卓手机上微信突然不见了,这可真是让人头疼啊!微信可是我日常生活中必不可少的社交工具,这下可...
安卓系统点网页链接,探索便捷信... 你有没有遇到过这种情况?手机里打开了一个网页链接,点进去一看,哇,竟然是安卓系统的页面!是不是瞬间觉...
安卓系统起名好听吗 说到安卓系统,你是不是也和我一样,每次看到那些手机屏幕上跳出来的系统名称,就会忍不住想:这名字听起来...
氢os系统是安卓吗,安卓的革新... 你有没有想过,手机操作系统界最近又出现了一个新面孔——氢OS系统?它和安卓系统有什么关系呢?是不是安...
安卓系统如何改密码,安卓系统密... 手机里的安卓系统密码丢了?别急,让我来给你支个招,让你轻松找回或者重置密码,让你的手机安全无忧!一、...
安卓p系统下载安装,轻松上手新... 你有没有发现,最近你的安卓手机好像有点不一样了?是不是因为安卓P系统的更新呢?没错,就是那个传说中的...
安卓系统病毒清理不了,新策略待... 手机里的安卓系统突然变得有点儿“闹腾”,是不是你也遇到了这样的烦恼?那些病毒啊、木马啊,就像顽固的小...
安卓如何用系统配音,轻松生成文... 你有没有想过,手机里的那些文字信息,竟然也能变成动听的声音呢?没错,这就是安卓系统配音的神奇魅力!今...
红米8安卓系统版本,安卓系统版... 你有没有发现,你的红米8手机最近有点儿不一样了?没错,就是那个安卓系统版本,它悄悄地升级了!今天,就...
烈焰征途手游安卓系统,战火纷飞... 穿越火线,畅游烈焰征途手游安卓系统世界 想象你置身于一个充满激情与挑战的虚拟战场,手握利器,与战友并...
夜神安卓5.1.1系统 亲爱的读者,你是否曾在深夜里,手机屏幕亮起,探索着那些隐藏在角落里的秘密?今天,我要带你走进一个神秘...
ios系统王者号如何转到安卓系... 你是不是也有过这样的烦恼?手里拿着一个iOS系统的王者号,突然有一天想换到安卓系统,但是又担心账号和...
修改安卓系统信道的软件,打造个... 你有没有想过,你的安卓手机其实可以更加个性化,更加符合你的使用习惯呢?没错,今天就要来聊聊一个超级实...
安卓镜像系统盘,基于安卓镜像系... 你有没有想过,你的安卓手机里那些神奇的系统盘,它们是如何运作的?今天,就让我带你一探究竟,揭开安卓镜...
王者安卓系统图片壁纸,探寻东方... 亲爱的手机控们,你是否在寻找一款既能彰显个性又充满王者风范的安卓系统图片壁纸呢?今天,就让我带你一起...
现代盒子刷安卓系统 你有没有想过,家里的那个旧盒子,那个曾经陪你度过了无数欢乐时光的安卓盒子,现在竟然还能焕发第二春?没...
怎么设小白点安卓系统,玩转智能... 你有没有想过,给安卓系统设置一个可爱的小白点,让它看起来既个性又时尚呢?这可不是什么高难度的技术活,...
安卓系统不容易崩溃 你有没有发现,安卓系统用起来就是那么稳当,不像某些系统,动不动就崩溃,让人头疼不已。今天,就让我来给...
安卓七大系统,从底层架构到应用... 你知道吗?在手机江湖里,安卓系统可是当之无愧的武林盟主。它不仅拥有庞大的用户群体,还衍生出了七大各具...