机器学习【永利集团304com】

主成分解析难点公式

主成分分析难点:

  • 将n维数据降为k维
  • 找到向量u, ···, u使得其阴影抽样误差最小化

对此,大家引进主成分剖判法(Principal Component
Analysis,简称PCA),该方法也是附近的降维方法。

主元素深入分析法:寻觅二个低维的面,使得投影抽样误差的平方和最小化。

永利集团304com 1

注:别因为上图周边于线性回归,就以为主成分深入分析法与线性回归同样。实际上,主成分深入分析法是最小化投影标称误差,而线性回归是最小化预测结果基值误差。

主成分剖判算法是最广大的降维算法,在PCA中,大家要做的是找到一个主旋律向量,然后大家把装有的数都投影到该向量上,使得投影的抽样误差尽只怕的小。投影误差正是特征向量到影子向量之间所急需活动的距离。

主元素分析算法

若是数据集为{x, ···, x},大家意在将其从n维降为K维:

  1. 对数码集举行特色缩放和均值归一化
  2. 计量协方差矩阵(Covariance Matrix):

永利集团304com 2协方差矩阵

  1. 总计协方差矩阵的特征向量(Eigenvector):[U, S, V] = svd;

当中,svd()函数是Octave或MATLAB中的奇异值分解(Singular Value
Decomposition)函数。

通过svd()函数大家可获得矩阵U,该矩阵是由数据间最小投影标称误差的大势向量构成的。我们要将n维数据集降为K维,只需在矩阵U中取得一个n*K的矩阵就可以,该矩阵我们用Ureduce表示,然后使用如下公式总计处新的表征向量z:

永利集团304com 3

注:此处X∈奥迪Q5n,即不包涵x0=1。

PCA的指标是找到四个最下投影抽样误差平方的低维向量,对本来数据进行投影,进而到达降维的指标。

下边给出主成分深入分析算法的陈诉:

主题素材是要将n维数据降至k维,指标是寻觅向量μ(k),使得投影基值误差最小。

主成分解析算法与线性回归类似,但区别是影子方式的不及。

永利集团304com 4

如图所示,的右臂的图是垂直与x轴进行的阴影,那是线性回归的抽样误差,而侧面的黑影方法是垂直与回归直线进行投影。PCA将n个特征降维到k个,能够用来收缩数量,也足以用来驱动数据可视化。‘

PCA手艺最大的优点是对数据进行降维,在起到压缩数量的同一时间,最大程度的维系了土生土长数据。

还要它是全然无参数限制,在计算进度中,完全无需人工的设定多余参数,对经验模型的乘除举办干涉。

怎么样通过PCA算法进行降维?

PCA算法减少n维到k维:

step 1: 均值归一化,大家须求总计出富有向量的均值,然后令x j = x j – μ
j。假设特征是在分歧的数目级上,大家还索要除以规范差δ 2.

step 2:计算协方差矩阵∑:永利集团304com 5

发表评论

电子邮件地址不会被公开。 必填项已用*标注