scikit

意义：PCA算法中所要保留的主成分个数n，也即保留下来的特征个数n 类型：int 或者 string，缺省时默认为None，所有成分被保留。赋值为int，比如n_components=1，将把原始数据降到一个维度。赋值为string，比如n_components='mle'，将自动选取特征个数n，使得满足所要求的方差百分比。

copy:

类型：bool，True或者False，缺省时默认为True。

意义：表示是否在运行算法时，将原始训练数据复制一份。

若为True，则运行PCA算法后，原始训练数据的值不会有任何改变，因为是在原始数据的副本上进行运算；

若为False，则运行PCA算法后，原始训练数据的值会改，因为是在原始数据上进行降维计算。

whiten:

类型：bool，缺省时默认为False

意义：白化，使得每个特征具有相同的方差。关于“白化”，可参考：Ufldl教程

2、PCA的对象

components_ ：返回具有最大方差的成分。 explained_variance_ratio_：返回所保留的n个成分各自的方差百分比。 n_components_：返回所保留的成分个数n。 mean_： noise_variance_：
fit()可以说是scikit-learn中通用的方法，每个需要训练的算法都会有fit()方法，它其实就是算法中的“训练”这一步骤。因为PCA是无监督学习算法，此处y自然等于None。 fit(X)，表示用数据X来训练PCA模型。函数返回值：调用fit方法的对象本身。比如pca.fit(X)，表示用X对pca这个对象进行训练。 fit_transform(X) 用X来训练PCA模型，同时返回降维后的数据。 newX=pca.fit_transform(X)，newX就是降维后的数据。

transform(X)

将数据X转换成降维后的数据。当模型训练好后，对于新输入的数据，都可以用transform方法来降维。此外，还有get_covariance()、get_precision()、get_params(deep=True)、score(X, y=None)等方法，以后用到再补充吧。

4、举例

以一组二维的数据data为例，data如下，一共12个样本（x,y），其实就是分布在直线y=x上的点，并且聚集在x=1、2、3、4上，各3个。

 data
array([[ 1. , 1. ],
 [ 0.9 , 0.95],
 [ 1.01, 1.03],
 [ 2. , 2. ],
 [ 2.03, 2.06],
 [ 1.98, 1.89],
 [ 3. , 3. ],
 [ 3.03, 3.05],
 [ 2.89, 3.1 ],
 [ 4. , 4. ],
 [ 4.06, 4.02],
 [ 3.97, 4.01]])

data这组数据，有两个特征，因为两个特征是近似相等的，所以用一个特征就能表示了，即可以降到一维。下面就来看看怎么用sklearn中的PCA算法包。

（1）n_components设置为1，copy默认为True，可以看到原始数据data并未改变，newData是一维的。

 from sklearn.decomposition import PCA 
 pca=PCA(n_components=1)
 newData=pca.fit_transform(data)
 newData
array([[-2.12015916],
 [-2.22617682],
 [-2.09185561],
 [-0.70594692],
 [-0.64227841],
 [-0.79795758],
 [ 0.70826533],
 [ 0.76485312],
 [ 0.70139695],
 [ 2.12247757],
 [ 2.17900746],
 [ 2.10837406]])
 data
array([[ 1. , 1. ],
 [ 0.9 , 0.95],
 [ 1.01, 1.03],
 [ 2. , 2. ],
 [ 2.03, 2.06],
 [ 1.98, 1.89],
 [ 3. , 3. ],
 [ 3.03, 3.05],
 [ 2.89, 3.1 ],
 [ 4. , 4. ],
 [ 4.06, 4.02],
 [ 3.97, 4.01]])

（2）将copy设置为False，原始数据data将发生改变。

 pca=PCA(n_components=1,copy=False)
 newData=pca.fit_transform(data)
 data
array([[-1.48916667, -1.50916667],
 [-1.58916667, -1.55916667],
 [-1.47916667, -1.47916667],
 [-0.48916667, -0.50916667],
 [-0.45916667, -0.44916667],
 [-0.50916667, -0.61916667],
 [ 0.51083333, 0.49083333],
 [ 0.54083333, 0.54083333],
 [ 0.40083333, 0.59083333],
 [ 1.51083333, 1.49083333],
 [ 1.57083333, 1.51083333],
 [ 1.48083333, 1.50083333]])

（3）n_components设置为'mle'，看看效果，自动降到了1维。

 pca=PCA(n_components='mle')
 newData=pca.fit_transform(data)
 newData
array([[-2.12015916],
 [-2.22617682],
 [-2.09185561],
 [-0.70594692],
 [-0.64227841],
 [-0.79795758],
 [ 0.70826533],
 [ 0.76485312],
 [ 0.70139695],
 [ 2.12247757],
 [ 2.17900746],
 [ 2.10837406]])

（4）对象的属性值

 pca.n_components
 pca.explained_variance_ratio_
array([ 0.99910873])
 pca.explained_variance_
array([ 2.55427003])
 pca.get_params
 bound method PCA.get_params of PCA(copy=True, n_components=1, whiten=False)

我们所训练的pca对象的n_components值为1，即保留1个特征，该特征的方差为2.55427003，占所有特征的方差百分比为0.99910873，意味着几乎保留了所有的信息。get_params返回各个参数的值。

（5）对象的方法

 newA=pca.transform(A)

对新的数据A，用已训练好的pca模型进行降维。

（6）设置参数

 pca.set_params(copy=False)
PCA(copy=False, n_components=1, whiten=False)

设置参数。

参考：

scikit-learn官网样例：scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA

博文：blog.csdn/u012162613/article/details/42192293、ishowcode/ai/ml/scikit-learn-pca/

标签： # 方差 # 数据

声明：伯乐人生活网所有作品（图文、音视频）均由用户自行上传分享，仅供网友学习交流。若您的权利被侵害，请联系ttnweb@126.com

猜你喜欢

生活常识

scikit

猜你喜欢

员工收入差距应该大还是小

概率论公式概率论公式有哪些

均方差和方差的区别均方差和方差怎么分

方差公式方差公式是什么

最优分配法是指在

单因素方差分析的步骤是什么单因素方差分析的步骤是

热门推荐

随机推荐

热门标签

scikit

猜你喜欢

员工收入差距应该大还是小

概率论公式 概率论公式有哪些

均方差和方差的区别 均方差和方差怎么分

方差公式 方差公式是什么

最优分配法是指在

单因素方差分析的步骤是什么 单因素方差分析的步骤是

热门推荐

随机推荐

热门标签

概率论公式概率论公式有哪些

均方差和方差的区别均方差和方差怎么分

方差公式方差公式是什么

单因素方差分析的步骤是什么单因素方差分析的步骤是