将主成分方法应用于监督学习问题的风险和警告

文章的翻译是在预期机器学习基础课程开始时准备的








高维空间及其诅咒



当使用实际的多维数据集时,维数的诅咒是一个严重的问题。随着特征空间的尺寸增加,配置的数量会成倍增加,结果,观察所覆盖的配置数量会减少。



在这种情况下,主成分分析(PCA)将发挥重要作用,有效缩小数据规模,同时保留数据集中尽可能多的变化。



在深入探讨问题之前,让我们快速看一下主成分分析的本质。



主成分法-定义



主成分分析的主要思想是减小由大量相互关联的变量组成的数据集的维,同时保持数据集中存在的最大多样性。



定义一个对称矩阵A







其中X独立变量mxn矩阵,其中m是列数,n是数据点数。矩阵A可以按如下方式分解:







其中D是对角矩阵,EA的特征向量矩阵,排列成列。



主要成分X是特征向量XX T,这意味着特征向量/主分量的方向取决于自变量(X)的变化



为什么鲁ck地应用主成分分析是监督学习问题的祸根?



文献中经常提到在回归以及多重共线性问题中使用主成分分析。但是,随着对主成分使用回归,人们对以主成分解释响应变量的重要性及其重要性的顺序存在许多误解。



在各种文章和书籍中多次遇到的常见误解是,在具有主成分回归的监督学习环境中,具有小特征值的自变量的主成分将不会在解释响应变量中起重要作用,这导致我们本文的目的。这个想法是,在解释响应变量时,具有较小特征值的组件与具有较大特征值的基本组件一样重要,甚至更为重要。



下面,我将列出我提到的一些出版物示例:



[1]。Mansfield等人(1977年,第38页)建议,如果仅删除低方差成分,则回归不会失去太多的预测能力。

[2]。在Ganst和Mason(1980)中,有12页专门讨论主成分回归,许多讨论表明,主成分的去除仅基于其方差。(第327–328页)。

[3]。Mosteller和Türki(1977,pp。397–398)也认为,低方差分量在回归中不太可能重要,显然是因为自然是“棘手的”而不是“均匀的”

[4]。Hawking(1976,p。31)在定义基于方差的回归中主成分的守恒原理时甚至更具限制性。



理论解释与理解



首先,让我们为上述假设获得正确的数学证明,然后再给出一些解释,以便使用几何可视化和建模更好地理解。



假设

Ÿ是响应变量,

X是功能空间矩阵

ž被标准化版本X



λλ>.λp是本征值ž Ť Ž(相关矩阵)和V -对应的特征向量,则W = ZV,在列W¯¯将代表主成分Ž主成分回归中使用的标准方法是对Y上的前m个主成分进行回归,可以通过下面的定理及其解释来表示问题[2]。



定理:



W =(W 1,...,WP) -特征向量X。现在考虑回归模型:







如果回归系数β的真实向量与第j个特征向量Z T Z同向,则在Y回归到W的过程中,第j个主成分Wⱼ将有助于学习,而其余的主要成分将在原则上不起作用...



证明:令V =(V₁,...,Vp)-Z T到Z的特征向量的矩阵。然后,







由于表达式的回归系数在哪里



如果β与第j个特征向量V共同指向,则Vⱼ=aβ,其中a是一个非零的标量值。因此,θJ=Vⱼᵀβ=aβᵀβ和θᴋ=Vᴋᵀ β = 0,其中k≠j时因此,对应于W的回归系数θᴋ分别k≠j为零,







由于变量Wᴋ不会减小平方和,因此如果其回归系数为0,则Wj起到主要作用,而其他主要成分将不起作用。



几何意义和建模



现在,让我们模拟并获得上述数学计算的几何表示。通过对二维特征空间(X)和一个响应变量进行建模来说明该解释,以便可以从视觉上轻松理解该假设。





图1:考虑的变量X1和X2的一维和二维图



在建模的第一阶段,使用多元正态分布对特征空间进行建模,变量与主成分之间的相关性非常高。





图2:PC1和PC2的热图关联(主要组件)



从图中非常清楚的是,主成分之间没有关联。在第二步中,对响应变量Y的值进行建模,以使主成分的Y系数方向与第二主成分的方向一致。







收到响应变量后,相关矩阵将如下所示。





图3:变量Y和PC1和PC2的热图。



该图清楚地表明,YPC2之间的相关性高于YPC1之间相关性,这印证了我们的假设。





图4:PC1和PC2解释的特征空间差异。



由于图中显示PC1解释了X的95%的方差,那么根据上面概述的逻辑,我们必须完全忽略回归中的PC2



因此,让我们关注它,看看会发生什么!





图5. Y和PC1的回归结果。



因此,R 2等于0表示尽管PC1给出了方差X的95%,但仍不能解释响应变量。



现在,让我们对PC2进行相同的操作,它仅解释了X的方差的5%,然后看看会发生什么。





图6:使用Y和PC2进行回归的结果。



雨湖!只要看看发生了什么:这说明了主要成分5%X的变化给了72%Ÿ的变化。也有支持这种情况的真实示例:



[1] Smith和Campbell(1980)给出了一个化学工程示例,其中有9个回归变量,而当第八个主成分的方差为总方差的0.06%时,则不会由于上述逻辑而被考虑在内。

[2] Kung和Sharif(1980)提供了第二个例子。在一项使用十个气象变量预测季风开始日期的研究中,只有第八,第二和第十个分量很重要。该示例表明,就解释响应变量的可变性而言,即使特征值最小的主成分也将排在第三位。



输出量



以上示例表明,删除特征值较小的主成分是不合适的,因为它们仅影响特征空间中的可解释性,而不影响响应变量。因此,您需要在监督的尺寸缩减技术中保留所有组件,例如部分最小二乘回归和最小角度回归,我们将在以后的文章中讨论。



资料来源
[1] Jolliffe, Ian T. “A Note on the Use of Principal Components in Regression.” Journal of the Royal Statistical Society. Series C (Applied Statistics), vol. 31, no. 3, 1982, pp. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286

[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.

[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley

[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.

[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.

[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.






了解有关“机器学习”课程的更多信息基本课程”,以及参加免费课程,您都可以在此链接上注册免费的在线讲座






阅读更多:



熵:决策树如何制定决策



All Articles