机器学习中的特征选择

哈Ha!

Reksoft的我们将文章“机器学习中的特征选择”翻译成俄语我们希望它对每个对本主题无所谓的人都有用。

在现实世界中,数据并不总是像企业客户有时认为的那样干净。这就是为什么需要数据挖掘和数据整理的原因。它有助于识别人类无法识别的查询结构化数据中的缺失含义和模式。机器学习非常有用,可以使用发现的数据连接查找并使用这些模式来预测结果。

要了解任何算法,您需要查看数据中的所有变量并弄清楚这些变量代表什么。这是至关重要的,因为结果的依据是基于对数据的理解。如果数据包含5个甚至50个变量,则可以全部检查。如果有200个呢?这样一来,根本就没有足够的时间来检查每个单独的变量。此外,某些算法不适用于分类数据,然后必须对所有分类列进行量化(它们看起来可能是量化的,但指标将显示它们是分类的)才能将其添加到模型中。因此,变量的数量增加了,大约有500个,现在该怎么办?您可能会认为降维是答案。降维算法减少了参数数量但会对可解释性产生负面影响。如果还有其他技术可以消除这些特征同时又使其余特征易于理解和解释怎么办?

取决于分析是基于回归还是分类,特征选择算法可能会有所不同,但是其实现的主要思想仍然是相同的。

高度相关的变量

彼此高度相关的变量为模型提供了相同的信息,因此,没有必要使用所有变量进行分析。例如,如果数据集包含“在线时间”和“使用的流量”属性,则可以假定它们之间存在某种程度的相关性,即使选择了无偏数据样本,我们也会看到很强的相关性。在这种情况下,模型中仅需要这些变量之一。如果同时使用两者,则模型将过拟合并偏向一个特定特征。

P值

, , — . p-, . , p-, - , , , , (target).

— , . , , , . , , . . p-, . , , ( ).

, . . ( ), . p- . .

RFE / . , « » , ; ( 200-400), , - , . RFE . . . , RFE , ( , , , ).

, ( p-) ( , ). , , Random Forest, LightGBM XG Boost, , « ». , .

(bias) (variance). , (overfit) . , . , . ! :

L1 — : (.. ). , , , (.. , ).

L2 — Ridge: Ridge . Ridge , .

Ridge , , , Elastic-Net.

, : . — , , , .

! !




All Articles