数据预处理

你好!我是一名Web开发人员,多年来对机器学习感兴趣。因为在我的日常工作园区中,我不得不解决一些对我来说不太有趣的问题,这些问题与机器学习无关,所以我有时会忘记我曾经阅读或使用的内容。为了给自己创建一个备忘录,增强我的知识并与他人分享,我决定写这一系列有关机器学习的文章。我将从数据预处理开始。



在本文中,我将讨论数据发生了什么问题,如何解决它们,以及在将数据提供给不同模型之前准备数据的最常用方法。



跳过



考虑以下数据集。我确实是发明了它,并将在本文中进一步参考它。



ID 名称 体育学科 一个国家 运动员的出生年份 运动员体重 勋章
1个 伊万 划船 俄罗斯联邦 1985年 265
2 拳击 大不列颠 1986年 54 小号
3 希腊罗马摔跤 北朝鲜 1986年 93 G
4 奥列格 希腊罗马摔跤 1984年
佩德罗 划船 巴西 97 ñ
6 瓦莱里 划船 俄罗斯联邦 2004年 97 ñ


, . . — , . , .



, "" , . , , .



— , - , . , "" "" . , , - - . : , , , .



. , . .



, . , . : , . — , .





:



  • "".


ID
2 1986 54 S


  • .


ID
4 - 1984 B




, :



  • .


ID
4 - 1984 (265 + 54 + 93 + 97 + 97) / 5 = 121.2 B


, " " 1 .



  • . , .


ID
4 - 1984 (54, 93, 97, 97, 265) = 97 B




, . , , . , "" . — ( ).



ID
1 1985 265 B


, , , , . :



一世[R=3--1个



1个 — — , 25% . 3 — — , 75% .



, , , : :



[1个--1.5一世[R3+1.5一世[R]



.





— . , [0, 1]. , . , . (, , ) .



. , , . , .



XñËw=XØd--X一世ñX一种X--X一世ñ



Z-. Z- :



--3σ[X]3σ[X]



σ[X] — X.



Z- .



XñËw=XØd--中号[X]σ[X]



M[X] — X.



, Z- , .



One-hot encoding



. . , " " - . : . . . ( ).



, , ? . , " " 1, "" — 2. . , , . , . .



, , . , "" 4 :



ID _ _ _ _
1 1 0 0 0
2 0 1 0 0
3 0 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0


, , .





, . . , , . . , .



感谢您阅读或浏览到这里。我没有描述所有的预处理方法,并且这篇文章对专业数据科学家来说几乎没有用。但是,如果您是初学者,但不知道如何处理数据,则可以安全地返回此处。祝您学习愉快,工作有趣!



来源清单



我不是科学家,因此本文并不声称是科学的。因此,我不会根据GOST拟定资源。请原谅我。



  1. 光标上的Yandex和HSE“机器学习入门”课程。
  2. 标准化或均值去除和方差缩放-sklearn库文档
  3. 高级机器学习数据准备任务-Microsoft



All Articles