你好!我是一名Web开发人员,多年来对机器学习感兴趣。因为在我的日常工作园区中,我不得不解决一些对我来说不太有趣的问题,这些问题与机器学习无关,所以我有时会忘记我曾经阅读或使用的内容。为了给自己创建一个备忘录,增强我的知识并与他人分享,我决定写这一系列有关机器学习的文章。我将从数据预处理开始。
在本文中,我将讨论数据发生了什么问题,如何解决它们,以及在将数据提供给不同模型之前准备数据的最常用方法。
跳过
考虑以下数据集。我确实是发明了它,并将在本文中进一步参考它。
ID | 名称 | 体育学科 | 一个国家 | 运动员的出生年份 | 运动员体重 | 勋章 |
---|---|---|---|---|---|---|
1个 | 伊万 | 划船 | 俄罗斯联邦 | 1985年 | 265 | 乙 |
2 | 拳击 | 大不列颠 | 1986年 | 54 | 小号 | |
3 | 金 | 希腊罗马摔跤 | 北朝鲜 | 1986年 | 93 | G |
4 | 奥列格 | 希腊罗马摔跤 | 1984年 | 乙 | ||
五 | 佩德罗 | 划船 | 巴西 | 97 | ñ | |
6 | 瓦莱里 | 划船 | 俄罗斯联邦 | 2004年 | 97 | ñ |
, . . — , . , .
, "" , . , , .
— , - , . , "" "" . , , - - . : , , , .
. , . .
, . , . : , . — , .
:
- "".
ID | ||||||
---|---|---|---|---|---|---|
2 | 1986 | 54 | S |
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | B |
, :
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (265 + 54 + 93 + 97 + 97) / 5 = 121.2 | B |
, " " 1 .
- . , .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (54, 93, 97, 97, 265) = 97 | B |
, . , , . , "" . — ( ).
ID | ||||||
---|---|---|---|---|---|---|
1 | 1985 | 265 | B |
, , , , . :
— — , 25% . — — , 75% .
, , , : :
.
— . , [0, 1]. , . , . (, , ) .
. , , . , .
Z-. Z- :
— X.
Z- .
M[X] — X.
, Z- , .
One-hot encoding
. . , " " - . : . . . ( ).
, , ? . , " " 1, "" — 2. . , , . , . .
, , . , "" 4 :
ID | _ | _ | _ | _ | ||
---|---|---|---|---|---|---|
1 | 1 | 0 | 0 | 0 | ||
2 | 0 | 1 | 0 | 0 | ||
3 | 0 | 0 | 0 | 1 | 0 | |
4 | 1 | 0 | 0 | 0 | ||
5 | 0 | 0 | 0 | 1 | ||
6 | 1 | 0 | 0 | 0 |
, , .
, . . , , . . , .
感谢您阅读或浏览到这里。我没有描述所有的预处理方法,并且这篇文章对专业数据科学家来说几乎没有用。但是,如果您是初学者,但不知道如何处理数据,则可以安全地返回此处。祝您学习愉快,工作有趣!
来源清单
我不是科学家,因此本文并不声称是科学的。因此,我不会根据GOST拟定资源。请原谅我。