几年前,我对机器学习和数据分析产生了短暂的兴趣,甚至从一个完整的初学者的角度写了一个简短的系列文章,介绍我如何沉浸在这个神奇的世界中。
当学习新东西时经常发生,我真的很想做自己的“自行车”。不幸的是,我对数学和编程了解不多,所以我自己的数据集成为了“自行车”角色的候选人。
从那一刻起已经过去了两年多,现在我可以与您分享我的小经验。
在本文中,我们将考虑几种自我收集数据的潜在来源(包括不太受欢迎的来源),并尝试在此过程中至少找到一些好处。
目录:
第一部分:简介
第二部分:数据源
第三部分:有好处吗?
第四部分:结论
第一部分:简介
您可能从介绍中就猜到我不是数据分析和机器学习专家。在寻找开放数据源方面,我几乎不能被称为先驱。因此,本文不是关于好的实践,而是关于消除“手掌上的痒”的情况,以防您想到创建自己的数据集的想法。
.
, « » , « » .
II:
.
. .
Kaggle. Kaggle .
, - , .
.
« » 2010- , - 2015 .
.
, , :
.
. , API .
, .
( ), .
, « » , :
,
. . .
. , .
. , . 2016 2020 GitHub.
, -, .
III: ?
. , .
, :
- Python ( ) . , - .
- , .
- . , . , , .
- , . , , «», . , , , .
- , - .
IV:
, «», , .
, , : « », .
.
- , .