几年前，我对机器学习和数据分析产生了短暂的兴趣，甚至从一个完整的初学者的角度写了一个简短的系列文章，介绍我如何沉浸在这个神奇的世界中。

当学习新东西时经常发生，我真的很想做自己的“自行车”。不幸的是，我对数学和编程了解不多，所以我自己的数据集成为了“自行车”角色的候选人。

从那一刻起已经过去了两年多，现在我可以与您分享我的小经验。

在本文中，我们将考虑几种自我收集数据的潜在来源（包括不太受欢迎的来源），并尝试在此过程中至少找到一些好处。

第一部分：简介

您可能从介绍中就猜到我不是数据分析和机器学习专家。在寻找开放数据源方面，我几乎不能被称为先驱。因此，本文不是关于好的实践，而是关于消除“手掌上的痒”的情况，以防您想到创建自己的数据集的想法。

. . (, ), «5 ».

, « » , « » .

II:

. .

Kaggle. Kaggle .

, - , .

« » 2010- , - 2015 .

2017 . . API . , , : « , ».

. , API .

, , :

, . , . «, ...» , , .

, .

. , API .

, .

( ), .

, - () - .

« », .

, .

, , .

, « » , :

. . .

. , .

. , . 2016 2020 GitHub.

, -, .

, , (, ).

. , .

, :

, «», , .

, , : « », .

- , .