“自行车工具包”或创建用于分析和机器学习的自制数据集

几年前,我对机器学习和数据分析产生了短暂的兴趣,甚至从一个完整的初学者的角度写了一个简短的系列文章,介绍我如何沉浸在这个神奇的世界中。



当学习新东西时经常发生,我真的很想做自己的“自行车”。不幸的是,我对数学和编程了解不多,所以我自己的数据集成为了“自行车”角色的候选人。



从那一刻起已经过去了两年多,现在我可以与您分享我的小经验。



在本文中,我们将考虑几种自我收集数据的潜在来源(包括不太受欢迎的来源),并尝试在此过程中至少找到一些好处。





目录:

第一部分:简介

第二部分:数据源

第三部分:有好处吗?

第四部分:结论





第一部分:简介



您可能从介绍中就猜到我不是数据分析和机器学习专家。在寻找开放数据源方面,我几乎不能被称为先驱。因此,本文不是关于好的实践,而是关于消除“手掌上的痒”的情况,以防您想到创建自己的数据集的想法。



.



. . (, ), «5 ».



, « » , « » .





II:



.





. .



Kaggle. Kaggle .



, - , .



.



« » 2010- , - 2015 .



2017 . . API . , , : « , ».



.





. , API .



, , :



  • , .
  • , « ».




, . , . «, ...» , , .



, .



.



. , API .

, .



( ), .



, - () - .





« », .

, .



, , .



.





, « » , :



  • – , .
  • – . , .csv. ( ).

  • , , Sportradar API. . , .
  • , , .


,



. . .



. , .



. , . 2016 2020 GitHub.

, -, .



, , (, ).





III: ?



. , .



, :



  1. Python ( ) . , - .
  2. , .
  3. . , . , , .
  4. , . , , «», . , , , .
  5. , - .




IV:



, «», , .



, , : « », .



.



- , .




All Articles