2020年数据科学家应阅读的内容



在本文中,我们与您分享了DAGsHub的联合创始人和CTO的一些见解,DAGsHub是一个用于数据修订控制和数据科学家与机器学习工程师之间的协作的社区和网络平台。选择内容包括各种来源,从Twitter帐户到成熟的工程博客,这些博客的目标读者是那些确切知道他们在寻找什么的人。细节剪下。



摘自作者:

您就是所吃的东西,作为知识工作者,您需要良好的信息饮食。我想分享我认为最有用或最有吸引力的数据科学,人工智能和相关技术的信息源。希望对您有帮助!


两分钟的论文



一个YouTube频道,可随时了解最新消息。该频道会经常更新,并且主持人在所有涉及的主题上都具有感染力和积极态度。期望不仅涵盖有关AI的有趣工作,而且涵盖计算机图形学和其他视觉吸引人的主题。



扬尼克·基尔彻(Yannick Kilcher)



Yannick在他的YouTube频道上,从技术上详细介绍了深度学习中有意义的研究。与其亲自阅读研究报告,不如观看其中一个视频,以更快,更轻松地了解重要文章。这些解释传达了文章的精髓,没有忽略数学,也没有迷失在这三个松树中。Yannick还就研究之间的相互关系,对结果的重视程度,更广泛的解释等分享了他的观点。对于初学者(或非学术从业者)来说,靠他们自己发现这些发现更加困难。



酒馆



用他们自己的话说:



机器学习研究需要清晰,动态和充满活力。Distill的创建是为了帮助研究。


Distill是有关机器学习研究的独特出版物。文章以令人惊叹的可视化效果得到推广,以使读者对主题有更直观的理解。空间思维和想象力在帮助理解机器学习和数据科学的主题方面非常有效。相反,传统的出版格式往往结构僵化,静态和干燥,有时甚至是“数学的”Distill的创建者之一Chris Olah还在GitHub上维护了一个很棒的个人博客它已经很长时间没有更新,但仍然保留了有关深度学习主题的最佳解释的集合。特别LSTM描述对我有很大帮助





来源



塞巴斯蒂安·鲁德



塞巴斯蒂安·鲁德(Sebastian Ruder)撰写了非常有帮助的博客和新闻通讯,主要是关于神经网络和自然语言文本分析的交集。他还在科学会议上为研究人员和演讲者提供了很多建议,如果您在学术界,这可能会很有帮助。塞巴斯蒂安的文章通常以评论的形式,总结和解释特定领域中现代研究和方法的现状。这意味着该文章对于希望快速掌握其知识的从业者非常有用。塞巴斯蒂安也发了推文



安德烈·卡帕蒂(Andrey Karpati)



Andrey Karpati无需介绍。除了是地球上最著名的深度学习研究人员之一之外,他还创建了广泛使用的工具,例如arxiv理智保存器作为辅助项目。通过cs231n的Stanford课程,无数人进入该领域,您会发现了解他学习神经网络的秘诀很有帮助。我还建议观看他关于特斯拉在现实世界中大规模应用机器学习时必须克服的现实挑战的演讲。演讲内容丰富,令人印象深刻且清醒。除了有关ML直接的文章,安德烈·卡尔帕蒂给人良好的生活窍门雄心勃勃的科学家TwitterGithub上阅读Andrew



优步工程



Uber的工程博客的规模和广度给人留下了深刻的印象,涵盖了众多主题,包括人工智能我特别喜欢Uber的工程文化,是他们倾向于以惊人的速度开发一些非常有趣且有价值的开源项目这里有些例子:





OpenAI博客



除了分歧之外,OpenAI博客无疑是美丽的。博客不时发布有关深度学习的内容和思想,这些内容和思想只能在OpenAI的规模上出现:假设的深度双重下降现象OpenAI团队通常不经常发布,但这很重要。





来源



Taboola博客



Taboola博客在这篇文章中不如其他一些消息源那样知名,但我发现它是独特的-作者在尝试将ML应用于“正常”业务的制造过程中,写了非常平凡的现实问题:较少的自动驾驶汽车和RL代理商赢得了胜利世界冠军,更多关于“我怎么知道我的模型现在正在以错误的信心来预测事情?” 这些问题与几乎所有从事该领域工作的人都息息相关,与主流的AI主题相比,它们获得的新闻报道较少,但是仍然需要世界一流的人才来正确解决这些问题。幸运的是,塔博拉(Taboola)既有这种才能,又有愿意和能力写这篇文章,以便其他人也可以学习。



Reddit



与Twitter一起,Reddit上没有什么比迷上研究,工具或人群智慧更好的了。





AI状态



帖子仅每年发布一次,但其中的信息非常密集。与此列表中的其他来源相比,非技术商人更容易使用此来源。我喜欢这些报告,是因为它试图提供一个更全面的视角来了解行业和研究的方向,并将鸟瞰,硬件,研究,商业乃至地缘政治方面的进步联系在一起。请务必从头开始阅读有关利益冲突的信息。



播客



坦率地说,我认为播客不适合学习技术主题。毕竟,他们只使用声音来解释主题,而数据科学是一个非常直观的领域。播客往往会为您提供一个理由,让您有理由在以后进行更多研究或进行有趣的哲学讨论。但是,以下是一些准则:



  • Lex Friedman与人工智能领域的著名研究人员交谈时的播客Francois Schollet的情节特别好!
  • 数据工程播客很高兴听到有关新数据基础架构工具的信息。


很棒的清单



当您知道要寻找的东西时,需要注意的地方就更少了,但是有更多资源可以提供帮助:





推特





  • , , — Twitter. .


  • . -. , , . , , .


  • fast.ai, .


  • ML Github, .


  • Keras的创造者FrançoisChollet现在试图更新我们对什么是智能以及如何对其进行测试的理解。


  • Google Brain的Hardmaru研究科学家。




结论



由于作者发现大量的内容来源,如果不列出这些内容会很可耻,因此可能会更新原始文章。如果您想推荐任何新资源,请随时Twitter上关注他DAGsHub还聘请了Advocate [ 翻译 公众执业者],因此,如果您要创建自己的数据科学内容,请随时写信给该帖子的作者。



图片


通过 阅读推荐的资源来发展自己,并使用HABR促销代码,可以额外获得横幅广告所示折扣的10%。







推荐文章






All Articles