数据科学理学硕士:哈佛大学研究生的建议

该翻译是在招募学生的过程中进行的,该课程招募了具有MISIS国家文凭的数据科学在线硕士课程的学生



图片



在本文中,我想分享我在过去一年半中积累的数据科学领域的科学经验。



这是我在Medium上的第一篇文章,所以我想谈谈自己和以前的经历。我是哈佛大学环境工程与计算专业的博士学位学生,我还为总部位于英国的人工智能咨询公司Critical Future担任机器学习和区块链顾问。我的研究重点是使用基于无人机的传感器系统在环境科学中实施机器学习和人工智能,这些传感器系统可以自行移动以编制主要在亚马逊雨林中的低层大气化学成分的图像(对于对此项目感兴趣的人,我将在不久的将来针对此主题发布单独的文章。



我于2017年秋季在哈佛大学获得博士学位,并从伦敦帝国理工学院获得了机械工程学士学位和文学硕士学位,并在新加坡国立大学完成了我的最后一年海外学习。在我的本科学习期间,我对数据科学和统计学总体上并不十分熟悉,但是与此同时,我对Matlab,C和Visual Basic的编程知识非常了解,并且具有很强的数学背景。



在进入哈佛大学之前,我从未使用过Python编程,甚至从未听说过R。我从未做过并行计算,从未创建过集群,并且机器学习和人工智能是我通常只听说的事情。来自反乌托邦小说和电影。



如此卑微的背景下参加哈佛计算机科学与机器学习计划就像爬上陡峭的悬崖(艰苦而摇摇欲坠)。但是,这是哈佛大学,所以您几乎不会期望到其他任何事情。哈佛博士学位课程要求10门课程,其中通常有8门是硕士课程。它们可以按照自己的进度完成,但是您必须在毕业之前完成,平均需要5年。鼓励学生在头两年内完成所有课程,然后再获得其(正式免费的)硕士学位。在2019年春季学期末,我将满足这些要求并获得文凭,之后我将专注于研究。



在2018年秋季,哈佛大学启动了有史以来第一批数据科学硕士学位课程的学生。它是一个为期两年的计划,包括数据科学,伦理学和应用数学,计算机科学以及统计/经济学选修课的核心课程。在所有这些学生的一年之前,我将是第一个满足该计划基本要求的人之一,这使我在数据科学学位的有效性方面拥有独特的经验。



在过去的18个月中,我参加了许多课程。第一个是CS205:并行计算,我首先学习了在Linux上编程的方法,并创建了能够线性加速矩阵计算的计算集群,并且本课程最终完成了一个最终项目,其中包括使用Python和Dask在Kubernetes集群上进行并行计算。



我还参加了AM207:高级科学计算,这是由哈佛扩展学校提供的(这意味着任何人都可以参加本课程)。该课程侧重于贝叶斯统计及其在机器学习中的实现,其中包括无数小时的蒙特卡洛马尔可夫链(MCMC)模拟,贝叶斯定理的工作,甚至还观看了有关超人的简短视频,这使时间轮流。逆向(演示机器学习中时间可逆性的概念)



AC209a也是核心课程之一,其重点是机器学习和数据科学的基础知识。我想说的是,这门课程包括大多数人在说“数据科学”或“机器学习”时的想法。这是关于学习如何进行探索性数据分析以及如何使用sklearn运行回归器和分类器。本教程的大部分内容都集中在理解这些技术以及如何针对给定的数据集最优化这些技术(这不仅仅使用model.fit(X_train,y_train)...。另一门课程是AC209b:其他数据科学部分,它是第一堂课的延伸。基本上,这是一门有关类固醇的数据科学课程,其中前几讲以广义加性模型开始,并创建漂亮的样条线来描述数据集。但是,事情很快升级为在Kubernetes集群上使用Dask并行运行2500个模型,以尝试在100层人工神经网络上执行超参数优化。同时,实际上,这甚至不是我们要做的最困难的事情-如果我们从整体上讲这门课程,那么所有这些都只发生在讲座的第三周。这甚至不是我们做过的最困难的事情-如果我们从整体上讲这门课程,那一切都只是在讲座的第三周发生的。这甚至不是我们做过的最困难的事情-如果我们从整体上讲这门课程,那一切都只会在讲座的第三周发生。



我还参加了其他课程,包括CS181:机器学习,该课程涵盖了基于频率和贝叶斯方法的回归,分类,强化学习和其他领域的数学基础; AM205:用于求解微分方程的科学方法,以及AM225:用于求解偏微分方程的高级方法。我在哈佛余下的时间里还可以参加许多其他课程,以加深我的知识,例如CS207:计算科学的系统工程,AM231:决策理论或AM221:高级优化。我还应该澄清,这些课程中的每一个都有一个最终项目,可以添加到我的档案袋中。



现在进入文章的主题-在所有这些时间之后,我花了很多时间学习如何成为一名优秀的数据科学家,这值得吗?还是我可以自己做全部?更具体地说,对于那些打算在1-2年内投资超过100,000美元并获得数据科学学位的职业,是否值得这样做?



我认为,在这18个月的数据科学课程中,我所学到的一切都无法通过阅读书籍,观看在线视频以及研究各种软件包的文档来学习。但是,毫无疑问,获得数据科学学位可以促进某人的职业发展,并为现实世界的项目提供宝贵的经验,这些经验可以在访谈中进行讨论并用于投资组合中。就个人而言,如果我只是坐在家里并在Youtube上观看视频,我将需要花费数年的时间才能弄清楚如何优化在Google Cloud的并行集群上运行的100层神经网络-我什至无法想象该怎么做。



对数据科学的好奇心很好,我希望更多的人对此主题感兴趣。自信息爆炸以来,似乎在未来十年内数据将成为新的世界宗教,因此,不可避免的是世界将需要更多的数据科学专家。但是,好奇心会使您走得更远,如果有一张纸可以证明您花费了时间,投入了技能和良好的习惯,成为了一位真正有成就的数据科学家,这将使您与众不同。某些人似乎认为,数据科学并不只是作为Kaggle竞赛而存在。



我对希望从事数据科学的人的建议是在统计学和数学上打下良好的基础,我还建议您获得一些使用Python和R等语言进行编程的经验,并精通Linux开发。我见过的大多数计算机科学专业的学生似乎都在与计算机科学相关的方面挣扎,例如使用Docker容器以及创建和管理在某些云基础架构上运行的分布式集群。要成为一名经验丰富的数据科学家,要掌握许多复杂的技能,我当然不能称自己是专家。但是,根据我的经验,我有足够的信心我可以继续发展自己在数据科学和机器学习中的技能,并将其应用到与行业相关的项目和研究中,而不必担心会做“坏科学”。



如果您想知道什么是数据科学课程,我建议您看一看大学提供的在线课程,这些课程通常会为您获得完成学位所需的学分。现在,哈佛大学的一名学生在扩展学校完成了3门计算机科学课程,现在拥有计算机和工程学位,并且是高级数据科学课程的助教之一。一切皆有可能!






拥有MISIS国家文凭的数据科学在线课程



图片



NUST MISIS与SkillFactory(数据科学在线学校)签署了一项协议,以创建联合在线硕士课程“数据科学”,其中包括实际项目中的实习,与导师聊天室以及个人培训计划。 Mail.ru Group,Yandex,Tinkoff和VTB银行,Lamoda,BIOCAD,AlfaStrakhovanie等人的NUST MISIS教授和实践者将教授这些课程。



这是俄罗斯第一个基于OPM模型的私立教育公司与州立大学之间的合作伙伴关系(在线)计划管理)。该计划的工业合作伙伴将是Mail.ru Group。 NVidia,Rostelecom和NTI University“ 20.35”也支持该程序。



任何方向的学士学位毕业生都可以根据在线考试的结果来报读硕士课程。您可以立即申请,直到8月10日为止。



有用的材料






All Articles