数据科学是思想,直觉和灵感的放大

图片




世界上最早的用于存储和交换数据的技术之一。



在19世纪,医生可能会开出汞来预防情绪波动,并开砷来治疗哮喘。他们可能没有在手术前洗手。当然,他们没有试图杀死任何人-他们只是不知道有更合适的方法。



这些早期的医生在笔记本上拥有​​宝贵的数据,但是每个人都只能看到一个大难题中的一个。没有现代的信息交换和分析工具(以及使数据有意义的科学方法),没有什么能阻止迷信影响从观察到的事实的“钥匙孔”中看到的东西。



从那时起,人类在技术上已经走了很长一段路,但是如今机器学习和人工智能的繁荣与过去并没有脱节。所有这些都是人类基本本能的延续-了解我们周围的世界。需要这种本能,以便我们做出更明智的决策。现在,我们拥有比以往任何时候都更好的技术。



描述这种已经存在了很长时间的模式的一种方法是,将其视为数据集而不是数据单位的革命。区别不小。大量数据帮助塑造了现代世界。考虑一下苏美尔的抄写员(现代伊拉克),他们在5000多年前将其笔针压在陶板上。当他们这样做时,他们不仅发明了第一个写入系统,而且发明了第一个用于存储和交换数据的技术。



如果您对AI超越人类能力的承诺感到鼓舞,请考虑使用文具给我们带来超人的回忆。尽管如今很容易理所当然地记录信息,但是安全地存储数据集的能力代表了迈向更高智能的开创性第一步。



不幸的是,从粘土板及其电子前的对应物中提取信息是很痛苦的。您无法在书上点击手指来计算书中的单词数。相反,您必须将每个单词加载到大脑中进行处理。诸如此类的问题使早期数据分析变得很费力,因此早期尝试很早就陷入了困境。虽然王国可以分析税收,但只有一个无所畏惧的人才能在医学等领域尝试有效地推理,在那里,一千年的传统鼓励即兴创作。



图片



幸运的是,人类已经产生了令人难以置信的开拓者。例如,约翰·斯诺(John Snow)的死亡地图是在1858年伦敦霍乱爆发期间编制的,启发了医生重新考虑这种疾病是由as气(有毒空气)引起的迷信,并要注意饮用水。



图片



如果您认识弗洛伦斯·南丁格尔(Florence Nightingale)的《灯下的女人》,以她对护士的英勇同情,您可能会惊讶地发现她也是分析领域的先驱。她在克里米亚战争期间极富创造力的信息图挽救了许多生命,因为它将卫生问题确定为医院死亡的主要原因,正是这一信息图激发了政府对卫生的重视。



图片



随着信息价值在越来越多的领域中逐渐确立自己的地位,出现了统一数据集的时代,导致计算机的出现。这与您已经习惯的电子伙伴无关。 “计算机”(计算器)起源于人类职业,当时特殊员工进行计算并手动处理数据以评估其重要性。



图片



这些人都是计算机!超音速压力隧道工作人员在1950年代拍摄的照片



数据的优点在于,它使您可以凭空做出比其他有意义的事情来进行判断。通过查看数据,可以激发您跟随佛罗伦萨·南丁格尔(Florence Nightingale)和乔恩·斯诺(Jon Snow)的足迹提出新问题。这是分析的学科:通过研究激发模型和假设。



从数据集到数据分区



在20世纪初,面对不确定性做出更好决策的愿望导致了并行行业的诞生:统计学。统计人员帮助检查按照分析师在当前数据集中(以及以后)发现的现象进行操作是否合理。



一个著名的例子是罗纳德·费舍尔(Ronald A. Fisher),他开发了世界上第一本统计学教科书。费舍尔(Fisher)描述了一项假设检验,以回应他朋友的主张,他可以确定是在喝水之前还是之后在茶中添加牛奶。为了根据数据证明这不是真的,他不得不得出结论,他的朋友确实可以做到。



分析和统计具有很大的致命弱点:如果您使用相同的数据来生成假设并进行检验,那么您就在作弊。严格的统计要求您在采取适当的措施之前声明自己的意图。 Analytics(分析)更像是一种扩展的回顾游戏。直到下一次重大变革(数据共享)改变了一切,分析和统计才令人沮丧地不兼容。



共享数据是一个简单的想法,但是对于像我这样的科学家来说,这是最重要的想法之一。如果只有一个数据集,则必须在分析(未证实的灵感)和统计信息(强推论)之间进行选择。想要把戏吗?将您的数据集一分为二,就可以同时喂养狼和羊!



两个数据集的时代消除了分析和统计之间的紧张关系,并引入了两种不同类型的数据科学家之间的协调工作。分析师使用一组数据来帮助您提出问题,而统计学家则使用另一组数据来提供有力的答案。



这种奢侈对数据量提出了严格的要求。谈论分离比实际实施分离要容易得多。如果您尝试为至少一个体面的数据集收集足够的信息,您就会知道这是什么意思。双重数据集的时代是一项新的发展,它与更好的数据处理设备,更低的存储成本以及通过Internet共享收集的信息的能力并驾齐驱。



实际上,导致双重数据集时代的技术创新很快进入了下一阶段-自动三数据集时代。



有一个更熟悉的术语:机器学习。



使用数据集会破坏其纯正性,从而无法满足统计要求。您只有一次机会,那么您怎么知道哪种分析见解最值得测试?如果您拥有第三个数据集,则可以使用它来测试您的想法。该过程称为验证,它是使机器学习起作用的核心。



一旦您可以自由地测试所有内容并看到扎实的想法,您就可以信任任何人找到解决方案:经验丰富的分析师,受训者,算命的茶叶,甚至是可以根据业务问题进行讨论的算法。在验证过程中表现最佳的解决方案将成为适当统计测试的候选方案。您刚刚赋予了自动化灵感的能力!



自动化灵感



这就是机器学习正在彻底改变数据集而不仅仅是数据的原因。拥有足够的数据以进行三向分区的全部好处。



人工智能如何适应这幅画呢?带有多层神经网络的机器学习在技术上被称为深度学习,但它却受到了另一种口号:人工智能。虽然AI曾经有不同的含义,但如今它很可能与深度学习同义使用。



深度神经网络在众多复杂问题上击败了传统的机器学习算法,引起了轰动。但是,它们需要更多的数据来训练它们,并且数据处理能力的要求超出了常规笔记本电脑的能力。这就是为什么现代AI的出现与云技术相关联的原因。云技术使您可以租用别人的数据中心,而不用自己组装硬件,因此您可以在开始投资之前尝试使用现代AI技术。



有了这个难题,我们就有了一整套专业:机器学习和AI专家,分析师和统计学家。描述它们每个人的通用术语是数据科学专家,这是使数据有用的科学。



数据科学是我们三重数据集时代的产物。当今行业中的许多行业通常会生成足够多的数据。那么有可能采用四个数据集方法吗?



如果您刚刚训练的模型显示出较低的验证值,下一步该怎么办?如果您的行为举止与大多数人一样,那么您将立即要求找出原因!不幸的是,没有数据集可以回答您的问题。您可能很想研究验证数据集,但是,调试会破坏其有效验证模型的能力。



通过分析验证数据集,实际上是将三个数据集变回两个。您没有做任何有用的事情,而是不由自主地回到了过去!



解决方案位于您已使用的三个数据集之外。为了实现更智能的学习迭代和超参数调整,您需要更接近最佳实践:四个数据集的时代。



假设三个数据集为您提供了灵感,学习迭代和严格的测试,则第四个数据集将通过高级分析来加速您的AI开发周期,从而提供有关在每次迭代中可以尝试使用哪些方法的见解。通过使用四向数据共享,您可以利用大量数据!欢迎来到未来。



图片



通过参加SkillFactory的付费在线课程,了解如何从头开始或获得技能和薪资水平提高的详细信息:











All Articles