数据科学中最悲伤的方程式

图片



储备手帕!现在,我将告诉您有关统计和数据科学的全部真相。我向你保证,你的眼里会流着眼泪。



结论=数据+假设。换句话说,统计数据无法告诉您真相。



常见的神话



通常,您会听到以下误解:



  • “如果我能找到正确的方程式,我可以学到现在没人知道的东西。”
  • “如果将数学添加到数据中,则可以减少不确定性。”
  • “统计数据可以将数据变成事实!”


听起来都像童话故事,不是吗?因为是他们。



真相



世界上没有任何魔法可以帮助您从无到有地创造出一些东西。忘掉它。有关另一个的统计信息。用我的话作为统计数据。(作为奖励,本文将为您节省大量时间,追逐这个梦想。)



不幸的是,许多骗子会试图说服您。他们将使用标准的技巧:“您不知道给我洗澡的方程式,因此请承认我的优势并按我说的做!



不要被这些装腔作势的人所欺骗。



图片 关于作者: Cassie Kozyrkov是南非的数据和统计专家。她是Google的首席研究员,创建了Decision Intelligence。




不要重复伊卡洛斯的命运



将统计结论(简称“统计”)视为从我们所知道的(我们的常规数据)到我们所不知道的(我们的人口参数)的跳跃。



在统计中,您所知道的不是您想知道的。
也许您想了解明天的事实,但是您只能根据昨天得出结论。(当我们不记得未来时,这真令人讨厌,对吗?)您可能想知道所有潜在用户对您产品的看法,但您最多只能问一百个。然后,您将获得不确定性!



这不是魔术,这是猜测



一个人如何从您所知道的跳到您所不知道的?您需要一座桥梁来弥合这一鸿沟。而这座桥的名字就是猜测。让我让您想起数据科学中最痛苦的方程式:数据+假设=预测。



数据+假设=预测。
(如果您更方便,可以用“结论”或“预测”轻松替换“预测”一词。所有这些都是关于同一件事:关于您不确定的某些事情的陈述。)



什么是假设?



如果我们知道所有事实(并确定它们是确凿的事实),则不需要假设(或统计数据)。假设是丑陋的,您可以用来弥合您所知道和想要知道的之间的鸿沟。这些是需要数字收敛但没有足够数据时必须使用的作弊技巧。



假设是您放置在没有信息的地方的丑陋补丁。
我怎么能坦率地说呢?假设不是事实,但由于没有足够的信息而使您虚假。如果您经常以超精确的间隔贬低别人,请记住,轻率地说基于假设的假设是正确的。将统计数据更好地视为决策工具。这个工具不是完美的,但总比没有好(在某些情况下)。



在不确定的世界中,统计是您尝试做的一切。
假设-在非洲,假设。他们不会随着魔杖的浪潮变成事实。



做出假设是决策的一部分



告诉我任何没有假设的决定。我可以轻松列出您在现实生活中所做的许多隐含假设,而无需考虑。



示例:当您阅读报纸时,您是否假设所有事实都经过验证?当您制定2020年计划时,您是否假设不会发生全球大流行?如果您分析了数据,您是否假设数据记录没有错误?您是否假设您的随机数生成器正在产生随机结果? (通常它们不是随机的。)当您决定在Internet上进行购买时,您是否假定会向您收取正确的金额?那你最近吃的零食呢?您是否认为他没有中毒?当您服用这种药物时,您是否* *了解其长期作用,或者……您是否预期?



不管喜欢与否,做出假设是决策的一部分。


无论您是否喜欢,假设始终是决策的一部分。现实世界数据的干预应包括许多已记录的假设。同时,数据科学家必须描述他们必须走过的所有角落。



即使您决定放弃统计数据,您也可能会使用假设来决定如何进行统计。为了您自己的安全,您必须了解决策所基于的假设。



统计的“魔术”是如何工作的



统计数据中有许多工具可让您制定假设并将其与证据结合起来。这就是聪明的决策诞生的方式。(在这里您可以看到我8分钟的统计入门。)



期望分析(包括不确定性和概率)将成为大写“ P”的事实来源,这是荒谬的。
是的,这就是统计魔术的原理。您选择要使用的假设,然后将其与数据结合起来。在这种邪恶的联盟的基础上,您可以做出明智的决定。这就是所有统计信息。



图片



这就是为什么分析(包括不确定性和概率)永远不能成为带有大写“ P”的真理来源。没有秘密的黑魔法可以为您做到这一点。



两个人可以基于相同的数据得出完全不同的结论!他们做出不同的假设就足够了。
出于同样的原因,两个人可以基于相同的数据得出完全不同的结论!他们做出不同的假设就足够了。统计信息为您提供了一个工具,使您可以做出更明智的决策,但是使用它并没有统一的规则。这是一个个人决策工具。



您的研究做得如何取决于您做出的假设有多好。



那科学呢?



当科学家使用统计数据得出结论时会发生什么?他只是形成一种观点,并决定与全世界分享它。这不是一件坏事,这是有意为之的,科学家不会定期以这种方式得出结论,这就是他们的工作。我想有时候这些结论是可以听的。



并非偶然,科学家必须定期根据统计得出结论,这就是他们的工作。
我喜欢倾听那些比我拥有更多信息和经验的人的建议,但我绝不允许自己将观点与事实相混淆。有些科学家精通概率并与之合作。但是,我也遇到了一些科学家,他们犯了太多的统计错误,以致您永远都无法摆脱它们。意见不能(也不应)影响尚未准备好为自己提出假设的人们。这些意见是通过证据和未经证实的假设获得的。他们不能被认为是有能力的。



结果



将统计数据视为一门科学,可以在您不确定某件事时帮助您做出决策。这是一个框架,可帮助您在缺乏信息的情况下做出明智的决策。没有使用统计信息的正确方法。



不,它不能为您提供所需的事实。她为您提供了处理缺乏事实所需的信息。统计的重点是帮助您在充满不确定性的世界中尽力而为。



您只需要进行假设即可。



翻译:Diana Sheremyeva



图片



了解更多有关如何通过完成SkillFactory付费在线课程来从零开始或在技能和薪资水平上获得追捧的职业的更多信息:











All Articles