大数据中的大错误:实践中的分析问题





在处理大数据时,错误是不可避免的。您需要深入数据底部,对数据进行优先级排序,优化,可视化,以获取正确的想法。根据调查,有85%的公司正在努力进行数据管理,但是只有37%的公司表示在这一领域取得了成功。在实践中,学习负面经历是困难的,因为没有人喜欢谈论失败。分析师很乐意谈论成功,但是一旦遇到错误,就准备好听听“噪音累积”,“虚假相关性”和“随机内生性”,而没有任何细节。大数据的问题真的只是理论上的吗?



今天,我们将探索对用户和分析师产生切实影响的实际错误的经验。



抽样误差





在文章“大数据:大错误? »用一家新兴的Street Bump记起一个有趣的故事。该公司邀请波士顿居民使用移动应用程序监视路面状况。该软件记录了智能手机的位置以及与规范的异常偏离:凹坑,颠簸,坑洼等。接收到的数据被实时发送到市政部门所需的收件人。



然而,在某个时候,市长办公室注意到,富人地区的投诉要多于穷人。对情况的分析表明,富裕居民的电话与互联网的连接保持恒定,他们开车的频率更高,并且是包括Street Bump在内的各种应用程序的活跃用户。



结果,研究的主要对象是应用程序中的事件,但统计上有意义的重要单位应该是使用移动设备的人。考虑到智能手机用户的人口统计信息(当时,他们大多是中等收入和高收入的美国白人),事实证明,数据变得多么不可靠。



出于无意识偏见的问题已经从一项研究游走到另一项研究了:总是会有比其他人更积极地使用社交网络,应用程序或主题标签的人。数据本身是不够的-质量至关重要。与问卷调查影响调查结果的方式相同,用于收集数据的电子平台通过影响人们在使用这些平台时的行为来扭曲研究结果。



根据研究“大数据源中选择性处理方法的回顾”的作者,有许多大数据源不适合进行准确的统计分析-互联网调查,Twitter和Wikipedia上的页面浏览,Google趋势,主题标签频率分析等。



这种最明显的错误之一是预测希拉里·克林顿(Hillary Clinton)在2016年美国总统大选中获胜。根据投票开始前几个小时发布路透社/益普索的民意测验,克林顿获胜的可能性为90%。研究人员建议,从方法上讲,调查本身可以进行得很完美,但是由50个州的1.5万人组成的基地的举止不合理-很可能,许多人根本不承认他们想投票支持特朗普。



相关误差



难以理解的相关性和令人困惑的因果关系常常使刚起步的数据科学家感到困惑。结果是模型在数学上是完美无缺的,在现实中是完全不可行的。





上图显示了自1963年以来目击的不明飞行物总数。国家不明飞行物报告中心数据库报告的案件数量多年来一直保持大致相同,但在1993年急剧上升。



因此,我们可以得出一个完全合乎逻辑的结论,即27年前,外星人认真地研究了地球人。真正的原因是《 X档案》的第一集于1993年9月发行(在美国,超过2千5百万的观众收视率最高)。





现在来看一下显示飞碟瞄准频率的数据,该频率取决于一天中的时间和一周中的一天:瞄准的最高频率是橘黄色。显然,外星人在周末更多地降落在地球上,因为他们在其余时间上班。那么,研究人员对他们来说是一种爱好?



这些有趣的关联具有深远的意义。例如,一项关于低收入社区中获取印刷品的研究发现,拥有更多书籍的学生可以获得更高的成绩。在科学工作数据的指导下,费城(美国)当局开始重组教育体系。



这个为期五年的项目涉及32家图书馆的改建,以为费城的所有儿童和家庭提供平等的机会。乍一看,这个计划看起来不错,但是不幸的是,这项研究并未考虑孩子们是否真正阅读过这些书,而只是在考虑是否有这些书。



结果,没有获得明显的结果。在学习之前没有读书的孩子并没有突然爱上读书。这个城市损失了数百万美元,来自贫困地区的学童的学业成绩没有改善,并且由于喜欢读书而成长的孩子们继续学习。



资料遗失





c



有时样本可能是正确的,但作者只是失去了他们需要分析的数据。这发生在以“ Freakonomics”为名广泛分布在世界各地的著作中。该书的总发行量超过400万册,探讨了因果关系不明显的现象。例如,在这本书的引人注目的构想中,有一种观点认为,美国青少年犯罪率下降的原因不是经济和文化的增长,而是堕胎的合法化。



芝加哥大学经济学教授斯蒂芬·莱维特(Stephen Levitt)和记者斯蒂芬·杜布纳(Stephen Dubner)的“ Freakonomics”的作者在几年后承认由于数据只是消失了,并不是所有收集到的数字都包括在最终的堕胎调查中。莱维特通过当时“他们很累”这一事实来解释了方法学上的错误计算,并指出这些数据的统计意义对于研究的总体结论没有意义。



人工流产是否真的减少了未来的犯罪率仍有争议。然而,作者注意到许多其他错误,其中一些与1990年代流行病学的流行非常相似。



分析错误





c



生物技术已成为技术企业家的新摇滚。它也被称为“新的IT市场”,甚至是“新的加密货币世界”,指的是参与生物医学信息处理的公司的投资者之间的爆炸性流行。



生物标志物和细胞培养数据是否为“新油”是次要问题。将大量资金投入该行业的后果令人关注。毕竟,生物技术不仅会威胁VC钱包,还会直接影响人类健康。



例如,指出遗传学家斯蒂芬·利普金(Stephen Lipkin)认为,基因组具有进行高质量分析的能力,但是质量控制信息通常对医生和患者而言是禁忌的。有时,在订购测试之前,您可能事先不知道测序覆盖的深度。当一个基因的读取次数不足以覆盖足够的范围时,该软件会在没有突变的地方找到突变。我们通常不知道使用哪种算法将基因等位基因分类为有益和有害。



有一个遗传学领域包含错误的科学论文的数量。一个澳大利亚研究人员小组分析了在一些领先的科学期刊上发表的约3.6千篇遗传论文。结果,发现大约五分之一的作品在其清单中包括错误基因。



这些错误的来源令人震惊:科学家没有使用特殊语言对数据进行统计处理,而是将所有数据汇总到Excel电子表格中。 Excel自动将基因名称转换为日历日期或随机数。而且根本不可能手动重新检查成千上万的行。



在科学文献中,基因通常用符号表示:例如,Septin-2基因缩短为SEPT2,而膜相关无名指(C3HC4)1缩短为MARCH1。 Excel使用默认设置将这些字符串替换为日期。研究人员指出,他们并没有成为该问题的先驱者-十多年前指出了这一点。



在另一种情况下,Excel对经济学造成了重大打击。哈佛大学的著名经济学家卡门·莱因哈特(Carmen Reinhart)和肯尼斯·罗格夫(Kenneth Rogoff)在研究工作的200多年中,分析了3700个不同案例,这些案例涉及42个国家的公共债务增加及其对经济增长的影响。



著作“债务时期的增长”明确表明,当公共债务水平低于GDP的90%时,它实际上不会影响经济增长。如果国债超过GDP的90%,则中位数增长率将下降1%。



该研究对世界如何应对最近的经济危机产生了巨大影响。这项工作被广泛引用以证明在美国和欧洲削减预算是合理的。



但是,几年后,马萨诸塞州大学的Thomas Herndorn,Michael Ash和Robert Pollin在逐点分析Rogoff和Reinhart工作,发现了使用Excel时常见的错误。实际上,统计数据并未显示GDP增长与公共债务之间的任何关系。



结论:漏洞修复是漏洞的来源





c



鉴于要分析的信息量很大,因此仅由于这是事物的本质而产生了一些错误的关联。如果错误很少且接近随机,则最终分析的结论可能不会受到影响。在某些情况下,对它们进行处理是没有意义的,因为与数据收集中的错误作斗争会导致新的错误。



著名的统计学家爱德华·戴明(Edward Deming)对这一悖论的描述如下:建立稳定的过程以补偿较小的可用偏差以获得最佳结果可能会比在过程中没有干预的情况更糟。



为了说明数据过度校正的问题,我们在漏斗意外落球的过程中使用了校正模型。可以使用多个规则来调整该过程,其主要目的是提供一个尽可能接近漏斗中心的机会。但是,您遵守规则越多,结果就会越令人沮丧。



进行渠道实验的最简单方法是在线,为此创建了一个模拟器在评论中写下您取得的结果。






我们可以在Mail.ru Group的免费教育项目MADE Academy上教您如何正确分析大数据我们接受8月1日之前的培训申请。



All Articles