我对你的内容是什么?数百年来内容个性化的演变和基本原理

嗨%用户名%!今天,我们将讨论内容个性化的历史,即基于个人喜好和用户数字指纹为我们每个人形成“内容泡沫”的原理。好吧,这次演讲将由QIWI团队的首席数据科学家,Skillbox的“专业” ‌数据‌科学家cient课程的老师Lydia Khramova进行。她试图讲述内容形成过程中最重要和最有趣的细微差别,以使本文不仅对专家而且对所有人而言都是可以理解的。



所有的乐趣都被削减了!



在早上打do睡时浏览我们最喜欢的社交网络的提要时,我们几乎没有考虑算法的工作原理,它提供了我们感兴趣的信息。借助此算法和其他算法,内容随处可见。如果幸运的话-如果它看起来不像是一条宽大的舒适毯子,上面有大气的照片和音乐,如果您不幸运的话-它会出现在我们的身后,上面有一团烦人的粘性云,您想把它放在一边,尽管并非总是如此。



似乎我们没有注意到物理世界何时具有新的维度-具有自己规则和特征的内容维度。但是我们很快就习惯了。



丰富的信息使我们忘记了如何获取和筛选大量的知识和经验-毕竟,准备好并经过分类的信息已经像各种美味佳肴一样摆在我们的盘子上。但是,所有这些都来自哪里,最重要的是,我们如何影响内容环境?可以吗



排名和搜索的历史



与普遍的看法相反,用于各种有用目的的信息选择和排名工具是一个相当古老的发明。它不是现在出现的,而是在如今被图书馆遗忘的时代。



在15世纪图书印刷机问世之前,图书馆目录只是珍贵书籍及其目录的清单。由于印刷品的出现,引起了对图书管理员和读者进行分类和便捷搜索必要作品的需求。

要确定究竟是谁真正成为第一个目录的创建者是相当困难的,一些消息人士将其发明归因于Spongheim的住持,图书管理员,历史学家和密码学爱好者Johann Trithemius,但大多数人提到了奥地利官员和维也纳皇家图书馆知事Gottfried Van Swieten。



由Gottfried Van Swieten于1780年创建了第一个卡片目录,该卡片目录与现代图书馆目录非常相似-带有书名,作者姓名,出版年份和简短说明的卡片。可以说,卡片目录已成为现代搜索引擎的先驱者-毕竟,这实际上是第一个元信息-即有关搜索和导航所必需的其他信息的信息。当然,范·斯威滕(Van Swieten)的普通卡片无法满足读者和研究人员的所有需求-但由于美国图书馆员梅尔维尔·杜威(Melville Dewey)的发明,直到1870年才被替换。



杜威(Dewey)从事了很长时间的工作,以提高编目效率,并提出了一种基于按内容对书籍进行分类的全新系统,即所谓的十进制系统。她的想法基于将所有作品分为十个部分-从一般到宗教,语言,地理和历史。每个部分又分为十个子部分,依此类推,而代码是由该部分和子部分的数字索引构成的,这些索引在右侧表示荣耀,例如:

500自然科学和数学

510数学

516几何

实际上,这是第一个国家/地区级主题目录,使您可以轻松找到所需的任何信息。而且,由于主题索引中没有非数字字符,杜威的系统非常适合机器处理,并且在美国和加拿大的图书馆中仍然有效。



这项发明使比利时的书目作者Paul Otle和Henri La Fontaine提出了一个更大胆的想法-用带有信息片段的电子卡系统代替纸质书籍,这使他们可以对它们进行分类,而无需作者的主观意见。 1934年,保罗·奥特莱特(Paul Otlet)在《世界报》(Monde)一书中体现了这一思想,据许多研究人员预测,互联网的诞生。不幸的是,这本书很难用俄语找到,所以我只用英语引用一句话:

“宇宙中的一切,以及人类的一切,在产生时都会被记录在一定距离之外。这样,就可以建立一个动态的世界影像,真实地反映他的记忆。从远处看,每个人都将能够阅读投影在单个屏幕上的,放大且仅限于所需主题的文本。这样,每个坐在扶手椅上的人都可以考虑整个或部分创作。 ”



让我们想起了现实,不是吗?



不幸的是,保罗·奥特莱特(Paul Otlet)的思想在他的一生中都没有成为现实,并且互联网诞生的时间要晚得多。早在1998年,随着谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)评估网页的PageRank算法的发明,无休止的网络冲浪时代开始了。



信息已变得可用,搜索既方便又容易。随着新的存储和计算能力的出现,企业开始收集数据。



大数据的双刃剑



积累的数据不断增加,带来了新的商机,从更好的客户洞察力到全新的数字产品。



珠宝业用于检验每个假设的分析已转变为寻找描述人类和现象的大量数据中的稳定模式。通过这种方法,可以看到以前根本无法获得的东西,可以建模和优化从广告到产品报价的各种流程,个性化不同领域的客户体验,并将其改善,以使客户和企业满意。在我看来,这一飞跃相当于从中世纪的书籍目录到连贯的卡片目录系统的过渡,在该系统中,每个对象都被分配了自己的货架空间和标签。



但是,处理大数据还不是万能的万能药,这有几个原因。



  • , , , . , – , , , .
  • , . , , , , , .
  • , , . , – , .
  • – , , – , -.


尽管存在这些限制,但越来越多的公司正在寻找资源和机会来部署自己的服务,以个性化客户体验并提高利润。从知识的来源,数据变成了获利的来源,有时是非常积极的。在某些情况下,甚至对客户和企业都可能产生副作用:从信息过载到所谓的内容泡沫。在讨论它们之前,让我们弄清楚-建议背后隐藏着什么?



个人建议的掩盖



大多数提供内容,产品或服务的模型都属于五个简单概念之一。



  1. . , – , , , .
  2. . , / , , .
  3. . , , « – » . , – , .
  4. . , – , . , – , . – , . , , 70- – .
  5. – , .


建议问题和内容环境重新加载



所有这些模型都运行良好(甚至是启发式!),但仍可能导致不愉快的情况:



  • 过饱和。许多针对不完整数据(毕竟,每个公司都只有一部分知识)进行过训练的相似模型会用相同的建议攻击您。假设您是咖啡爱好者。因此,今天早上在最近的咖啡馆为您提供了美妙的芳香卡布奇诺咖啡。该建议激发了您吸收克丽玛的热情和乐趣。但是,随后又有另一种推动力来敲来一杯淡淡的咖啡和另一面横幅-现在有十五个。您一天可以喝几杯咖啡?
  • – , , / , . , – .
  • – -, .
  • – , , 9 , . , , .
  • – , , , - . , .


这样的情况不仅对于客户而且对于企业都是非常不希望的,因为它们可以大大减少继续与广告服务交互或使用特定产品或应用程序的需求。



它们的很大一部分可以在推荐系统中得到纠正,例如,不相关的时间或侵入性的推荐可以通过完善的沟通政策和时间表来消除。



如果在推荐系统中添加竞争算法以显示替代方案,或者添加随机性的附加元素(将为您提供全新的东西,并且有兴趣的话,可以扩展建议的范围),甚至内容泡沫也可以变得不太单调(请参见图1)。





数字: 1竞争模型,随机添加。



然而,不完善建议的某些后果将必须我们自己处理。哪些方法可以帮助您争取一个愉快的内容环境?



如何改善内容环境



要找到与内容相关且相关的内容,请尝试使用您周围的算法,以找出它们最佳的响应方式。但是在此之前,我建议采用一些简单的数据科学卫生规则,这些规则将使您摆脱最讨厌的建议。



  • – , , , . – , – , email.
  • – , .
  • – « », , - .
  • 购买时请务必小心-最好为所有家庭成员使用单独的付款方式,有时是出于不同的目的。
  • 在有许多公共网络的地方,定期关闭wifi。


否则,请更频繁地使用主动搜索并尝试一些新的东西。大多数优秀的推荐器模型不仅使用回溯数据(有关您长期活动的数据),而且还使用有关当前操作的数据,从而赋予它们更高的优先级。在处理了一些新请求之后,您可以获取部分内容以适合您当前的心情。



如果这还不够,请加入苗条的数据专家队伍,创建一个非常理想的推荐系统,并从内部学习所有的技巧。机器学习中不可或缺的人类思维是必不可少的!

关于这个话题:







  1. www.history.ox.ac.uk/british-medieval-library-catalogues
  2. Fred Lerner, “The story of libraries, from invention of writing to the computer age”, continuum, 2006
  3. en.wikipedia.org/wiki/Gottfried_van_Swieten#As_librarian
  4. en.wikipedia.org/wiki/Dewey_Decimal_Classification
  5. Milena Tsvetkova. – – : . Scientific Enquiry in the Contemporary World: Theoretical basis and innovative approach, 2016, San Francisco, United States. pp.115-128
  6. boxesandarrows.com/forgotten-forefather-paul-otlet
  7. www.mondotheque.be/wiki/images/e/e2/Heuvel_Rayward_Facing_Interfaces.pdf
  8. Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — 1998.
  9. googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html



All Articles