俄语文本中的情感分析,第2部分:基础研究

图片



研究人员将情感分析应用于完全不同的俄语文本:社交网络中的帖子,评论,新闻文章和书籍。结果,他们的研究结果也完全不同并且非常有趣。例如,谁会想到带有积极基调的文本会使学习外语变得更有趣,但效果更差?在本系列文章中,我们将研究情感分析方法用于俄语文本的方式以及目的,达到了什么结果,出现了什么问题,还谈到了一些有希望的方向。



与以前的作品不同,我专注于应用程序的应用,而不是方法本身及其分类质量。在第一篇文章中我们讨论了什么是“情感分析”,它是什么以及在过去8年中如何使用它来分析俄语文本。在这一部分中,我们将仔细研究我发现的32项主要研究。在第三部分(也是下周)中,我们将讨论研究人员面临的共同挑战以及未来的有希望的方向。



注意:本文是为科学杂志撰写的,因此将有许多链接到资源。


许多研究使用了来自俄罗斯社交网络和汇总平台的数据。以下是最流行的俄罗斯和国外资源的简要说明及其使用统计。



  • 90 , . Deloitte [98], , 70 % . 16—24 , .
  • YouTube , 62 % . 16—24 , 58—64 %.
  • Twitter [98], 5 % . 25—65 , 55—64 .
  • LiveJournal , 3 % . 35—44 , .
  • Medialogia — , . 500 . 100 . 52 000 900 .
  • IQBuzz是一项监视服务,处理来自媒体,Facebook,Twitter,VKontakte,My World,Instagram,4sq,LiveJournal,LiveInternet,Google,YouTube,RuTube等其他来源的10,000多个来源的信息。该系统能够自动识别肯定和否定消息,重复数据删除并在累积的数据库中执行复杂的搜索。


下面我将描述所发现的研究,从中获得的结果以及作者得出的结论,这可能与我的立场不符。



1.社交媒体上的教资会



图片

许多社交网络已成为促进社交参与的现代工具[53]。用户生成的数据是公众舆论的重要且可访问的来源,或者至少是它的反映,因此它可以补充或替代民意测验[54]。根据三个标准检查了用户生成的数据:



  • 对不同主题的态度。
  • 社会情绪指数。
  • 用户与表达不同情感的数据进行交互的细节。


1.1。对不同主题的态度



俄语文本研究中最频繁的话题是民族间关系和移民问题以及乌克兰危机。人们非常重视对社会紧张局势以及其他主题的分析。



1.1.1种族和移民



使用发达的社会学方法对种族间关系和移民问题以及相关主题进行了深入研究。但是,互联网和自然语言处理的飞速发展允许人们研究一种相对较新的方法。社交媒体允许个人和团体公开参与冲突。在互联网上,关于移民和种族问题的判断可以比互联网时代之前更快地传播,并可以扩大受众范围[54]。更多的学术研究表明,负面的在线内容助长了离线种族冲突[99]和仇恨犯罪[100]。通过这种方式,随着Internet技术的发展,基于在线内容分析族裔关系和迁移问题的重要性日益提高。



Bodrunova及其同事进行的一项研究着眼于讲俄语的在线社区在公共场合对移民的态度[81]。作者从2013年2月4日至5月19日收集了来自俄罗斯知名博客作者的363,579篇帖子。应用[59],[101]中描述的策略,使用潜在狄利克雷分配[102]的研究人员确定了相关的讨论。然后,我们手动绘制一些讨论和情感类。然后,我们针对许多文本分类问题(包括情绪分类)训练了一个二项式逻辑回归模型(Binomial Logistic Regression [32])。根据调查结果,人们对所有移民都持否定态度,与来自中亚和美洲的移民相比,大多数来自北高加索地区的移民。对欧洲人或美国人没有积极态度。同时,欧洲人,美国人和高加索人被视为侵略者,而不是受害者。中亚人被描述为具有负面含义的外星人。通常,欧洲人不被视为陌生人或伴侣,美国人被视为危险,犹太人被视为完全无害。该研究的作者认为,后苏联时期的人口心理分化与当前的地理边界并不完全一致,因此,以前的亲密团体已被视为具有各自政治议程的独立国家。这项工作的主要缺点之一是缺乏对数据描述质量和分类指标规范的评估。中亚人被描述为具有负面含义的外星人。通常,欧洲人不被视为陌生人或伴侣,美国人被视为危险,犹太人被视为完全无害。该研究的作者认为,苏联后的人口心理分化与当前的地理界限并不完全一致,因此,以前的近亲集团已被视为具有各自政治议程的独立国家。这项工作的主要缺点之一是缺乏对数据描述的质量评估和分类指标的规范。中亚人被描述为具有负面含义的外星人。通常,欧洲人不被视为陌生人或伴侣,美国人被视为危险,犹太人被视为完全无害。该研究的作者认为,苏联后人口的心理分化与当前的地理边界并不完全一致,因此,以前的亲密团体已经被视为具有各自政治议程的独立国家。这项工作的主要缺点之一是缺乏对数据描述质量和分类指标规范的评估。后苏联人的心理分化与当前的地理边界并不完全一致,因此,以前的近亲集团已被视为具有各自政治议程的独立国家。这项工作的主要缺点之一是缺乏对数据描述质量和分类指标规范的评估。后苏联人的心理分化与当前的地理边界并不完全一致,因此,以前的近亲集团已被视为具有各自政治议程的独立国家。这项工作的主要缺点之一是缺乏对数据描述的质量评估和分类指标的规范。



由科尔特索娃[82]领导的小组,采用以前工作的改编方法[[103],[104]),估计了俄语社交网络上与民族关系有关的讨论总量。为了创建一个包含2,660,222个文本的主要语料库,作者开发了一个复杂的族名和双字母组列表,涵盖了后苏联地区的97个种族。然后,使用手动标记,创建了一个包含7,181个文本的训练数据集,每个文本都由三位专家按照几种标准进行注释,包括组间冲突的存在,组间积极的联系以及总体上负面或正面的口气。为了对情绪进行分类,作者在标记的数据集上训练了逻辑回归模型[32],并且对于积极情绪和F达到F 1 = 0.75。1 = 0.68(负)。作者发现,不同种族和地区之间对民族的关注差异很大。基于这项研究,由科尔佐娃(Koltsova)领导的团队提高了所得结果的质量,并增加了偏见的数量,这可在以下工作中找到[83]。首先,作者将用于手动处理的数据集从7,181个增加到14,998个唯一文本。然后至少由三名独立专家对这些文本进行标记。接下来,作者讲授了逻辑回归模型,该模型使用从先前研究中获得的最佳超参数将文本分为三类(正面,中性和负面态度)。这有助于显着改善分类指标。情绪平均值为:P = 0.67,R = 0.55和F 1= 0.58。



纳戈尔尼(Nagorny)在他的著作[84]中研究了俄文社交网络中种族讨论结构的主题。根据与种族讨论相关的4000多个单词列表,作者从2014年1月至2016年12月期间从VKontakte和IQBuzz收集了2,659,849篇文章。此外,作者使用了ISLDA [26],这是HSE Internet研究实验室开发的LDA算法的一种改进。为了计算情感等级,纳戈尔尼使用SentiStrength [22]和俄语情感词典LINIS Crowd [26]。对于每个主题,将极性指数计算为该主题在文本中的概率与相应情感值的乘积之和,再除以该主题的总重要性。在分析了通过LDA进行的民族讨论的主题概况后,纳戈尔尼确定了最负面和最重要的主题。它揭示了,讨论的大部分与俄罗斯与乌克兰之间的国家最近的冲突有关。结果,由于冲突影响了互联网讨论的极性,很难将种族间的话题与政治性的话题区分开。在亚美尼亚种族灭绝大屠杀的背景下,最负面的讨论与乌兹别克国籍和土耳其-亚美尼亚关系有关。但是,这项研究有缺点。首先,不清楚如何收集数据。尽管IQBuzz声称可以跟踪Internet上的所有提及,但是如果没有对VK消息的完全访问权限就无法验证这一点。其次,分类度量不是在大量文本上测量的,因此很难测试分类情绪的质量。结果,由于冲突影响了互联网讨论的极性,很难将种族间的话题与政治性的话题区分开。在亚美尼亚大屠杀的背景下,最负面的讨论与乌兹别克国籍和土耳其-亚美尼亚关系有关。但是,这项研究有缺点。首先,不清楚如何收集数据。尽管IQBuzz声称可以跟踪Internet上的所有提及,但是如果没有对VK消息的完全访问权限就无法验证这一点。其次,分类度量不是在大量文本上测量的,因此很难测试分类情绪的质量。结果,由于冲突影响了互联网讨论的极性,很难将种族间的话题与政治性的话题区分开。在亚美尼亚大屠杀的背景下,最负面的讨论与乌兹别克国籍和土耳其-亚美尼亚关系有关。但是,这项研究有缺点。首先,不清楚如何收集数据。尽管IQBuzz声称可以跟踪Internet上的所有提及,但是如果没有对VK消息的完全访问权限就无法验证这一点。其次,分类度量不是在大量文本上测量的,因此很难测试分类情绪的质量。在亚美尼亚种族灭绝大屠杀的背景下,最负面的讨论与乌兹别克国籍和土耳其-亚美尼亚关系有关。但是,这项研究有缺点。首先,不清楚如何收集数据。尽管IQBuzz声称可以跟踪Internet上的所有提及,但是如果没有对VK消息的完全访问权限就无法验证这一点。其次,分类度量不是在大量文本上测量的,因此很难测试分类情绪的质量。在亚美尼亚大屠杀的背景下,最负面的讨论与乌兹别克国籍和土耳其-亚美尼亚关系有关。但是,这项研究有缺点。首先,不清楚如何收集数据。尽管IQBuzz声称可以跟踪Internet上的所有提及,但是如果没有对VK消息的完全访问权限就无法验证这一点。其次,分类度量不是在大量文本上测量的,因此很难测试分类情绪的质量。因此,很难测试分类情绪的质量。因此,很难测试分类情绪的质量。



圣彼得堡大学的研究人员Borodkina和Sibirev研究了有关国际移民问题以及与移民有关的各种问题的有关俄语Twitter的讨论[55]。作者使用了2017年11月至2018年2月发布的13,200篇帖子。收集了有关“迁移”主题和相关关键字的数据。然后,作者使用Ohai系数测量标签的相似度,并使用帕累托原理从网络图中删除无关紧要的弱链接。对于情感分析,基于支持向量模型训练分类器[33]。为了确定特征之间的联系(例如,情绪,内容特征),使用了适当的分析方法。事实证明,居住在不同国家的俄罗斯人对移民的态度非常相似。很大一部分用户对其他国籍的移民表示消极态度。讨论的主要主题:与恐怖主义和非法移民有关的文化和安全风险,普遍人权,在社会和经济领域侵犯俄罗斯移民的权利。这项研究有几个小缺点。简要描述了情绪分析方法,没有详细说明预处理阶段,模型超参数和使用经过训练的模型的最终分类质量。此外,Twitter的核心API仅提供部分访问所有帖子的功能,因此所分析数据的代表性令人怀疑。与恐怖主义和非法移民,一般人权有关,侵犯了俄罗斯在社会和经济领域的移民权利。这项研究有几个小缺点。简要描述了情绪分析方法,没有预处理阶段,模型超参数和使用经过训练的模型进行分类的最终质量的详细信息。此外,Twitter的核心API仅提供部分访问所有帖子的功能,因此所分析数据的代表性令人怀疑。与恐怖主义和非法移民,一般人权有关,侵犯了俄罗斯在社会和经济领域的移民权利。这项研究有几个小缺点。简要描述了情绪分析方法,没有预处理阶段,模型超参数和使用经过训练的模型进行分类的最终质量的详细信息。此外,Twitter的核心API仅提供部分访问所有帖子的功能,因此所分析数据的代表性令人怀疑。模型超参数,以及使用经过训练的模型进行分类的最终质量。另外,Twitter的核心API仅提供部分访问所有帖子的功能,因此所分析数据的代表性令人怀疑。模型超参数,以及使用经过训练的模型进行分类的最终质量。此外,Twitter的核心API仅提供部分访问所有帖子的功能,因此所分析数据的代表性令人怀疑。



因此,在研究移民和种族间关系的背景下,研究人员主要通过主题建模和情感分析相结合的方法研究了社交网络中用户生成的数据。种族的概念在学术文献中得到了很好的研究,但是从计算语言学的角度来看,用户生成的文本中的国籍的定义被简化为确定这些文本的作者所使用的种族标记的任务[54]。因此,为了识别相关文本,研究人员经常创建种族身份标记的列表,并寻找包含此类标记的文本。但是,提取代表性数据很困难,因为并非所有平台都可以完全访问其所有信息。然后通常在文档或方面级别分析情感。由于否定性语言可能包含个人身份信息以及令人反感或仇恨的言论,因此此类内容可能会根据社交媒体指南和法律要求进行审查。俄罗斯联邦《刑法典》的监管框架规范了公众采取激进行动的呼吁,这应该影响在线和离线讨论中强烈的负面言论的数量。所有这些功能都需要在限制部分中明确描述。此类数据可能会根据社交媒体规则和法律要求进行审查。俄罗斯联邦《刑法典》的监管框架规范了公众采取激进行动的呼吁,这应该影响在线和离线讨论中强烈的负面言论的数量。所有这些功能都需要在限制部分中明确描述。此类数据可能会根据社交媒体规则和法律要求进行审查。俄罗斯联邦《刑法典》的监管框架规范了公众采取激进行动的呼吁,这应该影响在线和离线讨论中强烈的负面言论的数量。所有这些功能都需要在限制部分中明确描述。



1.1.2。乌克兰危机



2014年革命后,克里米亚进入俄罗斯联邦,以及顿涅茨克和卢甘斯克地区的武装冲突之后,俄罗斯和乌克兰之间的关系变得紧张。随着许多社交媒体平台已经发展成为现代的社交参与工具[53],已经进行了许多计算语言学研究,其作者试图探索使用在线讨论来分析讨论参与者的观点和特征的可能性。根据2001年的乌克兰人口普查,其居民中有67.5%的人以乌克兰语为母语,还有29.6%的人以俄语为母语。因此,除了或代替乌克兰语,研究人员通常分析俄语语言文字。



由杜瓦诺娃(Duvanova)领导的一组研究人员研究了乌克兰武装冲突对所有乌克兰地区之间在线社会关系的影响[85]。作者使用VKontakte作为来源,因为它是乌克兰最受欢迎的社交网络。首先,他们根据关键字确定了一个相关社区列表-14,777;然后,根据该列表,使用用于监视Semyonov和Vejyalainen [105]以及Semyonov著作中的社交网络的软件,收集了19,430,445份出版物和62,193,711条评论。和合著者[106]。为了将文本分为正面和负面,作者使用了一种基于规则的方法,用俄语和乌克兰语中的8,863个正词和24,299个负词字典。事实证明,由于军事行动,乌克兰的讨论变得更加两极化,例如,在该国东部地区,负面和正面陈述的数量有所增加。但是,在乌克兰其他地区,敌对行动对情绪表达的强度没有明显影响。因此,敌对行动在该国引起了强烈的情感反应,但各区域之间的内部交流中的社会凝聚力并未不可避免地增加。但是,作者没有提供有关模型的预处理和训练以及分类指标的详细信息。但是在区域之间的内部交流中,社会凝聚力并没有必然增加。但是,作者没有提供有关模型的预处理和训练或分类指标的详细信息。但是在区域之间的内部交流中,社会凝聚力并没有必然增加。但是,作者没有提供有关模型的预处理和训练或分类指标的详细信息。



由沃尔科娃[86]领导的小组的工作研究了俄乌危机期间舆论对VKontakte的表达。根据关键字列表,作者从VKontakte收集了2014年9月至2015年3月期间出现的5,970,247种出版物。为了有目的地预测观点,研究人员应用了POLYARNIK分类系统[107],该系统基于形态和句法规则,情感词汇和监督学习模型[108]。为了对情绪进行分类,作者编写了一组与危机相关的独立Twitter讨论。使用论文[109]和[110]中描述的方法,作者已经基于六个基本的Ekman情感[111]实现了自动文本标记。然后,他们用俄语和乌克兰语为母语的人手动重新检查了自动注释。结果是,共有5717条Twitter帖子表达了愤怒,愉悦,恐惧,悲伤,厌恶和惊奇,以及3947条非情感帖子。课文中表达的情感的最终分类分两个阶段进行。首先,这些文本被分为情感性和非情感性。然后,使用逻辑回归模型[32],根据文体,词汇和二元字母组合,将情感文本分为六类。加权F分两个阶段进行。首先,这些文本被分为情感性和非情感性。然后,使用逻辑回归模型[32],基于文体,词汇和二元字母组合,情感文本被分为六类。加权F分两个阶段进行。首先,这些文本被分为情感性和非情感性。然后,使用逻辑回归模型[32],根据文体,词汇和二元字母组合,将情感文本分为六类。加权F1情绪分类模型的测度达到58%。根据获得的结果,乌克兰对Euromaidan的正面评价的份额高于俄罗斯。为了进行比较,俄罗斯对普京和克里米亚的正面评价所占比例高于乌克兰。此外,某些结果与常见的媒体误解相矛盾。例如,在俄罗斯,有一些出版物的作者积极赞成美国和反对普京,而在乌克兰,有一些出版物表示对普京的支持,而不是对Euromaidan的支持。该研究的主要缺点是作者使用POLYARNIK分析情绪,却没有评估所选主题的文本分类质量。此外,作者应用了经过Twitter消息训练的模型,以识别来自VKontakte的消息中的情绪,具有不同的语言特征,至少是文本的平均长度。另外,由于无法评估专家间协议的度量标准,因此有关单个评估者的注释质量也出现了许多问题。



Rumshisky及其合作者以2014年的俄乌冲突为基础,分析了社交网络中政治冲突反映的动态[87]。与Volkova的研究[86]不同,研究人员在创建语料库进行分析时并不依赖有关作者位置的嘈杂数据。相反,他们专注于与危机相关的用户群体的自我识别。在分析了VKontakte数据之后,研究人员手动选择了51个反女佣组,其中有1,942,918个唯一用户,而47个晋升组则有2,445,661个用户。然后,我们选择了这些人群中所有的出版物,并从活跃用户和喜欢这些出版物的人群中添加了出版物。只有那些出版物被添加到集合中其中遇到了至少一个预定义列表中的关键字。为了预测俄语文本的情绪,研究人员使用了SentiMental库的改进版本,该库是基于字典的情绪分析系统。研究结果证实,冲突强度的增加伴随着负面言论。分析检查了主导情绪与随机行走争议度量之间的关系。随着争端数量的增加,对立群体表达的总体情绪的标准偏差以及对讨论的随机游荡的度量也随之增加。该研究的主要缺点是其作者未提供有关预处理和培训的任何细节。为了预测俄语文本的情绪,研究人员使用了SentiMental库的改进版本,该库是基于字典的情绪分析系统。研究结果证实,冲突强度的增加伴随着负面言论。分析检查了主导情绪与随机行走争议度量之间的关系。随着争端数量的增加,对立群体表达的整体情绪的标准偏差以及对讨论的随机游荡的度量也随之增加。该研究的主要缺点是其作者未提供有关预处理和培训的任何细节。为了预测俄语文本的情绪,研究人员使用了SentiMental库的改进版本,该库是基于字典的情绪分析系统。研究结果证实,冲突强度的增加伴随着负面言论。分析检查了主导情绪与随机行走争议度量之间的关系。随着争端数量的增加,对立群体表达的整体情绪的标准偏差以及对讨论的随机游荡的度量也随之增加。该研究的主要缺点是其作者未提供有关预处理和培训的任何细节。



Zaeziev建议通过分析社交网络的内容来研究政治动员的过程[88]。以2013-2014年的乌克兰革命为基础。作者关注抗议活动的第一阶段,2013年2月21日至2014年2月22日。他分析了乌克兰最受欢迎的社交网络:VKontakte和Facebook上的出版物。 Zaeziev根据Godbowl的一般建议[112]确定了一组相关的关键字,然后使用IQBuzz收集了124,000多个消息。使用IQBuzz情绪识别算法,研究人员将文本分为以下类别:否定,中性,肯定和混合。假设Euromaidan的支持者对此事件表示积极态度,那么作者从该收藏集中删除了所有非正面信息。然后,我们通过预定义的关键字列表过滤了集合,留下了4255个帖子。对这些数据的分析表明,在抗议活动的第一天晚上,社交网络主要被用作政治动员的工具,后来又被用作媒体报道的工具。该研究的主要缺点是它没有描述情绪分类指标,因此难以验证结果的准确性。



莫斯科国立国际关系学院的研究员托卡列夫(Tokarev)研究了乌克兰主要博客中有关顿巴斯(Donbass)领土和人口在2009年至2018年期间的论述[56]。作者分析了Facebook乌克兰部分中讨论的语义,频率和情感。研究包括几个阶段。首先,确定意见领袖,并从2009年1月1日至2018年2月15日下载他们的出版物。然后,根据论述中预先确定的关键字,作者确定专门针对Donbass的出版物。在下一阶段,创建了一个情感词典,该词典随后用于根据其情感程度来区分讨论。在志愿者的帮助下,收集了针对该地区和人口的566个标记词的词汇。每个单词都用俄语和乌克兰语表示。然后,由69名评估人员组成的团队将词汇注释为五个等级:正,中性-正,中性,中性-负和负。最后,评估了情绪表达的程度和讨论的动力。分析了376种主要博客的7种语言的1,069,687种出版物的语料库。事实证明,关于顿巴斯的领土和人口的讨论开始于2013-2014年初。在此之前,提及该区域的频率几乎为零。人们表达了对人口的重大消极态度,并且几乎没有对该领土的消极讨论。中立的语气盛行。与人口讨论相比,对该领土的正面讨论和负面讨论的次数要少得多。这可以使我们得出结论,主要博客作者在有关领土方面存在高度不确定性,而且话语从中立变为正面的可能性也很小。这项研究的缺点与Zaeziev的作品相同[88];没有分类指标的描述。



因此,在研究乌克兰危机期间,研究人员不仅使用有关情绪的信息,而且使用有关出版物作者位置的信息,以研究用户的地域约束力。为了确定相关文本,收集了冲突标记词的列表,并搜索了包含这些标记的文本。在分析种族群体或与移民有关的问题时,很难提取代表性数据并详尽地描述附带的限制。



1.1.3。社会紧张



在现代俄罗斯社会中观察到的过程产生了将社会冲突置于特定框架中的需要[113]。鉴于社交媒体的广泛使用给民间社会带来了好处和风险,[114]应适当和适当地关注对在线内容的分析,包括确定社会紧张局势。您可以使用索引和指标来衡量在线社会紧张局势,然后使用此信息来跟踪紧张局势的爆发,这是一种预期治理[115]。



Donchenko领导的团队分析了VKontakte在2017年1月至6月期间对社会敏感话题的评论[89]。研究人员整理了与社会紧张问题相关的热门话题列表,并通过VKontakte API收集了相关的用户出版物。然后对文本进行预处理:选择词干(词干),删除标点符号,标准缩写词和and语词替换为相应的普通词。对于按主题分类,作者训练了支持向量模型(SVM)[33]和TF-IDF向量化[116]。社会热点:失业,腐败和消费品价格上涨。另外,使用SVM模型,对音调的极性进行了分类。事实证明,抗议情绪通常集中在人口稠密地区的中心。这项工作的主要弊端之一是缺乏对数据注释质量的评估,也缺乏对情感分类指标的规范。 Koltsova和Nagorny通过分析俄罗斯区域性媒体读者的评论发现了哪些主题被归类为社会问题[57]。作者从2013年9月至2014年9月的鄂木斯克媒体网站(Gorod55,BK55,NGS鄂木斯克和鄂木斯克信息)收集了33,887条新闻和258,107条评论。为确定新闻文本所属的主题,作者使用了Gensim-潜在Dirichlet分配算法[102]的实现[117],该度量由Arun,Suresh,Madhavan和Murthy [118]开发。为了对评论的情绪进行分类,作者将SentiStrength [22]与PolSentiLex词汇结合使用。 Koltsova和Nagorny发现这样的话题,娱乐,文化,体育和度假如何最常唤起积极的情绪,而大多数消极的情绪与犯罪和灾难有关。研究人员计算出每个主题的重要性和极性的指数。在这项研究中,使用SentiStrength的一个基本问题是作者没有描述所选主题的数据分类指标,因此很难验证结果的准确性。



因此,作者使用两种方法来识别尖锐的社会话题。在第一种情况下,将根据关键字列表过滤数据,在第二种情况下,将对所有数据进行无监督的聚类,然后识别紧急的社会话题。当使用来自社交网络的数据时,作者在提取代表性数据时面临同样的困难。但是,在分析新闻站点的数据时,这无关紧要,因为新闻站点通常对访问已发布的信息没有限制。由于有关敏感主题的讨论可能伴随着苛刻的语言,因此可以根据用户协议和法规对后者进行审查。



1.1.4。其他话题



许多研究集中在其他领域的主题上。研究员Ruleva研究了讲俄语的Twitter和YouTube用户对2013年2月车里雅宾斯克流星爆炸的反应[58]。在过去的100年中,它一直是进入地球大气层的最大天体。不出所料,这一事件在传统媒体和在线平台上引发了激烈的辩论。研究人员从2013年2月15日至20日收集了495条Twitter帖子,并使用标签“陨石”以及未指定数量的YouTube视频。重点放在对主要和次要口语类型之间差异的背景下两个站点内容的比较分析上[119]。但是,歌词也对感觉和情感做出了一定的解释。



Ruleva发现,与Twitter相比,YouTube内容为情感研究提供了更多有用的数据。作者依靠体裁分析以及语言学和符号学分析的混合。也就是说,她分析了文本本身以及文本的呈现方式。作者认为,YouTube和Twitter用户通常属于不同的社会群体,因此他们可能具有不同的情感表达方式。尽管这项研究总体上与文本的情感方面有间接关系,但Ruleva是最早研究不同类型俄语信息之间差异的人之一。但是,YouTube中没有情感比较方法和数据收集过程的详细说明。为了在Twitter上查找数据,应用了基本过滤,该过滤忽略了大部分消息,缺少主题标签“陨石”。此外,在不使用Historical API的情况下,Twitter搜索工具仅允许部分访问所有公共可用消息。



Kirilenko和Stepchenkova在Twitter上对2014年索契冬奥会的俄文语种进行了比较研究[90]。在整个奥运会期间的六个月内,通过Twitter API收集了40万条消息,然后对比赛进行了聚类和情绪分析。作者通过手工标记的600条英语和3,000条俄语Twitter帖子评估了Deeping Moving [121],Pattern和SentiStrength [22]的方法。尽管在比赛中表达了对奥林匹克的积极态度,但这种改善仅对俄罗斯人的信息意义重大。但是,作者没有提供评估模型的分类指标,也没有描述预处理步骤。



斯派塞(Spicer)领导的小组研究了与2011年至2012年期间杜马和俄罗斯联邦总统选举有关的大规模抗议浪潮[91]。研究人员分析了2011年3月17日至2012年3月12日通过Twitter Streaming API收集的有关俄语的Twitter帖子。根据关键字列表选择数据。收集了与政治有关的690,297俄语信息。为了确定普京的支持者和反对者,作者使用了关键字列表和SentiStrength [22]的组合,然后根据平均情感得分和党派来对前1000名用户进行分类。通过将双方100位用户的手动注释与自动分类进行比较,研究人员发现大约70%的参与者被正确分类。最后,作者应用了定性研究方法[122]并手动编码了提取的n-gram。主要发现之一是,Twitter上的言论最初得到了反对派的强烈支持,后来反对派的动员明显减少,对普京的支持也有所增加。但是,这项研究有几个缺点。首先,示例数据的代表性尚不清楚,因为Twitter Streaming API仅提供对所有出版物的部分访问。其次,分类指标没有在目标文本集合上进行度量,因此很难检查情感分类的质量。后来,反对派动员大幅度下降,对普京的支持增加了。但是,这项研究有几个缺点。首先,示例数据的代表性尚不清楚,因为Twitter Streaming API仅提供对所有出版物的部分访问。其次,分类指标没有在目标文本集合上进行度量,因此很难检查情感分类的质量。后来,反对派动员大幅度下降,对普京的支持增加了。但是,这项研究有几个缺点。首先,示例数据的代表性尚不清楚,因为Twitter Streaming API仅提供对所有出版物的部分访问。其次,分类指标没有在目标文本集合上进行度量,因此很难检查情感分类的质量。



Nenko和Petrova根据用户对Google Places中的城市物体的评论以及来自开放式GIS系统Imprecity的数据,对圣彼得堡的情绪分布进行了比较分析[92]。数据集包含来自Imprecity的1,800个情感标记和来自Google Places的2,450个位置参考注释。两名评估者将评论标记为六种情绪,并使用朴素的贝叶斯分类器对其进行处理[123]。基于情绪分析和Imprecity的数据集,作者在圣彼得堡创建了负面和正面情绪的热图。总的趋势是,正面和负面情绪都集中在城市南部的历史中心,瓦西里耶夫斯基岛的西端和彼得格勒斯基岛的中心。但是,作者没有描述预处理方法和分类指标。



因此,在研究对不同事件或地点的态度时,研究人员在寻找代表性数据和详尽描述约束方面面临着相同的困难。另外,大多数研究的主要缺点是缺乏对所选主题文本中情感分析模型的评估,因此难以验证分类的质量。



1.2。社会情感指数



例如,在使用主观幸福感(SWB)指数[124]来衡量幸福和对生活的满意度时,现代心理学方法依赖于自我评估量表。这些方法具有缺点。例如,访谈的数量有限,访谈受访者的高昂费用以及对参与者“记忆”的依赖使得难以实时呈现受访者的状态[125]-[127]。另外,研究人员试图使用情感分析来衡量各种社会情感指标,因为在社交媒体上用户生成的数据中表达了广泛的观点[2],[127]-[133]。



潘琴科(Panchenko)在他的工作中[93]将俄语语言Facebook中的情感指数计算为一系列文本中的平均情感水平。我们分析了2006年8月5日至2013年11月13日期间由Digsolab LLC提供研究的5.73亿篇匿名出版物和评论。作者使用langid.py模块[134]过滤了整个俄语文本集。社会情感指数是使用类似于多德[129]的基于字典的方法[135],[136]来计算的。作者从1511个术语中发展出了自己的情感词典,其中有两名专家将其划分为肯定和否定类。为了评估分类的质量,潘琴科将词汇方法应用于ROMIP 2012数据集[15]。作者声称,在一组电影评论中,他实现了宏观平均值F 1的值。-点高达0.383,精度高达0.465。为了测量情绪,作者提出了四个指标:单词情感指数,单词情感指数,文本情感指数和文本情感指数。前两个以单词的键操作,第二个以文本的键操作。根据分析,积极的内容胜过消极的内容。指数的最大值与公众假期一致,而最小值-与令人难忘的日子和国家悲剧有关。通常,用户表达的积极情绪是消极情绪的3.8倍。人们在帖子中使用较少的情感词,而在评论中使用更多。最重要的限制是作者在电影评论中检查了分类的质量并将其应用到一般文本中,因此很难验证结果的准确性。此外,没有描述Digsolab的内部数据收集过程,因此引发了有关代表性的问题。



Shchekotin领导的团队提出了一种新的主​​观幸福感评估方法,该方法基于VKontakte用户活动数据[68]。根据加夫里洛娃[137]开发的生活质量指标模型,作者选择了一些在研究中进行监测的指标。他们着眼于地理和社会经济代表性,从85个地区中选择了43个俄罗斯地区。然后,在选定的地区中,他们确定了三个最大的城市,并分别选择了10个VKontakte社区,将这些城市的居民(城市社区)团结在一起。然后,利用来自社交网络的数据收集和托木斯克州立大学开发的大数据研究者大学联盟的分析平台,作者提取了这些社区在2018年1月1日至2018年12月31日期间发布的信息。此后,他们删除了不相关的数据-与研究主题(职位空缺,体育,文化活动)无关的广告出版物和文本。不相关数据的过滤分两个阶段进行:手动分析60,000条消息和自动清除,其中对算法进行了人工清除消息训练。之后,大约有170万种出版物。在清除过程中,对出版物进行了手动注释,涉及19个主题和三个情感类别(正面,负面和中立)。在预处理过程中,不属于俄语和拉丁字母的稀有单词和符号被删除,所有其他单词都被简化为词干(词干)。然后训练了几种机器学习算法。LightGBM [138]的梯度提升算法显示了最佳的分类质量-类别分类最高达到68%,情感分类最高达到79%。为了计算每个地区的主观幸福指数[124],[139],作者提出了一种基于在线活动指标的方法。研究结果表明,在选定的区域中,以积极的方式最积极地讨论了区域基础设施发展的主题。最少积极的活动与对总体情绪状态和媒体自由度的评估有关。消极讨论最积极的是安全问题,即对安全部队和其他国家组织与确保该地区安全有关的行动的评估。在线活动的最低负面指标也是总体情绪状态和媒体自由的特征。此外,作者还编制了详尽的限制清单,包括数据样本的代表性,所分析的社交网络的受众以及机器人的潜在影响。



但是,在准备训练数据集时,作者没有描述情绪类别的分布。如果数据集尚未平衡,则建议使用更复杂的度量标准(例如精度,模型响应(调用)和F度量)来测量分类的质量。



1.3。用户行为



社交媒体内容不仅可以是对不同主题的态度,还可以是用户与该内容交互时的行为模式的宝贵信息来源。



Svetlov和Platonov确认了语调对听众反馈的影响[69]。数据来源为2017年1月至2019年4月期间在VKontakte上俄罗斯政治家最受欢迎的报道中的46,293篇出版物和2,197,063篇评论。研究人员在RuTweetCorp [141]和RuSentiment [142]数据集上对BiGRU [140]进行了训练,得到了宏平均F 1 = 0.91和F 1= 0.77。基于情感分析的结果,作者确定了几种响应模式。如果帖子具有更多用户意见和喜欢,则被归为正面。具有大量转发和评论的帖子被归类为负面。但是,使用来自一个区域的训练数据以及在另一个区域应用在其上训练的模型提出了许多问题。RuTweetCorp是Twitter的短篇文章的集合,RuSentiment是VKontakte的一般主题的集合,正在讨论的研究重点是政治。在这种情况下,一个好的解决方法是在目标主题上手动注释一小部分文本,并在该主题上测试经过训练的模型。



2.对产品和服务的反馈



图片

在互联网时代,产品和服务评论已成为表达社会认可度的有力工具,鼓励人们从不同的在线商店购买商品[143]。推荐不仅可以作为买卖双方,而且可以作为研究人员的宝贵信息来源。在本章中,根据分析的主题对文献来源进行了划分:购买者特征,产品和服务特征,商人特征。



2.1。审稿人的特征



圣彼得堡大学的一个研究小组分析了在12个知识密集型俄罗斯行业中运营的989家就业公司的主题和评论基调[70]。研究人员将奥特鲁德(Otrude)作为主要数据来源,奥特鲁德是俄罗斯最大的门户网站之一,具有雇主评论。在过滤并删除了不必要的数据后,我们获得了6145条评论。预处理分几个阶段进行:使用MyStem进行词根除错,删除标点符号和停用词。作者根据评论的等级自动将文本分为两类:那些获得至少三颗星的人被认为是积极的,其余的则被认为是负面的。然后,研究人员使用潜在的狄利克雷位置[102]-或主题建模-以及未指定的分类模型来分析情绪。由索科洛夫(Sokolov)领导的团队发现,影响工作满意度的六个主要因素是:工作顺序和时间表,工作条件,工作性质,薪水,职业发展,心理氛围,与同事的人际关系。最后两个因素-心理环境和人际关系-在讨论工作满意度时经常由在线人讨论。因此,这组作者建议,当一个人决定辞职时,他倾向于忍受经济因素(例如,职业发展前景和薪资增长的前景),而不是社交情绪(例如,工作性质恶劣,与同事的关系差)。研究的关键问题是使用情感分析的正确性。 Otrude网站上的所有评论均包含作者的评估,因此,从正式的角度来看,不需要用情感分类来评估这些评论。另一个缺点是作者没有在测试数据集上描述他们的分析方法和情感分类的结果。



2.2.



Seliverstov领导的团队根据Autostrada门户网站上的数据评估了俄罗斯联邦西北联邦区对道路状况的态度[71]。为了进行培训,作者使用了RuTweetCorp [141],这是最大的自动注释的文本集,几乎没有人工过滤,收集在俄语Twitter上。为了进行分类,采用了正则化的线性随机梯度下降模型和带有TF-IDF矢量化的词袋模型。训练后,该模型显示出72%的二进制分类精度。在对2009年3月1日至2018年11月1日的评估进行分析后,作者发现所有经过积极评估的道路的长度为9874公里(占总长度的75%),而经过负面评估的道路的长度为3385公里(占总长度的25%)。但是,这项研究有几个缺点。首先,作者没有描述预处理过程,这对于在RuTweetCorp上学习至关重要。事实是,该集合最初旨在创建情感词典,而不是用于情感的直接分类。该集合是根据某种策略自动组装的[144],也就是说,每个文本都根据其中包含的表情符号与某种类别的情感相关联。因此,即使是简单的基于规则的方法也可以提供出色的结果。例如,如果模型由于文本中存在字符而将文本分类为正(或由于缺少此字符而分类为负),则在二进制分类中,我们得到F在RuTweetCorp上学习时,这一点至关重要。事实是,该集合最初旨在创建情感词典,而不是用于情感的直接分类。该集合是根据某种策略自动组装的[144],也就是说,每个文本都根据其中包含的表情符号与某种类别的情感相关联。因此,即使是简单的基于规则的方法也可以提供出色的结果。例如,如果模型由于文本中存在字符而将文本分类为正(或由于缺少此字符而分类为负),则在二进制分类中,我们得到F在RuTweetCorp上学习时,这一点至关重要。事实是,该集合最初旨在创建情感词典,而不是用于情感的直接分类。该集合是根据某种策略自动组装的[144],也就是说,每个文本都与某种情感相关联,具体取决于其中包含的表情符号。因此,即使是简单的基于规则的方法也可以提供出色的结果。例如,如果模型由于文本中存在字符而将文本分类为正(或由于缺少此字符而分类为负),则在二进制分类中,我们得到F也就是说,每个文本根据其包含的表情符号都与某种情感相关联。因此,即使是简单的基于规则的方法也可以提供出色的结果。例如,如果模型由于文本中存在字符而将文本分类为正(或由于缺少此字符而分类为负),则在二进制分类中,我们得到F也就是说,每个文本根据其包含的表情符号都与某种情感相关联。因此,即使是简单的基于规则的方法也可以提供出色的结果。例如,如果模型由于文本中存在字符而将文本分类为正(或由于缺少此字符而分类为负),则在二进制分类中,我们得到F1 = 97.39%。为了解决自动情感分析的问题,数据集的作者建议在预处理期间删除表情符号。根据[145],在这种情况下,使用支持向量机[33],可以获得宏平均得分F 1= 75.95%。因此,在不知道预处理过程的情况下,很难评估研究的正确性。其次,关于将一个地区的数据用于另一地区的学习的有效性存在许多疑问。在这种情况下,有可能在感兴趣的主题上手动注释一个小的数据集(来自运输门户的用户视图)并在其上测试经过训练的模型。第三,RuTweetCorp由三个类组成,但是作者在研究中没有考虑中性类。正面和负面消息发布在RuTweetCorp的官方网站上,中立消息发布在单独的网站上。我想这就是为什么某些研究[146]-[150]只对二进制分类使用肯定和否定信息的原因。可以假设阶级中立可以改变负面和正面道路评论的整体分布。最后,大多数Freeway评论都具有版权评级,因此从正式的角度来看,不需要对情感评论进行评级。在这种情况下,基于评论和情感分类标签的评分来比较分数会很有趣。



2.3



亚利桑那大学的Lee和Chen开发了一种机器学习框架,用于根据客户反馈确定销售产品的质量[72]。该框架包含三个主要模块:使用关键字和相关用户的雪球采样,基于最大熵的主题分类以及使用深度学习的情感分析。后一个模块的独特功能之一是,它首先使用Google Translate将俄语文本翻译成英语,然后才使用递归神经张量网络对情感进行分类,其中单词表示为语法树库[121]。在一个专门针对银行卡欺诈的俄语论坛上对该提议的框架进行了测试。结果,确定了恶意软件的主要销售商和银行卡数据的盗贼。通过更详细的分析,作者发现,卡片商人的评级往往低于软件商人。作者认为原因是软件的质量比被盗数据的质量更容易确定。作者提到,情感分类器是通过在线调查进行训练的,这适合于他们感兴趣的主题,但是他们没有描述使用数据集和分类质量度量的详细信息。翻译成另一种语言会大大改变文本的含义或语调,因此,如果不对俄语文本进行测试,几乎不可能评估分析的质量。通常,卡片商人的评级比软件商人低。作者认为原因是软件的质量比被盗数据的质量更容易确定。作者提到,情感分类器是通过在线调查进行训练的,这适合于他们感兴趣的主题,但是他们没有描述使用数据集和分类质量指标的细节。翻译成另一种语言会大大改变文本的含义或语调,因此,如果不对俄语文本进行测试,几乎不可能评估分析的质量。该卡商户的评级通常低于软件商户。作者认为原因是软件的质量比被盗数据的质量更容易确定。作者提到,情感分类器是通过在线调查进行训练的,这适合于他们感兴趣的主题,但是他们没有描述使用数据集和分类质量度量的详细信息。翻译成另一种语言会大大改变文本的含义或语调,因此,如果不对俄语文本进行测试,几乎不可能评估分析的质量。但是,他们没有提供有关数据集和分类质量指标使用的详细信息。翻译成另一种语言会大大改变文本的含义或语调,因此,如果不对俄语文本进行测试,几乎不可能评估分析的质量。但是,他们没有提供有关数据集和分类质量指标使用的详细信息。翻译成另一种语言会大大改变文本的含义或语调,因此,如果不对俄语文本进行测试,几乎就不可能评估分析的质量。



3.



图片

用户生成的评论和社交媒体内容通常是主观的,因为作者可以自由发表意见。但是,新闻分析的情况有所不同。新闻媒体试图避免判断和彻底的偏见,试图摆脱怀疑和模棱两可。他们的哲学基于客观性,或者至少是广泛接受的中立性[73]。因此,记者通常不使用负面或正面词汇,而采取其他表达意见的方式[74]。例如,记者可以强调某些事实,而忽略其他事实,在复杂的话语结构中插入陈述,并根据自己的观点进行引用。人们对新闻的广泛兴趣是几个世纪以前注意到的[151],[152]。新闻被用作各种领域中情绪分析的数据源。例如,评估新闻本身的情绪[153],[154],预测股票价格[155],[156],选举结果[157],[158],在线商店中的商品价格[159]和未来的客户行为[154]。关于俄语新闻,我确定了两类研究:新闻情感评估以及经济和商业预测。新闻情绪评估以及经济和商业预测。新闻情绪评估以及经济和商业预测。



3.1。新闻内容



别利亚科夫(Belyakov)专门发表了几篇文章[94],[95],分析了俄罗斯外交部网站的新闻报道基调。作者使用了2015年2月1日至28日发布的“新闻”部分中的文章。文本单元分为以下类别:



  • 乌克兰问题;
  • 中俄合作;
  • 俄罗斯与乌克兰之间的关系;
  • 叙利亚冲突;
  • 与土库曼斯坦的合作;
  • 俄罗斯与希腊之间的关系;
  • 对俄罗斯的制裁;
  • 今天的外交。


作者创建了一个基于规则的基本分类器,该分类器总结了文本中情感词的极性并预测了最终的二进制分类。此外,还编写了300个正词干和300个负词干的字典。根据分析结果,“俄罗斯与中国的合作”,“与土库曼斯坦的合作”,“俄罗斯与希腊的关系”和“今天的外交”类别具有积极色彩。 “乌克兰问题”,“俄罗斯与乌克兰之间的关系”和“对俄罗斯的制裁”类别带有负面色彩。重要的是,该研究仅检查记者撰写的文章的内容,也就是说,这是外交部在某些主题上的官方立场的表达。将来,您可以在网站上发布的新闻文章中添加读者的反应和评论。在情感分析方面,别利亚科夫研究的主要缺点是缺乏模型评估。在不了解测试数据质量指标的情况下,我们无法评估模型的性能,从而无法评估分析结果的质量。



俄罗斯科学院的一个研究小组研究了媒体对技术和创新的态度[96]。作者在Exactus Expert [160]的帮助下,从16个来源中选择了2005年至2015年发表的超过24万篇有关创新和技术的文章。然后,他们根据人工选择的关键字,根据《俄罗斯联邦关键技术列表》中的11种技术趋势对文章进行了分类。接下来,作者选择了120篇文章,并手动将文章中提到的每个情感对象注释为肯定或否定。基于346个带注释的对的训练集,研究人员创建了情绪词汇,并开发了基于规则的分类算法。研究发现,一般而言,媒体倾向于以中立的方式撰写技术文章,这可能是由于新闻报道风格的一致性所致。文章中对IT和生物技术的负面评价及其整体正面报道的相对较少,这表明社会并不担心这些技术的潜在负面影响。同时,对军事技术的负面评论所占的比例高于其他领域。但是,作者没有在开发的算法中描述分类指标。而且,正如已经提到的,这些文章是由记者撰写的,他们不仅可以表达公众的观点,还可以表达官方的观点。为了评估公众对各种主题的态度,有必要进一步调查人们对新闻报道的反应。对军事技术的负面评论所占的比例高于其他领域。但是,作者没有在开发的算法中描述分类指标。而且,正如已经提到的,这些文章是由记者撰写的,他们不仅可以表达公众的观点,还可以表达官方的观点。为了评估公众对各种主题的态度,有必要进一步调查人们对新闻报道的反应。对军事技术的负面评论所占的比例高于其他领域。但是,作者没有在开发的算法中描述分类指标。而且,正如已经提到的,这些文章是由记者撰写的,他们不仅可以表达公众的观点,还可以表达官方的观点。为了评估公众对各种主题的态度,有必要进一步调查人们对新闻报道的反应。



卡祖和卡祖[75]分析了俄罗斯媒体对选举期间和选举后特朗普活动的报道。作者使用Integrum数据库进行网络分析,并使用Medialogy数据库进行情感分析。研究进行了三个时间间隔:选举前一个月,选举后一个月和选举后七个月。使用Medialogy方法,这些文本分为三类:正面,负面和中立。事实证明,选举前媒体对特朗普活动的报道负面多于积极。然而,在几个月中,克林顿竞选活动的报道甚至比特朗普报道更为积极,尽管在选举前的四个月中,与克林顿有关的文章在很大程度上至关重要。该研究的缺点之一是由于作者没有描述感兴趣主题的数据分类质量,因此很难验证结果的准确性。



类似的研究致力于分析与政治和政府有关的新闻。与社交媒体上的内容不同,访问旧数据没有困难,因为媒体通常不会阻止这种情况。但是,一些新闻研究作者已尝试确定特定主题的公众意见,我认为需要进一步阐述。当然,可以将媒体视为舆论的反映,但是,在某些情况下,发布者的政策可能会影响投放,因此新闻并不总是反映舆论。



3.2。经济和商业预测



Yakovleva建议根据新闻文章并结合文本情感分析来计算俄罗斯的经济活动高频指标[76]。在研究过程中,创建了两个组件:第一个组件用于反映主题的数量,第二个组件用于识别新闻的语气。预处理包括几个阶段:使用MyStem进行词干处理,删除标点符号,停用词和不必要的空格。作为一种情感分类模型,Yakovleva采用了一种支持向量算法[33],并在包含3438篇正面和负面新闻文章的人工注释数据上对其进行了训练。测试仪的准确性为64%。作者提到,如果模型以小于60%的概率确定文本的音调,则该音调被认为是中性的,并且从分析中排除了该文本。所有主题第一个组件获得的情感信息与第二个模型获得的情感信息相结合。基于这些组合数据,开发了一种回归模型来预测采购经理人指数(PMI)。测试数据涵盖了从2017年2月到2018年8月的时间段。该模型显示出相对较好的预测能力,可以准确地逼近新时期的实际指数。研究结果表明,该模型可以密切监视经济绩效,有助于快速响应当前的财务状况并快速做出决策。但是,这项研究有几个缺点。首先,不清楚使用了什么概率,因为基本支持向量机的实现不会直接提供概率估计。而且,没有描述选择阈值的方法。其次,Yakovleva的培训数据仅由一位专家注释,这与公认的惯例不符[142],[161],[162]。最后,作者发布了预测比较和实际PMI值的图形表示,但未提及任何回归质量指标。但没有提及任何回归质量指标。但没有提及任何回归质量指标。



4.书籍



图片

在过去的60年中,科学文献的分析已经走了很长一段路,从人工引用计数和词频分析到现代的自动深层文本分析方法[163]。该领域的主题之一是对教育材料的情感分析。



4.1。书籍内容



索洛维耶夫(Soloviev)的研究小组研究了俄罗斯中小学使用的社会研究和历史教科书的语调[77]。在这项研究中,俄文学术语料库是在Bogolyubov和Nikitin编辑的14本俄文教科书的基础上编制的。预处理包括使用TreeTagger [164]的句子标记,词标记和词性标记。作者使用俄语词典RuSentiLex [25]计算了每个文档中情感词的出现频率,并测量了文档中每1000个单词的具体数量。在对语料库进行分析之后,作者发现,由Nikitin编写的高中历史教科书以及中学高中社会研究教科书中的论述主要是负面的:使用负偏词,并给出负例。 Bogolyubov撰写的教科书总体上带有积极的语气。但是,由于RuSentiLex最初是为其他主题而创建的,因此不可靠的一个重要原因是从语料库中提取的情感单词的准确性和相关性。此外,无论单词在句子中的位置以及其可能的含义如何,RuSentiLex都提供了一种与情境无关的上下文无关表示。因此,这种方法不允许您基于句子的上下文来理解单词的不同含义。不可靠的一个重要原因是从语料库提取的情感词的准确性和相关性,因为RuSentiLex最初是为其他主题创建的。此外,无论单词在句子中的位置以及其可能的含义如何,RuSentiLex都提供了一种与情境无关的上下文无关表示。因此,这种方法不允许您基于句子的上下文来理解单词的不同含义。不可靠的一个重要原因是从语料库提取的情感词的准确性和相关性,因为RuSentiLex最初是为其他主题而创建的。此外,无论单词在句子中的位置以及其可能的含义如何,RuSentiLex都提供了一种与上下文无关的情感极性表示。因此,这种方法不允许您基于句子的上下文来理解单词的不同含义。因此,这种方法不允许您基于句子的上下文来理解单词的不同含义。因此,这种方法不允许您基于句子的上下文来理解单词的不同含义。



4.2。教育过程



科尔莫戈罗娃(Kolmogorova)进行了针对中国学生的俄语教学实验[78]。她测量了教育文本的情感,外国学生对培训课程的吸引力和有效性的主观评估以及这种文本教学的实际成功之间的关系。为了分析情绪,作者使用了西伯利亚联邦大学应用语言学和认知研究实验室开发的基于机器学习的情绪分类器。情感分析模型将文本分为9类,平均得分为F 1点50%。八年级对应于洛夫海姆[165]的基本情感,最后一个是情感中立的文本。对于训练集,在开放的``Overheard''VKontakte组中选择了文本。 231位以俄语为母语的人在课文上标记了文字,主观地评估了任何一种情感的表达程度,而每个课文仅被分配了一种情感。所有文本至少由三名评估员标记。如果两个或三个评估者将相同的类别分配给文本,则将这种情感分配给文本。否则,该文本将从该课程的训练集中删除。 Kolmogorova使用的文本中,主要的情感是快乐/喜乐和悲伤/忧郁。实验是在30名来自中国的学生的参与下进行的,他们被分为三个相等的组。每个小组都研究并检查了“标点符号”主题。一组从快乐的文本中学习,第二组从悲伤的文本中学习,第三组从中立的文本中学习。在完成实验研究和考试后,学生填写了一份调查表,其中指出了对该课程的普遍兴趣程度及其有效性,以及他们对学习过程的满意程度。在对调查问卷和考试结果进行分析之后,科尔摩戈罗娃发现教育文本的语调强烈影响教育过程的主观评估及其客观效果。平均而言,学生在悲伤的文字上犯的错误要少于快乐和中立的错误,但与他们合作带来的满意度最低。有趣的文字引起了人们的最大兴趣,但是培训的效果却很差。在这项研究中,不确定性的一个重要来源是用来对文本的情感极性进行分类的方法。该模型在一个区域的文本上进行了训练,然后应用于另一区域的文本,而无需额外验证分类质量。作者没有描述有关分类模型的任何细节,也没有提供有关预处理和培训的更多信息。



因此,分析教科书的主要困难是缺少有关该主题的情感词汇和培训工具。当研究人员使用情感词汇来分析单词级别的文本时,通常每个单词都采用一种与上下文无关的情感极性表示方式,而与单词在句子中的位置以及其他可能的含义无关。此外,由于在教科书中的文本很长,并且可以在一个文本中表达不同的情感,因此在文档级别的文本分析中,将文本与情感类别相关联变得困难。



5.混合数据源



图片

为了涵盖更广泛的材料,一些研究使用了来自不同来源的文本。例如,如果作者使用新闻和社交媒体内容,他们不仅可以衡量新闻社和政府机构对某些事件的报道极性,还可以衡量人们对于所讨论的不同主题的态度。



埃特林(Etling)在伯克曼互联网与社会中心[97]发表的一篇论文中,研究了欧洲maidan时期在各种俄语和英语在线及传统媒体和社交网络中乌克兰抗议活动的讨论基调。该研究使用了基于Hopkins和King [167]开发的分析方法的Crimson Hexagon软件[166]。根据对抗议的态度,这些文本分为四个类别:积极,中立,消极和不相关。数据来源为2013年11月21日至2014年2月26日期间在Twitter,Facebook,博客,论坛和新闻站点上的俄语和英语出版物。由于深红六边形的限制,未考虑乌克兰文字。它揭示了,俄语来源和用户对抗议活动的支持超出了预期。基于西方政府的意识形态支持,美国和英国的英语文本比预期的负面得多。同时,与这些国家的传统媒体相比,英国,美国和乌克兰的社交网络内容更为积极。该研究的主要缺点与情感分类模型有关。首先,她接受了最少数据量的培训,即大约120-140个带标签的出版物。其次,培训数据仅由一名评估者注释,这与最佳实践相悖[142],[161],[162]。分类的可靠性和质量尚未经过测试,这与监督式机器学习模型的基本原理相矛盾[168]。此外,没有提供分析来源的完整列表,因此很难验证其选择的可靠性。此外,未考虑乌克兰文本,因此排除了广泛的意见。



Kazun根据2014-2016年的数据分析了Alexei Navalny活动在媒体和社交网络中的报道强度和基调[80]。在Medialogia的帮助下,作者从俄罗斯报纸,网站和三个最大的联邦电视台收到了超过145,000篇有关纳瓦尼的新闻文章。为了分析情感,Kazun使用Medialogy中开发的算法(分为正面,负面或中性类别),之前已在200篇手动标记的文章上进行了检查。事实证明,主流媒体倾向于无视纳瓦尔尼,只是偶尔出版文件或新闻报道来侮辱俄罗斯反对派或纳瓦尔尼个人。总体而言,与其他媒体相比,Navalny在博客上的报道更为积极。但是,这些文章中的讨论主要是至关重要的。作者还描述了每种类型的媒体的细节,阐明了特征性的出版策略和色调模式。尽管普遍持否定态度,但Navalny活动的新闻报道逐年变得越来越积极。这种趋势的原因是关键文章的数量减少了,而正面文章的数量增加了。正如在所有发现的使用中介情感分析算法的示例中一样,作者没有描述目标主题的分类指标。正如在所有发现的使用中介情感分析算法的示例中一样,作者没有描述目标主题的分类指标。正如在所有发现的使用中介情感分析算法的示例中一样,作者并未描述目标主题的分类指标。



布兰特利(Brantley)在研究中[79]根据Twitter,Facebook,YouTube,博客,论坛和新闻网站的内容,分析了2013-2014年乌克兰革命。在深红六边形平台的帮助下,他用俄语,乌克兰语和英语收集了2809476个文本。我们仅考虑了2013年11月21日至2014年3月1日期间从乌克兰出版的文本。两名评估员精通所有三种语言,为BrightView算法的训练数据集添加了注释,该算法是Crimson Hexagon的一部分,是一种非参数数据分析算法。在[166]中有描述。这些文本分为三类:正面,中立和负面。在Crimson Hexagon上进行的测试显示,与手动分级的匹配率为92%。与收集的数据一起,作者使用了来自Tone数据集的全局知识图和事件数据集以及全局事件语言数据集的信息[169]。事实证明,在乌克兰,政治协会和与语言特征有关的偏好之间存在明显的差异。过去的投票结果进一步证实了这一点,当时讲乌克兰语的发言人传统上表示了对反对派的更多支持。通过直接比较在线和离线的参与程度,Brantley得出结论,社交媒体对抗议活动的实际发展产生了重大影响,也就是说,导致街头抗议者人数的增加。在乌克兰,政治协会和与语言特征相关的偏好之间存在明显差异。过去的投票结果进一步证实了这一点,当时讲乌克兰语的发言人传统上表示了对反对派的更多支持。通过直接比较在线和离线的参与程度,Brantley得出结论,社交媒体极大地影响了抗议者的身体发展,也就是说,导致街头抗议者数量的增加。在乌克兰,政治协会和与语言特征相关的偏好之间存在明显差异。过去的投票结果进一步证实了这一点,当时讲乌克兰语的发言人传统上表示了对反对派的更多支持。通过直接比较在线和离线的参与程度,Brantley得出结论,社交媒体极大地影响了抗议者的身体发展,也就是说,导致街头抗议者数量的增加。社交网络极大地影响了抗议者的身体发展,即导致街头抗议者数量的增加。社交网络极大地影响了抗议者的身体发展,即导致街头抗议者数量的增加。



使用不同类型的资源的主要缺点是,除了广泛表达的观点之外,作者还面临某些类型的资源所特有的困难和局限。它们可能与访问代表性数据,详尽的限制说明,缺少所选主题的训练数据有关。在一些研究中,情感分析和情感指数的汇总是基于各种文本而没有根据来源类型进行区分的。例如,当汇总情感时,作者认为社交媒体出版物和新闻文章是相等的单元。也许在这种情况下,使用更复杂的模型(使用权重)更合理,以便更正确地分析来自不同类型来源的文本。



6.下一个



几天后,最后一部分将发布,其中我们将讨论研究人员面临的常见困难以及未来的发展方向。如果您想一次用英语阅读整篇文章,请点击此处



7.资料来源



完整的资源列表可以在这里找到



All Articles