情感分析已成为用于大规模处理以任何文本来源表达的观点的强大工具。该工具在英语中的实际应用已经相当发达,对于俄语还不能说。在本系列文章中,我们将研究情感分析方法用于俄语文本的方式以及目的,目的是什么,结果是什么,出现了什么问题,还讨论了一些有希望的方向。与以前的作品不同,我专注于应用程序应用,而不是方法本身及其分类质量。第一部分是导论。我们将考虑什么是“情感分析”,它是什么以及在过去8年中如何使用它来分析俄语文本。在第二部分让我们仔细研究一下我发现的32项主要研究。在第三部分(也是下周)中,我们将讨论研究人员面临的常见困难以及未来的发展方向。
注意:本文是为科学杂志撰写的,因此将有许多链接到资源。
1.简介
情感分析是计算语言学中的一类内容分析方法,其主要任务是根据语气对文本进行分类。通过使用情感分析,研究人员可以概括文本的情感并得出不同主题的结论。例如,这种分析可以预测证券市场[1],计算主观幸福感指数[2],预测选举结果[3],评估对某些事件或新闻的反应[4]。英语的情感分析已经得到了很好的发展[5]-[7],而到目前为止,其他语言(尤其是俄语)的关注度却大大降低。根据Omnibus GFK的一项研究[9],16岁以上的俄罗斯人有75.4(9000万人)使用互联网。在各大洲都有说俄语的侨民,但其中大多数居住在独联体国家,主要在俄罗斯和乌克兰。根据W3Techs的一项研究,就互联网流行度而言,俄语是主要的语言之一。截至2020年4月,全球1000万最受欢迎的网站中有8.6%的语言为俄语。因此,俄语文本是自动分析尤其是情感分析的重要数据来源。
Viksna和Jekabsons仅进行了一项调查研究[10],专门用于分析俄文文本的情感。其他几个人[11]-[14]在与现有方法进行一般比较的情况下提到了它。其他一些研究则专门针对俄语文本情感分析的特定方面。例如,最佳方法的评估[15]-[18],用于情感分析的神经网络体系结构的比较[19],[20],用于情感评估的开放式俄语词汇选择的比较[21]。但是,所有这些研究都集中在方法本身及其分类速度上,而不是在实际应用和分析结果上。我只考虑了那些根据真实数据获得分析结果的作品。而且我没有考虑那些仅用于训练分类器的分类器。本文是在IEEE Access中发布的文章的精简翻译。如果您想了解更多详细信息,或者只是用英语阅读-您在这里。
第二部分简要介绍了情绪分析和当前方法的任务,如果您已经对此很熟悉,请随时跳过。第三部分是主要内容之一,它研究了情感分析在俄语文本中的应用类型,还描述了32种主要研究及其洞察力和弱点。第四部分着眼于当前的挑战,第五部分着眼于有希望的领域。
2.简要分析情绪分析方法
情感分析是计算语言学中的一类内容分析方法,其主要任务是根据语气对文本进行分类。在简单的情况下,情感分析的问题被简化为文本的肯定和否定的二进制分类。在某些情况下,请添加另一类中性文字。更高级的方法试图识别与文本相关的情绪状态,例如恐惧,愤怒,悲伤或幸福。在许多方法中,为文本分配了预定比例的值:例如,负值从-2到正值从2;因此,分析简化为回归问题。基于方面的情感分析是情感分析的子集,其任务是确定对讨论的主要主题的特定方面的态度。情感分析的所有方法可以分为三类。
首先是基于规则的方法(基于规则)。大多数情况下,他们使用手动定义的分类规则和带有情感标记的词汇表。这些规则通常基于情感关键字及其与其他关键字的组合来计算文本类[22]-[24]。尽管它们在主题上非常有效,但是基于规则的方法却难以推广。创建它们也非常耗时,尤其是在无法访问合适的情感词典时。后者尤其具有俄语的特征,因为它的来源不如英语,尤其是在情感分析领域。最大的俄语情感词典是RuSentiLex [25]和LINIS Crowd [26]。但是它们仅包含有关从正到负的调性的信息,没有情感的特征。通过这种方式,没有像SenticNet [27],SentiWordNet [28]和SentiWords [29]这样具有强大情感特征的强大英语收藏集,别无选择。
第二组-机器学习方法...他们使用从文本中自动提取特征并应用机器学习算法。极性分类的经典算法是朴素贝叶斯分类器[30],决策树[31],逻辑回归[32]和支持向量机[33]。近年来,深度学习方法吸引了研究人员的注意力,深度学习方法在情感分析方面明显优于传统方法[34]。 SemEval竞赛的时间顺序证实了这一点,在此期间,领先的解决方案成功使用了卷积(CNN)和递归(RNN)神经网络[35]-[37]以及转移学习方法[38]。机器学习系统的主要特征之一是从文本中自动提取特征。在向量空间中表示文本的简单方法通常使用词袋模型。在用于生成单词嵌入的更复杂的系统中,使用了分布式语义模型,例如Word2Vec [39],GloVe [40]或FastText [41]。还有一些用于在句子或段落级别生成嵌入的算法,旨在将学习转移到不同的自然语言处理任务上。这些算法包括ELMo [42],通用语句编码器(USE)[27],来自变压器的双向编码器表示(BERT)[43],带有信息实体的增强语言表示(ERNIE)[44]和XLNet [45]。就生成嵌入而言,它们的主要缺点之一是需要大量的文本来进行训练。但是,对于所有机器学习方法都是如此,因为所有监督学习算法都需要标记的数据集进行训练。
第三类-混合方法...他们结合了前两种类型的方法。例如,库马尔和他的同事们开发了一种混合的波斯语情感分析框架,该框架结合了语言规则,卷积神经网络和LSTM进行情感分类[46]。 Meskele和Frasincar提出了一种混合方面分析模型ALDONAr,该模型结合了用于捕获情感信息的情感本体,用于词嵌入的BERT和用于扩展情感分类的两个CNN层[47]。该模型在SenEval 2015 Task 12数据集[48]上显示了83.8%的准确性,在SemEval 2016 Task 5数据集[49]上显示了87.1%的准确性。语言模型和基于规则的解决方案[50]-[52]经常用于混合算法中。一边,基于规则的方法和机器学习的结合通常会产生更准确的结果。另一方面,混合方法继承了其组成算法的困难和局限性。
3.
为了找到有关俄语文本应用情感分析的关键出版物,我搜索了涵盖领先计算机科学期刊和会议的科学数据库:IEEE Xplore,ACM数字图书馆,ScienceDirect,SAGE Journals Online和Springer Link。为了扩大来源范围,除了英语文章外,我还研究了来自俄罗斯科学引文索引(RSCI)的俄语文章。通过查询((''SENTIMENT''或``POLARITY'')和(``ANALYSIS''或``DETECTION''或``CLASSICICATION''或``OMINION MINING''或``TOPIC MODELING' ')AND(''RUSSIAN''或''RUSSIA''))。大多数相关文章可在ScienceDirect,Springer Link和RSCI中找到...我还回顾了主要研究人员的著作的初步出版物,以免错过新的发展动态。结果,收集了数千篇可能相关的文章,其中不包括灰色文献和预印本。最新鲜和引用最多的作品是首选。然后,我分析了其余出版物的标题,关键词和介绍,以缩小我对来源的选择范围。该搜索仅在经过同行评审的文章上进行,以提高样本质量。我排除了灰色来源(例如,进行中的工作,社论,任何论文)以及不适合我的研究的来源(不适用于情感分类模型)。然后,为了在本文中进行更详细的描述,我手动选择了32种主要出版物,其中描述了至少一种实用的俄语语言情感分析方法。
4.
. 1. .
我决定按数据源对方法进行分类,因为在这种情况下,类别中的方法将具有相似的目标,挑战和局限性。尽管某些类别仅包含一项研究,但由于所用方法,结果和困难的根本差异,我决定重点介绍它们。另外,不要忘了在情感分析方面对俄语的研究较少,因此作品数量有限。在图。 1提供了一组类别。大多数方法都依赖于社交媒体数据分析来评估用户对不同主题的态度。例如,对于乌克兰冲突以及与移民有关的问题的态度和观点。在过去十年中,许多社交网络已成为促进社交参与的现代工具[53],因此,它们可以被视为公开的,广泛可用的舆论资源,或者至少可以看作是某种形式的反映[54]。根据以下三个标准,对来自社交网络的教资会作为最常见的信息来源进行了审查:社会情绪指数;用户与表达不同情绪的数据进行交互的功能。从不同的角度研究了对不同主题的态度。例如,对移民和种族群体的态度(例如[55]),乌克兰危机期间的情绪表达(例如[56]),衡量社会紧张程度(例如[57])或专注于对某些重要话题的论述问题(例如[58])。通常,这些方法结合了主题建模和情感分析,突出主题和相关情绪。在许多研究中(例如[59]-[67]),在没有进一步极性分类的情况下应用主题建模(因此不在本文中介绍),情感分析被称为进一步发展阶段。在研究的另一部分中(例如[68]),社会态度指数是根据在社交网络中表达的观点计算得出的,以便获得传统主观幸福感指数的替代方案。最后,另一项研究(例如[69])根据用户的情感色彩来检查用户与内容进行交互的方式。此类研究的主要困难之一是代表性数据样本的提取和相关文本的选择以供进一步分析。在许多研究中(例如[59]-[67]),在没有进一步极性分类的情况下应用主题建模(因此不在本文中介绍),情感分析被称为进一步发展阶段。在研究的另一部分(例如[68]),社会态度指数是根据在社交网络中表达的观点计算得出的,以便获得传统的主观幸福感指数的替代方案。最后,另一项研究(例如[69])根据用户的情感色彩来检查用户与内容进行交互的方式。此类研究的主要困难之一是代表性数据样本的提取和相关文本的选择以供进一步分析。在许多研究中(例如,[59]-[67]),在没有进一步分类极性的情况下应用主题建模(因此在本文中不予考虑),情感分析被称为进一步发展阶段。在研究的另一部分中(例如[68]),社会态度指数是根据在社交网络中表达的观点计算得出的,以便获得传统的主观幸福感指数的替代方案。最后,另一项研究(例如[69])根据用户的情感色彩来检查用户与内容进行交互的方式。此类研究的主要困难之一是代表性数据样本的提取和相关文本的选择以供进一步分析。在不进行极性进一步分类的情况下应用主题建模的情况下(因此本文不涉及它们),情感分析被称为进一步发展阶段。在研究的另一部分中(例如[68]),社会态度指数是根据在社交网络中表达的观点计算得出的,以便获得传统主观幸福感指数的替代方案。最后,另一项研究(例如[69])根据内容的情感色彩来检查用户与内容进行交互的方式。此类研究的主要困难之一是代表性数据样本的提取和相关文本的选择以供进一步分析。在应用主题建模而不进行极性进一步分类的情况下(因此本文不涉及它们),情感分析被称为进一步发展阶段。在研究的另一部分中(例如[68]),社会态度指数是根据在社交网络中表达的观点计算得出的,以便获得传统主观幸福感指数的替代方案。最后,另一项研究(例如[69])根据用户的情感色彩来检查用户与内容进行交互的方式。此类研究的主要困难之一是代表性数据样本的提取和相关文本的选择,以用于后续分析。
下一个最常见的信息来源是产品和服务的评论。根据评论者本身的特征(例如[70]),产品和服务的特征(例如[71])以及卖方的特征(例如[72])对它们进行了分析。与分析来自社交网络的用户生成的数据不同,访问旧数据没有困难。专用于评论的网站通常允许用户对评论文本进行评分,因此,由于我们已经知道评分类别,因此无需正式创建情绪分类模型。但是,在某些研究中,情感分类模型仅用于学术兴趣。由于社交媒体用户数据和用户评论通常反映主观观点,分析此数据不同于分析新闻。由于客观性是他们职业的核心,因此新闻工作者通常会尽量避免做出判断和直截了当的偏见,怀疑和模棱两可。或至少是中立的[73]。因此,记者通常不使用与正面或负面词汇相关的词,而是诉诸其他表达意见的方式[74]。
第三个主要来源是来自媒体的新闻,它根据两个标准进行分析:情绪(例如[75])和基于新闻情绪形成的经济和商业预测(例如[76])。与分析来自社交网络的用户生成数据不同,访问旧数据没有困难,因为媒体通常不限制对其的访问。但是,一些研究的作者试图确定公众对特定主题的态度,我认为这需要进一步阐述。当然,媒体也可以视为舆论的反映。但是在某些情况下,编辑政策可能影响了投稿,因此新闻并不总是反映公众舆论。研究人员很少关注最新方向:对教科书情感的分析,此类研究仅在2019年才出现。这些作品集中于比较不同教科书中表达的情感(例如[77])和这些情感对教育过程的影响(例如[78])。主要的挑战来自缺乏特定于情绪的词汇和面向教科书的学习数据集。此外,在文档级别的分析性文本的情况下,将文本与特定类别的情绪相关联变得困难,因为教科书中的文本很长,并且一次可能包含多种不同的情感。面向教材。此外,在文档级别的分析性文本的情况下,将文本与特定类别的情绪相关联变得困难,因为教科书中的文本很长,并且可能一次包含多种不同的情感。面向教材。此外,在文档级别的分析性文本的情况下,将文本与特定类别的情绪相关联变得困难,因为教科书中的文本很长,并且可能一次包含多种不同的情感。
为了收集更广泛的意见,一些研究使用了混合数据源。在这一组中,研究人员通常研究对不同主题的态度,例如乌克兰危机(例如[79])或媒体报道的Alexei Navalny(例如[80])。由于来源混合,因此此类数据可用于任何可能的研究。但是,除了表达的意见广泛之外,作者还面临着固有的来源复杂性和局限性。
表1总结了所发现的方法。如果我们考虑按年份划分的文章分布,我们可以看到,2014-2016年间俄语文本情感研究的数量有所增加,并在2017年达到顶峰。同一期刊和会议论文集上发表的文章数量有所不同。被分析的文章中,不止一篇被发表在七种期刊和收藏中。被发现的大多数文章都发表在“数字化转型与全球社会”会议的资料集中。
表1.发现的研究摘要。RB-基于规则的方法,ML-机器学习方法,UNK-未知方法,WL-单词级分析,DL-文档级分析。
类别 | 约定 | 描述 | 链接 | ||
---|---|---|---|---|---|
UGC | . | [81] | ML (Logit) | DL | |
[82] | ML (Logit) | DL | |||
[83] | ML (Logit) | DL | |||
[84] | RB (SentiStrength) | DL | |||
[55] | ML (SVM) | DL | |||
. | [85] | RB (custom) | DL | ||
[86] | RB (POLYARNIK) | DL | |||
[87] | RB (SentiMental) | DL | |||
[88] | UNK (IQBuzz) | DL | |||
[56] | RB (custom) | DL | |||
. | [89] | ML (SVM) | DL | ||
[57] | RB (SentiStrength) | DL | |||
. | [58] | DL | |||
2014 . | [90] | RB (SentiStrength) | DL | ||
2011-2012. | [91] | RB (SentiStrength) | DL | ||
-. | [92] | ML (NBC) | DL | ||
. | [93] | RB (custom) | WL, DL | ||
[68] | ML (GBM) | DL | |||
. | [69] | ML (BiGRU) | DL | ||
, . | [70] | DL | |||
- . | [71] | ML (NB, SGD) | DL | ||
, . | [72] | ML (RNTN) | DL | ||
. | [94] | RB (custom) | DL | ||
[95] | RB (custom) | DL | |||
. | [96] | RB (custom) | DL | ||
. | [75] | UNK (Medialogia) | DL | ||
. | [76] | ML (SVM) | DL | ||
. | [77] | RB (custom) | WL | ||
, . | [78] | ML ( ) | DL | ||
[97] | UNK (Crimson Hexagon) | DL | |||
[79] | UNK (Crimson Hexagon) | DL | |||
[80] | UNK (Medialogia) | DL |
基于规则的方法(40.63%)和机器学习(37.5%)的比例大致相等。第一组最常使用基于规则的个人模型或SentiStrength [22],它已成为第三方即用型解决方案中最受欢迎的算法。在第二组中,最常使用逻辑回归[32],支持向量机[33]和朴素贝叶斯分类器[30]。最受欢迎的是简单的机器学习方法,只有16.7%位于神经网络上。但是,自2019年以来,机器学习方法的份额已大大超过基于规则的方法的份额。 15.6%的研究发现使用了第三方云服务(例如Medialogia,IQBuzz和Crimson Hexagon)进行情感分析。在这些情况下,由于缺乏有关所应用分类算法的官方信息,我无法确定所使用的方法。
在一些情况下,发现了方法上的缺陷,包括缺乏对预处理,数据标记,学习过程和分类质量指标的描述。在某些情况下,尚未针对与领域相关的数据集验证分类模型。使用基于规则的方法或第三方服务进行情感分析时尤其如此-研究人员通常不手动标记文本集,因此无法评估分类的质量。
5.下一个
本文的第二部分将在下周发布,其中我们将仔细研究我发现的32项主要研究。在第三部分(也是下周)中,我们将讨论研究人员面临的常见困难以及未来的发展方向。如果您想一次用英语阅读整篇文章,请点击此处。
6.资料来源
完整的资源列表可以在这里找到。