我们定期在Medium上交谈关于参与者作为我们的教育计划的一部分而创建的项目的信息,例如,如何建立口头预言。今天,我们准备分享2020年春季学期课程的结果。
一些数据和分析
今年,我们打破了课程总数的所有记录:2月初,大约有800人报名参加。老实说,我们还没准备好迎接这么多的参与者,所以我们想出了很多与他们在一起的时刻。但是我们下次再写。
让我们回到参与者。每个人都完成了课程吗?答案当然是显而易见的。每次进行新任务时,愿意的人越来越少。结果,要么是由于隔离,要么是由于其他原因,但是到了过程中途只剩下一半。好吧,那我必须决定项目。与会者宣布了七十部作品。最受欢迎的项目-Tweet情感提取-19个团队尝试在Kaggle上完成任务。
有关介绍的项目的更多信息
上周,我们在课程的最后一场会议中,几个团队介绍了他们的项目。如果您错过了公开研讨会,那么我们已经准备了录音。下面,我们将尝试简要描述已实现的案例。
Kaggle拼图:多语言有毒评论分类
罗曼·史金(QtRoS),丹尼斯·格鲁岑采夫(邪恶的),Maxim Talimanchuk(姆塔利曼楚克)
这项比赛是拼图游戏确定有毒文字的流行比赛的延续,但在这种情况下,培训是针对英语数据进行的,并对多语言数据(包括俄语)进行测试。评估基于ROC AUC指标。团队获得了铜牌(1621年为132),ROC AUC为〜0.9463。最终模型是分类器的集合:
- XLMRoberta大
- 朴素的贝叶斯
- 伯特基地
- 伯特语基础
- 使用多语言
使用AdamW优化器在基本数据集中训练了线性层为1024 * 1的XLMRoberta。USE多语言模型用于基本版本(已接受16种语言的培训),而无需额外的培训。由于自动将测试数据集翻译成英语,因此可以使用Bert库。训练集已使用其他数据集进行了扩展。
项目介绍可在此处获得。
该项目的GitHub在此链接上可用。
关于伯特蒸馏
尼基塔·巴拉甘斯基(Nikita Balagansky)
如您所知,基于BERT架构的模型在达到令人印象深刻的质量评级的同时,仍然远远落后于性能。这是因为BERT是具有大量权重的模型。有几种减少模型的方法,其中一种是蒸馏。蒸馏背后的想法是创建一个较小的“学生”模型,该模型模仿较大的“老师”模型的行为。这位俄罗斯学生模型在新闻数据集中接受了四张1080ti卡的训练,持续了100个小时。结果,学生模型比原始模型小1.7倍。... 在数据集中对学生和教师模型的质量进行了比较,以确定Mokoron文本的情感色彩。结果,学生模型的表现与老师模型相当。培训脚本是使用催化剂包编写的。您可以在Medium上阅读有关该项目的更多信息。
项目介绍可在此处获得。
该项目的GitHub在此链接上可用。
图片:rasa.com
开放数据科学问答
伊利亚·西罗特金(Ilya Sirotkin),尤里·泽伦斯基(Yuri Zelensky),叶卡捷琳娜·卡波娃(Ekaterina Karpova)
都是从Ekaterina Karpova在ODS上的职位开始的。这个想法非常雄心勃勃-根据收集到的Q&A数据集在ODS松弛社区中创建对问题的自动回复。但是,初步分析显示,大多数问题都是非常独特的,创建标记化的测试样品以评估质量是一项相当艰巨的任务。因此,决定首先创建一个分类器,以确定所询问的问题是否属于ODS备用信道。他将帮助ODS新手在相关频道主题中提问。选择了pwROC-AUC度量作为质量评估。
在该项目的框架内,对流行文本分类模型进行了比较分析。其中最好的-从基于RuBERT模型DeepPavlov -显示0.995 pwROC-AUC的质量。如此高的模型质量表明原始数据的高度分离性(和可分离性)。我测试过的所有模型中唯一有问题的渠道是_call_4_colaboration。但是为什么要精确地找出他呢,却还无法找到答案。
处理完此任务后,团队没有希望回到原来的任务,即回答ODS用户的问题。
项目介绍可在此处获得。
该项目的GitHub在此链接上可用。
俄罗斯方面的情感分析
德米特里·布宁(Dmitry Bunin)
在该项目的框架内,解决了确定相对于文本中给定对象的情感的问题(2015年对话评估竞赛的问题C)。俄语和英语数据均用作数据集。基本上,比较了基于ELM®架构(来自RusVectores软件包)和BERT(来自DeepPavlov软件包)的现代模型。尽管培训样本少且数据失衡严重,但是俄语中的ELM®+ CNN模型仍具有与竞争对手最佳模型相当的质量。
项目介绍可在此处获得。
该项目的GitHub在此链接上可用。
Kaggle:推文情感提取
Kirill Gerasimov
根据比赛的条款,任务是从推文中提取一个关键词或短语,以定义该推文的气氛。单词级别的Jaccard得分用作质量指标。在这场比赛中,所有参与者都面临着嘈杂的数据和含糊的标记。该团队使用基于RoBERTa-base的公共笔记本电脑模型作为基础模型。该模型使用阅读理解方法,其中突出显示了关键短语的开头和结尾(带有强制条件,即结尾在开头之后)。根据公认的传统,各种模型的集成要比单个模型更快。结果,铜牌(2100名中的第135名)... 根据比赛获胜者的经验,两级注释可提供更快的速度。
项目介绍可在此处获得。
该项目的GitHub可通过此链接获得。
自动考试解决方案
Mikhail Teterin和Leonid Morozov
该项目的目标是提高AI Journey 2019竞赛三项任务的质量指标(考试的自动解决方案),即:
- 在文本中搜索主要信息;
- 确定给定上下文中单词的含义;
- 标点符号在句子中的位置。
在所有三个问题中,都超过了竞争中的最佳解决方案。许多改进是由于使用了其他培训数据。在解决方案中,基于DeepPavlov的RuBERT的模型显示出最好的质量。
项目介绍可在此处获得。
该项目的GitHub在此链接上可用。
在本文中,我们尝试介绍了研讨会上介绍的一些项目,但是当然还有更多的项目。
感谢所有积极参加课程并没有放弃的人。好吧,对于那些只是在NLP领域学习和寻找有趣任务的人,我们建议考虑使用DeepPavlov Contribute项目。对话式AI的未来掌握在您的手中!