测试总听写的技术:有什么可以改进的?

我正在参加世界AI和数据挑战赛的评审...这是一场针对技术开发人员的国际竞赛,旨在解决各种社会问题,例如消除贫困,帮助有听力和视觉障碍的人们,改善人们与政府机构之间的反馈等。现在比赛的第二阶段正在进行中,它将持续到10月。作为此阶段的一部分,我们选择最佳解决方案来进一步实施项目。由于我们在ABBYY从事大量的文本及其含义工作,因此我对在Total Dictation项目框架内检查文本最感兴趣。让我们以这个问题为例,弄清楚为什么自然语言处理是现代机器学习中最被低估的领域之一,并且让我们讨论为什么,即使要检查听写,一切都“看起来比看起来复杂得多”。当然,更有趣。



因此,任务是:创建一种用于检查“总命令”的算法。看起来,还有什么会更容易?有正确的答案,有参与者的文字:接受并做。每个人都知道如何比较线。从这里开始有趣。



这样的逗号 还是分号?



自然语言是一件复杂的事情,通常具有多种解释。即使在诸如检查命令的任务(乍看之下,唯一正确的解决方案)中,也必须从一开始就考虑到,除了作者的提议之外,还有其他正确的选择。而且,比赛的组织者甚至考虑过这一点:他们有几个可以接受的拼写。至少有时。在此重要的是,编译器不可能能够指出所有正确的选项,因此,比赛的参加者也许应该考虑一种模型,该模型是在与该命令没有直接关系的大量文本集上进行预训练的。最后,根据对上下文的理解,一个人可以放逗号或不放分号;在某些情况下,一切皆有可能:使用冒号,破折号(或什至是括号)。



它是听写而不是需要评估的论文,这一事实不是错误,而是功能。自动论文评分系统在美国非常受欢迎。 21个州使用GRE的自动作文校对解决方案。直到最近才发现,这些系统对使用大量复杂词汇的大量文本(即使文本本身毫无意义)也给予了很高的评价。你是怎么发现的?麻省理工学院的学生开发了一个特殊的程序,即基本的自动BS散文语言(BABEL)生成器,它可以自动生成复杂单词的字符串。自动化系统对这些“论文”的评价很高。基于机器学习测试现代系统是一种荣幸。另一个同样热门的例子:前麻省理工学院教授莱斯·佩雷尔曼(Les Perelman)提供了ETS的电子评分系统,该系统负责对GRE和TOEFL考试进行评分,以检查Noam Chomsky撰写的5000字论文。该程序发现了62个不存在的语法错误和9个逗号缺失。结论-算法在意义上还不能很好地工作。因为我们自己很难定义它的含义。创建检查命令的算法具有实际意义,但是此任务并不像看起来那样简单。这里的要点不仅是我在这里所说的正确答案的模棱两可,而且是由一个人决定的。



独裁者的个性



听写是一个复杂的过程。 “独裁者”阅读文本的方式(如总命令的组织者开玩笑地称呼那些帮助执行该命令的人)会影响最终的工作质量。理想的校对系统可以将作者的结果与使用文本到语音的听写质量相关联。而且,类似的解决方案已经在教育中使用。例如,第三空间学习由伦敦大学学院的科学家创建的系统。该系统使用语音识别,分析教师如何进行课程,并基于此信息,提出有关如何改善学习过程的建议。例如,如果老师的讲话速度太快或太慢,安静或大声,系统将自动向他发送通知。顺便说一下,基于学生的声音,该算法可以确定他正在失去兴趣并感到无聊。不同的独裁者会影响不同参与者的口述最终结果。有什么不公可以通过什么消除?对!人工智能独裁者!悔改,我们的日子已经数了。好吧,认真的说,在线上,您可以简单地给每个人相同的配乐,或者在算法中评估“独裁者”的质量,无论听起来有多刺激。那些,那些被命令更快而不太清楚的人,可以指望“有害”的其他观点。一种或另一种方式,如果我们有语音转文字功能,那么就会想到另一个想法。



机器人与人:谁能更好地写出命令?



如果我们在广播中进行声音识别,那么不用说要在听写中创建虚拟参与者。比较AI和人类的成功将是一件很酷的事情,特别是因为世界上已经在积极开展不同教育学科的类似实验。因此,2017年,AI在中国的成都通过了州考试“ gaokao”,这就像俄罗斯统一州考试一样。他在150可能的得分中得到105分-也就是说,他以坚实的“三”通过了科目。值得注意的是,与“总听写”问题一样,该算法最困难的事情是理解语言-在这种情况下为中文。在俄罗斯,Sberbank去年开展了竞赛以开发用于通过俄语测试的算法。统一州考试包括测试和关于指定主题的论文。机器人测试的复杂程度有所提高,包括三个阶段:直接完成任务,根据给定的规则和措辞突出显示示例,并正确记录答案。



让我们从“还有什么可以做的”讨论中回到命令任务。



错误图



竞赛组织者尤其要求提供错误的热图。诸如热图之类的工具可以显示人们出差的地方和频率。逻辑上讲,他们经常在困难的地方犯错。从这个意义上说,除了参考选项的差异外,您还可以根据其他用户的差异使用热图。彼此结果的这种集体验证很容易实现,但可以大大提高验证的质量。



部分相似的统计信息“ Total Dictation”已经在收集中,但是它是在志愿者的帮助下手动完成的。例如,由于他们的工作我们了解到,大多数用户都误以为“慢”,“太多”,“计划中”。但是,迅速而有效地收集此类数据变得越来越困难,听写中的参与者也越来越多。一些教育平台已经在使用类似的工具。例如,学习外语的一种流行应用程序就是使用此类技术来优化和个性化课程。为此,他们开发了一个模型,其任务是分析数百万用户的错误频率组合。这有助于预测用户忘记特定单词的速度。还考虑了正在研究的主题的复杂性。



总的来说,正如我父亲说的:“所有任务都分为胡说八道和聋哑。胡说八道-这些任务已经解决,或者尚未开始解决。聋人是您当前要解决的任务。” 即使围绕文本验证问题,机器学习也允许您提出很多问题并创建大量附加组件,这些附加组件可以从质量上改变最终用户的体验。我们将了解到今年年底世界AI和数据挑战赛的参与者将做什么。



All Articles