我们如何再次尝试用机器人代替人类

这个故事是关于我们如何第四次启动创业公司。



这个主意是如何产生的



这一切都始于我所看到的有关新的具有AI的Maxine平台的信息,该平台用于从Nvidia升级视频通信,该平台的功能之一是标题形式的即时翻译,此功能是使用来自同一Nvidia的一个名为Jarvis的框架来实现的,该框架旨在用于多模式AI对话服务,提供实时GPU性能。正是这种同声传译的概念构成了我们音频和视频通信平台的基础。由于这是一个新平台,因此与其他类似平台相比,它应该具有许多功能,因此我们决定考虑这些说话者的语调和颜色,决定在这些标题中添加语音,形成用户的语音配置文件并合成语音。







语音到文本或语音识别



使用Google,Yandex或Mozilla更好吗?



与Yandex相比,Google具有更高的识别准确度,我们通过Google API运行了5条测试语音消息:英语3条,俄语2条,识别准确率分别为100%(5/5),Yandex 60%(3/5)。Google支持125种语言,Yandex-3种语言。



Mozilla Deepspeech的优点是识别准确度,因为它是92.5%,相比之下,一个人可以以94.2%的准确度进行识别,因此测试语音消息的识别准确度是100%(5/5),优点是该引擎开源,与Google和Yandex不同。该引擎的缺点是公认的语言数量-英语,俄语和法语。



结果,由于语言数量与识别准确性的比率,选择落在Google Speech to Text上。



文字翻译



要解决此问题,首先想到的是使用Google或Yandex提供的现成的API。我们遇到的第一个问题是翻译不准确。例如,将“显然看不见中国人民”句子从俄语翻译成英语。Yandex Translator:“中国人显然是看不见的”,而Google Translate:“中国人很多”,在这种情况下,Google表现更好。



当前没有解决该问题的灵丹妙药。如今,这些翻译的主要任务是教算法以理解句子/文本的含义。如果该算法有意义,那么翻译的质量将更好。



通过Google Translate和Yandex Translator翻译了许多与商业主题相关的句子,这表明Google能够胜任这项工作,因此我们将使用Google Translate。



分析并获取语音配置文件



要获取语音配置文件,我们需要收集一些数据集。由于任务是根据讲话者的语音合成翻译的文本,因此我们需要从每个用户那里收集数据集。这是通过阅读包含要求的字母组合,句法构造和标点符号的专用文本来完成的。阅读文本的时间约为15分钟,因此我们可以获得有关每个用户的频率和语调特征的足够信息。可以重复阅读文本以改善最终结果。



考虑语音配置的语音合成



用一个他从未说过的语言来合成一个人的讲话并非易事。为此,有必要在双语人员的帮助下收集主要数据集,该人员还将阅读专用文本,然后阅读另一种语言的相似文本,然后再附加文本以扩展数据集。基于该训练和所识别的关系,随后将生成另一种语言的用户语音。此外,在此过程中,由于收集所需规模的完全独立的数据集似乎既不有效也不现实,因此现有的用于各种语言的语音合成的自动化解决方案将有所帮助。



输出量



目前,我们的主要任务是将语音配置文件与语音合成相结合,因为将语音配置文件传输到另一种语言并不是一件容易的事,您需要训练一个神经网络,以便它理解如何做,只有两个不同语言的数据集...



在项目的开发过程中,我们将发布与更具体的任务和解决方案有关的出版物。



All Articles