🤷🏼 🏾 ♎️ 我们如何再次尝试用机器人代替人类 🎳 🔛 ☪️

这个故事是关于我们如何第四次启动创业公司。

这个主意是如何产生的

这一切都始于我所看到的有关新的具有AI的Maxine平台的信息，该平台用于从Nvidia升级视频通信，该平台的功能之一是标题形式的即时翻译，此功能是使用来自同一Nvidia的一个名为Jarvis的框架来实现的，该框架旨在用于多模式AI对话服务，提供实时GPU性能。正是这种同声传译的概念构成了我们音频和视频通信平台的基础。由于这是一个新平台，因此与其他类似平台相比，它应该具有许多功能，因此我们决定考虑这些说话者的语调和颜色，决定在这些标题中添加语音，形成用户的语音配置文件并合成语音。

语音到文本或语音识别

使用Google，Yandex或Mozilla更好吗？

与Yandex相比，Google具有更高的识别准确度，我们通过Google API运行了5条测试语音消息：英语3条，俄语2条，识别准确率分别为100％（5/5），Yandex 60％（3/5）。Google支持125种语言，Yandex-3种语言。

Mozilla Deepspeech的优点是识别准确度，因为它是92.5％，相比之下，一个人可以以94.2％的准确度进行识别，因此测试语音消息的识别准确度是100％（5/5），优点是该引擎开源，与Google和Yandex不同。该引擎的缺点是公认的语言数量-英语，俄语和法语。

结果，由于语言数量与识别准确性的比率，选择落在Google Speech to Text上。

文字翻译

要解决此问题，首先想到的是使用Google或Yandex提供的现成的API。我们遇到的第一个问题是翻译不准确。例如，将“显然看不见中国人民”句子从俄语翻译成英语。Yandex Translator：“中国人显然是看不见的”，而Google Translate：“中国人很多”，在这种情况下，Google表现更好。

当前没有解决该问题的灵丹妙药。如今，这些翻译的主要任务是教算法以理解句子/文本的含义。如果该算法有意义，那么翻译的质量将更好。

通过Google Translate和Yandex Translator翻译了许多与商业主题相关的句子，这表明Google能够胜任这项工作，因此我们将使用Google Translate。

分析并获取语音配置文件

要获取语音配置文件，我们需要收集一些数据集。由于任务是根据讲话者的语音合成翻译的文本，因此我们需要从每个用户那里收集数据集。这是通过阅读包含要求的字母组合，句法构造和标点符号的专用文本来完成的。阅读文本的时间约为15分钟，因此我们可以获得有关每个用户的频率和语调特征的足够信息。可以重复阅读文本以改善最终结果。

考虑语音配置的语音合成

用一个他从未说过的语言来合成一个人的讲话并非易事。为此，有必要在双语人员的帮助下收集主要数据集，该人员还将阅读专用文本，然后阅读另一种语言的相似文本，然后再附加文本以扩展数据集。基于该训练和所识别的关系，随后将生成另一种语言的用户语音。此外，在此过程中，由于收集所需规模的完全独立的数据集似乎既不有效也不现实，因此现有的用于各种语言的语音合成的自动化解决方案将有所帮助。

输出量

目前，我们的主要任务是将语音配置文件与语音合成相结合，因为将语音配置文件传输到另一种语言并不是一件容易的事，您需要训练一个神经网络，以便它理解如何做，只有两个不同语言的数据集...

在项目的开发过程中，我们将发布与更具体的任务和解决方案有关的出版物。

我们如何再次尝试用机器人代替人类

这个主意是如何产生的

语音到文本或语音识别

文字翻译

分析并获取语音配置文件

考虑语音配置的语音合成

输出量

More articles: