研究讲习班。语音激活虚拟助手-他们怎么了?

介绍



分析聊天机器人和虚拟助手服务的分析师表示,市场每年至少会增长30%。绝对而言,截至2019年,市场价值每年超过20亿美元。几乎所有世界领先的IT公司都发布了虚拟语音助手,并且Apple,Google和Amazon已经完成了大部分促销活动。



图片



俄罗斯市场在这一领域也有自己的领导者。 Yandex成为第一个在俄罗斯推出自己的语音助手的主要公司。根据该公司正式发布的数据,爱丽丝每月有4500万用户使用,每月向助手发出的请求数量超过10亿。专家认为,2020年可能是语音助手市场的转折点-平台和品牌之间的竞争将导致助手的认可度提高...



通常,毫无疑问,语音助手市场是一个有趣的利基市场。想到的第一个想法是采用任何可用的ASR(自动语音识别)和TTS(文本到语音)服务,将它们链接到具有NLU(自然语言理解)支持的机器人构造函数,就是这样!而且,所有这些都可以在Twilio和VoxImplant等云平台中轻松,快速地实现。



唯一的问题是结果将非常中等。这是什么原因呢?首先,让我们尝试理解为什么将一组相当好的技术放在一起会产生如此平庸的结果。这很重要,因为 在现实生活中,客户将始终偏爱语音服务比其他服务更方便,有趣,更智能和更快的服务。



典型的语音助手如何工作



首先,我们注意到我们的讲话是一系列声音。声音又是不同频率的声音振动(波)的叠加。从物理学上我们知道,波具有两个属性-幅度和频率。



图片

语音信号



助手的工作算法:



  1. , , – . , «», .. .



    , , , - . ( ), «» . , , — , — . , , . , , , , .



    , , , , . , ASR .



    , – . , .



    , .
  2. 在第一阶段获得的语音助手的工作结果将传输到机器人,NLU支持识别意图,实体,填充插槽并形成响应文本。



    结果,在输出中,我们获得了响应短语的测试演示,这是语音助手对收到的请求的反应。
  3. 语音助手的答案将发送到语音合成服务,随后语音表达给该人。


新出现的问题



尽管实现的方法看似正确,但在语音助手的情况下,它仍然存在许多问题。这里是主要的:



  1. 延误
  2. 延误




  3. . , , 500 , .



    , 1 . - « » : «!» « ?». , , , , -, .



    , :



    • . – « »: , , .
    • .
    • .
    • .


    !

  4. . , .. . . , , , .. .
  5. . , . , , – .
  6. – . . , .



    :



    — ?

    — . , ? ?



    – « » : « » « ». « » , « » « ».
  7. -. .



    :



    — ---… ---…

    — , , … --…

    — , , --… , …



    , .. , , . .. , .
  8. , TTS-.


?



首先,在实施语音助手时,必须确保对话者被“听”到,包括。在虚拟助手自己发出外发消息的那一刻。选择聆听还是做出响应是极差的实现,应避免在现实生活中使用。



其次,您应该优化所有系统组件的速度。但是,在某个时间点,我们一定会遇到可能减少延迟和自然语言处理场景复杂化的限制。因此,我们了解到,有必要从根本上改变实现语音服务的方法。



新方法背后的主要思想是从人脑实现的过程中举一个例子。您是否注意到一个人在交谈过程中开始分析对话者说的信息,而不是在语音完全结束时立即分析,而是在语音开始时立即分析每个新单词?因此,即使在对话者完成其信息之前,我们通常也准备给出答案。



如果我们返回语音虚拟助手应实现的算法,则可能看起来像这样(为说明起见,请考虑输入问题:“最近的ATM在哪里?”):



  1. ASR , . .



    :



    a) «»

    b) «»

    c) «»

    d) «»
  2. , ,



    :



    a) «»

    b) « »

    c) « »

    d) « »
  3. , NLU, .



    :



    a) : «». :

    b) : « ». : « » 50%, « » 50%

    c) : « ». : « » 50%, « » 50%, « » = « »

    d) : « ». : « » 100%, « » = « »



    图片



  4. , 1 , , , , :



    • ;
    • ;
    • , .. 3.


    , , ( – = 0%).



    , . , , , , , .
  5. 一旦发现用户已完成他的消息(由输入流中的延迟确定),我们便将与最可能检测到的意图相对应的响应刷新到输出缓冲区中。更好的是,为了优化速度,请在输出缓冲区中保留响应TTS接收到的音频片段,而不是响应的文本表示,而应立即保留从TTS接收的音频片段,从而累积完整版本的响应音频消息。
  6. 我们向用户宣布输出缓冲区的内容。


提高助手工作质量的方法



让我们看看有哪些方法可以进一步提高语音虚拟助手的质量:







  1. . , . , (/ , ..) .
  2. «»



    «» , , . , «» .



    , «» , , .




  3. , , . .. , , , . , , , . , ..




  4. , -. .



    , , « ». – , . , , .




  5. , . , .. .




  6. , , . , , , . , .



    . online.


-



到目前为止,我们仅考虑了虚拟语音助手实施的技术功能。但是我们必须理解,成功并不总是仅取决于技术实施的完善性。让我们分析已经考虑过的示例:“最近的ATM在哪里?”并了解在语音界面中实施该功能的特殊性。



您知道,有一条规则适用于销售经理-“不能通过电话出售的物品不应通过电话出售。”由于这个原因,诸如“最近的ATM位于...”之类的答案对一个人来说并没有多大意义。如果他知道他现在所在的区域,即如果他知道附近所有街道的名称和门牌号,那么很可能他会知道最近的自动取款机在哪里。因此,这样的答案很可能会立即引起另一个问题的形成:“那么地址在哪里命名?”可能会提供更多信息:“最近的自动取款机位于距您东南方向约100米的地方”,甚至更好的是,还会向人们发送信息,例如Yandex或Google地图上的位置。



这里的一般规则是,如果信息的进一步使用要求将其转换为另一种感知通道,则对于在语音接口框架内直接实现,此选项是不幸的选择。需要将答案重新格式化为便于收听的形式。



对于许多服务,在语音助手框架内实现它们通常是最成功的解决方案。例如,如果一个人处于压力状态,那么通常来说,很难集中精力并在聊天中用文本快速描述问题,而他总是喜欢用语音表达一切。在选择要在虚拟语音助手中实施的业务案例时,这可能成为重要标准。



通过“语音”实施的第二种显而易见的选择是需要在对此事有法律限制(例如,开车时禁止进行文字通信),或者使用其他沟通渠道(例如在工作期间)不便的情况下使用它们或仅在人的手忙时进行运动)。



没有完美的界限



当用户需要非常特定的功能来解决特定任务时,语音比任何其他界面都更方便。这是为什么?这非常简单-在这种情况下,需要等待网站加载,滚动页面,浏览应用程序菜单,按下按钮等。总是比快速语音命令更为不便。网站和应用程序是多功能的。这是它们的优点和缺点。语音技能应针对“此时此地”功能进行调整。



重要的是要记住,应该避免在其他界面中语音命令需要伴随任何其他操作的情况。否则,它将使语音通道无法使用。违反了免视原理,因为如果您仍然需要夹东西,则必须阅读,并且免提。



另一个重要的建议是,您不应尝试教别人说话。没有我们,他可以做得很好,因为语言是一个已经熟悉并且可以理解的界面。不良风格的说明性示例:“要再次收听此消息,请说:再次收听。”你和我在平凡生活中不会那样说话。不是吗最好问一下:“再次听消息还是转到下一条?”



良好的做法是实施语音激活的虚拟助手,以完全避免开放式问题。建议引导对话者执行特定的操作。当助手充当导航器或推荐系统时,这特别有价值。语音助手不应向人询问太多信息。进行对话时检查一下。



最后,我想指出,个性化可能是现有语音对话界面中缺少的主要内容。没有这个,就不可能进行或多或少的漫长对话。助手必须收集有关对话者的数据,组织并验证收到的信息。重要的是不要失去对话的线索,保持并考虑对话的背景。这很重要。否则,助手将只能执行简短且相当简单的查询,结果,当语音助手与用户进行通信时,这将使您无法进行真正生动的对话。



All Articles