嘿,Google:智能设备无需命令即可激活



克里斯蒂安(Cristian Cristian)Unsplash拍摄的照片



在不久的将来,将有可能激活Amazon Echo或Nest Audio语音扬声器,在Google或Apple设备上的Siri中搜索,而无需像“你好,谷歌!”那样打招呼。在人工智能的帮助下,来自美国的科学家开发了一种算法,智能语音助手可以通过该算法了解有人正在与他们交谈。



在正常对话中,人们只需查看邮件即可指定邮件的收件人。但是大多数语音设备都是为激活按键而设计的,没有人在真实的交流中说过。语音助手对非语言线索的理解将使交流更加容易和直观。特别是如果房子中有几个这样的设备。



卡内基梅隆大学的科学家指出,开发的算法使用麦克风确定语音方向(DoV)。







DoV与检测到达方向(DoA)不同。







研究人员称,DoV的使用使定向命令成为可能,这类似于对话者对话时的眼神交流。但是,不涉及设备的相机。因此,可以自然地与不同类型的设备进行交互,而不会引起混乱。



除其他事项外,该技术将减少一直处于待机状态的语音助手的意外激活次数。



新的音频技术基于语音传播的功能。如果声音直接进入麦克风,则低频和高频占主导地位。如果语音被反射(即最初指向另一个设备),则与低频相比,高频会明显下降。



该算法还分析声音在前10毫秒内传播。这里有两种情况:



用户转向麦克风。与房屋中其他设备反射的其他信号相比,最先到达麦克风的信号将清晰可见。

用户远离麦克风。所有声音振动将重复出现并失真。



该算法测量信号的形状,计算其强度的峰值,将其与平均值进行比较,并确定语音是否指向麦克风。



通过测量声音的散布,科学家们能够以93.1%的准确度确定扬声器是否在特定麦克风的前面。他们指出,这是迄今为止最好的结果,也是向现有设备中实施该解决方案的重要一步。当试图确定的八个角,一个人在看设备的一个,一个的65.4%,准确度达到对于一个应用程序来说,这仍然是不够的,其本质是与用户进行主动交互。



为了收集信息,工程师使用Python,并根据Extra-Trees分类器算法处理了信号。



开发期间收集的数据和算法对GitHub开放在创建自己的语音助手时可以使用它们。






All Articles