三大技术突破,助力国内智能语音产业规模飞速增长

(上图为欧拉蜜语音助手截图)

例如,当用户连续输入“今天上海的天气”,“北京呢”,“买一张去那里的机票”。经过算法处理以及数据库检索,欧拉蜜能够结合上下文,准确将“北京呢”理解为“北京今天的天气如何”,并给出当天北京的天气状况。

同样的,欧拉蜜也能获取最后一句中的“那里”指代的是“北京”,并为用户反馈当地去北京的机票信息。

以视觉行为侦测技术为辅助的语音人机交互

如果人机交互可以更加“智能”,那么它应该拥有哪些能力呢?欧拉蜜团队进一步改进了语音机器人的唤醒功能,使人机交互更加流畅。

市面上主流的智能音响,目前使用的都是语音唤醒。由于智能音响没有屏幕,一切功能都是通过语音来操控,唤醒功能也不例外。往往会用一句唤醒话术(通常是产品的名称)来作为启动标志,当人们对着智能音响说出这句话时,智能音响就会进行答复并开始接收你传递给它的信息。

你可能会说,语音唤醒已经很方便了,难道还能有什么改进余地吗?

试想一下,日常生活中,当我们想要对另一人说话时常常会面向他,这时候,不需要叫对方的名字,对方也知道我们正在与他对话。如果机器也能做到这样,那么“语音唤醒”都可以省略掉了。

(欧拉蜜人脸与视线追踪视频截图)

欧拉蜜正是想赋予语音机器人这样“人性化”的功能。因此,欧拉蜜团队使用声源定位并结合视线检测(Eye Gaze Detection)技术,来帮助机器人确认用户的说话对象。这样一来,机器人们除了知道你在说话,还能够判断出你是否是在跟它说话,并自动唤醒。