思必驰首席科学家俞凯:语音“交互”与“识别”是两个概念

物联网

  思必驰首席科学家、联合创始人俞凯

  钛媒体注:在7月15日钛媒体和《商业价值》联合主办的 2016移动互联网创新大会(MIIC) 上,思必驰首席科学家、联合创始人俞凯以“人机交互中的认知智能”为题进行了演讲。俞凯认为,从PC互联、手机无线网到现在物联网时代,这三个阶段中有两个最大不同: 首先是信息数量的指数级增长;另外就是人机交互模式的变革。

  到了物联网时代,人机交互模式的主要特点就是通过语音进行复杂的信息处理,这当中最为依赖的技术就是 NLP(自然语言处理)与对话系统,而对话系统又可分为三种技术类型:

  1、问答式对话:提出问题后机器能够告诉我答案,是告诉答案,不是告诉我各种可选择的搜索结果,答案意味着要去筛选。

  2、闲聊式对话:一个很典型的场景的就是iPhone用户调戏Siri,这类往往没有商业模式但是体现了某种机器智能。

  3、任务型对话:第三类是任务性对话,真的帮助你完成任务。比如说订一杯咖啡,是买星巴克还是其他家,通过任务型对话帮你完成任务,这是对话技术最关键的部分。

  思必驰这家公司最重要的特点是把对话交互技术作为核心组织各种各样的语音智能,深耕垂直场景的语音交互技术。目前主要专注在智能车载、智能家居、智能机器人的解决方案。

  但俞凯表示,思必驰这样一类公司涉及到单纯的语音界面,解决不到交互认知的问题,要同时解决记忆、推理、建议以及相应的一些决策的问题,一定要从人工智能和认知计算的角度上解决问题。

  俞凯强调,语音交互与识别是两种完全不同的概念,他表示:

  “从交互平台上讲,不单单有感知,还要有认知,这个就是所谓自然语言认知交互的未来。把理解和决策表述这样认知技术,与前端强大的识别技术结合在一起,进行更多的搜索和数据处理,才能实现知识意义上更加自由的交互。”

  以下是俞凯在2016移动互联网创新大会(MIIC)上的演讲全文,经钛媒编辑:

  我既是一个从业者也是一个研究者,今天想和大家分享一点不同的东西。提到语音,绝大部分人的第一个反应是语音识别,希望讲完以后大家知道语音交互和识别是两种不同的概念。

  纵观智能交互发展史,其实互联网经历了三个阶段:第一个是PC互联网,第二个是手机无线网,第三个是硬件物联网,这三个阶段有两大不同的特点:

  1、数量。手机数量是在十亿这个级别,物联网是百亿级别,数量的增长对信息传输要求越来越高。

  2、交互。屏幕越来越小,甚至到了智能硬件上屏幕都消失了,这使得人和机器交互的模式产生了天翻地覆的变化。

  我这里大概列一下从80年代到目前人和机器进行信息交互,我们整个一个发展历程。

  a.80年代的时候Windows32,不知道在座有多少人使用过,当时的交互的界面用故意指示做组织存储;

  b.90年代出现了互联网之后,我们主要的交互模式是通过网站的浏览来实现复杂信息的获取;

  c.2000年,谷歌和百度这一类搜索引擎的出现,使得获取信息的交互方式变成搜索的模式,这个时候我们模态都是鼠标和键盘;

  d.21世纪第一个十年,我们交互模式变了,变成可以用手机和智能硬件

  这时候目标不再是简单的搜索,我估计现在几乎没有人直接在手机上用浏览器搜索,你们的目标我搞一件事,这个手机直接办成了,这个目标是进行信息本身的处理,既包括了信息的获得,又包括了后端信息的处理。在这个过程当中,很关键的一个模态就是所谓的交互。

  物联网时代的人机交互特点:交互

  刚才说到在发展过程里面,人和机器交互的模式,如果想进行复杂信息传输时候,到最后没有屏幕,几乎只能够用语音,用语音是不是识别就够了,曾经有人畅想识别就够了,这一拨人就是苹果,让我们看一下苹果是怎么畅想的。

  你们队看到,机器是被动地执行人类命令的助理,这个过程当中很重要的一件事情是机器对人的任何命令都能准确识别,然后可以和人进行对话和相应的交互,完成人的指令。

  实际上在Iphone真正发展起来以后,它的观点有所变化,2015年出了一件大事,这个时候我们就要回顾一下Iphone它的交互是什么样子。