智慧语音四步走,让人工智能变有趣

智慧语音四大阶段:语音聊天;语音操控;情感化和人格化;人机合一目前智慧语音带来了互动沟通乐趣,养成了初步习惯,也逐渐可以语音操控智慧语音会变得更加有趣语音操控核心是语言系统和操作系统的无缝整合,语音指令权重将更高

在周末的极客公园年会上,百度公司创始人李彦宏大谈人工智能,robin认为现在人工智能已经趋于成熟,在移动互联网时代,技术变得更加重要。与此同时,奇点大学的校长RayKurzweil表示2020年我们模拟人类智能的成本就很低了,2045年人工智能超越人类的智慧带来全新形态的文明。

相比颇具科幻感的未来人工智能,普通大众更容易接触到的是智能语音技术带来的生活改变,中兴通讯、nuance、audience、百度、高德、中国科学院自动化所等近十家单位成了智慧语音联盟,已经在布局智慧语音技术的规模应用和生态建设。智慧语音作为人工智能前端的交互模式,更接近于人类交流模式,而且可以分阶段、分层次、分深度地融入手机、汽车、家电等设备中,一步步地牵引人们走向人工智能的时代。

科技革命:智慧语音的四大阶段

智慧语音技术和应用按照其智能程度、价值水平、交互层次、思考深度等分为四大发展阶段:语音聊天、语音操控、情感化人格化、人机合一。

语音聊天。这是语音技术的初级模型建立期。语音聊天是机器学习的过程,也是赋予机器思考能力的过程,人们和机器人进行对话聊天的过程中,机器人越来越智慧,并逐步建立人的样本特征库。像iphone上的siri、小娜等聊天机器人都是用大数据和机器学习的技术进行人机对话,这些聊天大多数是娱乐需求,在早期活跃度很高,但随着人们新鲜期的退潮,语音聊天的热度持续性在大幅降低。

语音操控。这是智慧语音的应用阶段,将语音技术和系统软件的深度整合,是赋予机器功能以运动能力和语言系统控制的能力,好比人的语言命令系统。此阶段,让机器和人的沟通超出了聊天对话,而具有现实的应用价值,发挥技术生产力价值。把语音内嵌到操作系统里,可以通过智慧语音来唤醒手机的应用、通讯录、拨打电话、听音乐等功能。最抢眼的是驾驶模式下可以通过语音全操控手机,不需要触摸手机或屏幕就可以唤醒手机,并操控手机,还可以智能播报短信、语音转文字等,将智慧语音的交互模式优势发挥到了极致。

情感化和人格化。相比语音操控的语音和机器深度整合,智慧语言的下一步也许是更加充满情感,像人一样有情感交流,人格化是智慧语音接近于人类自然语言系统的高级境界。此阶段,语音操控会是最基本的智慧能力,星星x号的智慧语音或许可以听出人的语气、情绪、态度,而不仅仅是通过简单的字面意义的互动,它们会像你的助理一样陪着你生活、快乐、感伤,这就要要求智慧语音系统有高超的声纹识别技术和聪明的大脑。

人机合一。这听起来就比较科幻了,但是从目前的人工智能技术发展来看,也许10-20年内是能够实现的,这个阶段智能语音交互模式已经无限接近于人类的语言系统,并能将人类的自然语言转化成操控机器的指令系统,能够主动地为主人提供服务,并通过开放api能够语音操控非常多设备。机器像人一样思考,能够理解人的语言含义和情感系统,每一个机器像自己的兄弟一样可以一起战斗。

现阶段智慧语音给我们带来了什么

Siri、小娜们带了智能手机的拟人化互动沟通乐趣,偶尔放松一下也无妨,但由于其只是独立app,需要触控操作唤醒,能够实现的语音操控十分有限,是智慧语音时代一个良好的趣味开始。siri的贡献是让人们发现了语音技术的力量,并培养了初步的用户习惯,开启了智慧语音的大门。

星星2号的智慧语音水平是第二阶段的,重点强化了语音系统和手机操作系统的深度整合,语音可以操控手机的主要功能需求,其最大的特点是驾驶模式场景,智慧语音的交互模式展示了高实用价值。开车时候不需要用手触摸操作手机了,语音操控交互模式在驾驶模式下变成刚性需求了。