多智能自然语言处理

微软亚洲研究院刘树杰博士等人撰写了《深度学习在自然语言处理中的应用》一文,介绍了一系列在人工智能方面取得突破的深度学习方法,并在分析自然语言数据与语音图像信息差异的基础上,重点介绍了自然语言处理应用深度学习的三种基本方法,包括词汇向量化表示、语言模型和句法分析,并具体阐述了深度学习如何帮助机器翻译和情感分析来提升性能。

在知识智能方面,需要设计大规模知识获取系统,扫描互联网和授权企业数据,抽取实体、实体类型和实体关系,获得知识条目。自动检查知识库的不一致性,提高人工编辑的修正效率。判断知识库缺失的知识,并自动补充。对通过多种途径获得的知识库进行合并,去除冗余条目,合并相同知识条目,并消除不一致条目。利用机器翻译把一种语言的知识库翻译成其他语言,加快其他语言知识库的建设。通过多语言的知识库支持机器翻译和在线词典。研究进行知识库的快速查找和推理的图数据库系统。在知识库基础上,实现自然语言分析和合成、问答系统支持搜索和语音助手,建立通用或企业/专业领域知识管理系统。

中国科学院自动化研究所研究员赵军撰写的《从问答系统看知识智能》一文,以图灵测试为引子,回顾了问答系统的发展历程,分析了实现智能问答的主要局限和智能问答突破瓶颈的关键问题——大型开放域知识库,阐述了当前智能问答的研究重点,如实体消歧、关系语义分类、问句语义解析和知识推理等,并指出了未来的研究方向。

在社会智能方面,从社会关系网络的实时海量数据中抽取社会智能信息(包括问答对、主题、热点话题、用户观点、用户特征),来过滤灌水、软文等帖子,评定发帖和回复的质量与权威性,确定帖子的情感(正面、负面或者中性),评定发帖人的权威性和影响力,提供观点、摘要和对比摘要,改善新问题到问题-答案库的语义匹配问题,对用户关心的事件(比如竞选结果、比赛结果、票房收入、产品销量)做出预测,设计新型众包,鼓励网友贡献知识和答案。

清华大学教授李涓子等人撰写的文章《拥抱社会智能》,以社交网络的社会关系为背景,介绍了社交网络关系和社会影响力分析等微观分析理论,重点阐述了社区发现、代表用户预测、社区信息传播分析等宏观分析方法,并结合具体案例给出利用众包实现社会智能的途径。文章指出,应利用我国社交网络用户多、研究水平高的优势发展社会智能应用,拥抱社会智能。

哈尔滨工业大学教授刘挺等人撰写《基于社会媒体的预测技术》的文章,从社会媒体与社会活动的关联关系出发,系统阐述了利用社交网络进行消费意图挖掘的方法,即结合深度学习分析社交网络的短文本数据,挖掘显式及隐式消费意图;指出基于消费意图挖掘的电影票房预测模型,是利用社交网络实现社会智能的典型案例。文章还介绍了基于事件抽取和因果关系等预测方法的研究进展,认为社会媒体的智能预测具有重要的研究和应用价值。

为了实现多智能自然语言处理系统,应采用NLP2.0框架——把互联网当成一个研究平台,在其上进行数据获取、模型训练、实施,并与用户互动。因此,首先要建立强大的数据处理平台以支持网络挖掘、信息抽取、模型训练和系统实施,支持大数据的处理和分析;同时,把自然语言研究和用户需求、市场因素适度地联系在一起,使之实现互动;此外,需要同时考虑多智能协调,利用多种智能研究类人智能任务、开发互联网智能应用。

脚注:

1 TF-IDF(term frequency-inverse document frequency,词频-反文档频率)是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

2 又称佩奇排名。Page rank取自谷歌的创始人Larry Page。它是谷歌排名运算法则的一部分,是谷歌对网页重要性的评估,是衡量一个网站好坏的唯一标准。