深度学习实战篇-基于RNN的中文分词探索_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

36大数据

文 | haiping

近年来，深度学习在人工智能的多个领域取得了显著成绩。微软使用的152层深度神经网络在ImageNet的比赛上斩获多项第一，同时在图像识别中超过了人类的识别水平。百度在中文语音识别上取得了97%的准确率，已经超过了人类的识别能力。

随着深度学习在越来越多的领域中取得了突破性进展，自然语言处理这一人工智能的重要领域吸引了大批的研究者的注意力。最近谷歌发布了基于深度学习的机器翻译(GNMT)，和基于短语的机器翻译相比，错误率降低了55%-85%以上，从而又引发了深度学习在自然语言处理上的热潮。

自然语言处理是人工智能和语言学的交叉学科，在搜索引擎，问答系统，机器翻译等人工智能领域发挥着重要作用。分词，词性标注，命名实体识别作为自然语言处理的基础领域，同样吸引着大批研究者的注意力，本篇就结合我们近期的一些探索从中文分词角度探索深度学习在自然语言处理中的应用。

中文分词是将自然语言文本划分成词语序列，目前主流方法为序列标注，即用BMES这个四个标签去标注句子中的每一个字(B是词首，M是词中，E是词尾，S是单字词)。

对于 { 京东搜索与大数据平台数据挖掘算法部 }

其标注为{ BE BE S BME BE BMME BME }

使用Keras实现了基于RNN的中文分词，接下来就分别介绍一下Keras和中文分词实战。

1. Keras介绍

Keras 是一个高度模块化的深度学习框架，使用python编写，封装了大量的函数接口，可支持CPU和GPU训练。Keras提供了一系列模块，这样我们在实验模型的时候只需要调用这些模块就可以完成模型搭建，不用自己在去实现各层网络。

主要模块有Optimizers(优化函数模块)，常用的有SGD(随机梯度下降)、 Adam;Objectives(目标函数模块)，常用的有均方误差，交差熵;Activations(激活函数模块)，sigmoid用来做二分类、relu可解决梯度消失问题、softmax常用来做多分类;Layers(网络层模块)，提供了CNN(卷积层)、RNN(LSTM、GRU)、embeddings;Initializations(初始化模块)，主要用于模型参数的初始化，常用的有均匀分布初始化，高斯分布初始化。

使用Keras进行模型试验，可分为四个步骤(数据准备，模型构建, 模型训练, 模型测试),本文也将基于这四个步骤探索基于RNN的中文分词。