本文发表于《中国人工智能学会通讯》第6卷第7期
1.引言
语言是思维的载体,是人类交流思想、表达情感最自然的工具,也是人类区别其他动物的本质特性。自然语言处理(NaturalLanguageProcessing,简称NLP)主要研究用计算机来处理、理解以及运用人类语言(又称自然语言)的各种理论和方法,属于人工智能领域的一个重要的研究方向,是计算机科学与语言学的交叉学科,又常被称为计算语言学[1]。随着互联网的快速发展,网络文本成爆炸性增长,为自然语言处理提出了巨大的应用需求。同时,自然语言处理研究的进步,也为人们更深刻的理解语言的机理和社会的机制提供了一种新的途径,因此具有重要的科学意义。
随着深度学习技术在越来越多的任务中所取得的突破性进展,有越来越多相关领域的学者将注意力转移到了人工智能皇冠上的那颗明珠—自然语言处理问题上。如著名的机器学习专家,美国加州大学伯克利分校的MichaelJordan教授说:“如果有一笔10亿美金的资助,我会将它用于自然语言处理的研究”。深度学习研究的领军人物之一,美国纽约大学教授、Facebook人工智能研究院负责人YannLeCun也曾表示“深度学习的下一个前沿课题是自然语言理解”[2]。
然而,由于自然语言所具有的歧义性、动态性和非规范性,同时语言理解通常需要丰富的知识和一定的推理能力,这些都为自然语言处理带来了极大的挑战。目前,机器学习技术为以上问题提供了一种可行的解决方案,成为研究的主流,该研究领域又被称为统计自然语言处理[3]。一个统计自然语言处理系统通常由两部分组成,即训练数据(也称样本)和统计模型(也称算法)。我们总结了目前自然语言处理中常用的模型和数据,如下表所示:
但是,传统的机器学习方法在数据获取和模型构建等诸多方面,都存在严重的问题:首先,为获得大规模的标注数据,传统方法需要花费大量的人力、物力、财力,雇用语言学专家进行繁琐的标注工作。然而由于这种方法存在标注代价高、规范性差等问题,很难获得大规模高质量的人工标注数据,由此带来了严重的数据稀疏问题。
其次,在传统的自然语言处理模型中,通常需要人工设计模型所需要的特征以及特征组合。这种人工设计特征的方式,需要开发人员对所面对的问题有深刻的理解和丰富的经验,这会消耗大量的人力和时间,即便如此也往往很难获得有效的特征。
近年来,如火如荼的深度学习技术为这两方面的问题提供了一种可能的解决思路,有效推动了自然语言处理技术的发展。那么,什么是深度学习,它究竟给自然语言处理带来了哪些创新性的想法,如何将深度学习技术更好的应用于自然语言处理,深度学习与自然语言处理的未来研究方向是什么呢?本文试图就这些问题加以回答。
2.基于深度学习的自然语言处理深度学习旨在模拟人脑对事物的认知过程,一般是指建立在含有多层非线性变换的神经网络结构之上,对数据的表示进行抽象和学习的一系列机器学习算法。该方法已对语音识别?图像处理等领域的进步起到了极大的推动作用,同时也引起了自然语言处理领域学者的广泛北京看白癜风哪个医院专业早期白癜风是否能治愈