小牛翻译创始人、东北大学自然语言处理实验室主任朱靖波教授9日下午在北京国家会议中心举办的科大讯飞年度产品发布会开放平台论坛AI大学做了“机器翻译技术发展”报告,为大家详细讲解了机器翻译应用、机器翻译的三代技术和将来技术发展。论坛上朱靖波教授被AI大学校长、讯飞执行总裁胡郁博士聘任为科大讯飞AI大学首批特聘荣誉教授。本文简单概述一下报告主要内容。
机器翻译技术的发展可以分为三个发展阶段:
最早的机器翻译系统基于情报学中的“加密/解密”技术,但以失败告终;随后的机器翻译系统开发采用语言学家手工书写翻译规则,计算机专家编程实现的方式。但是,基于规则的方法只能正确翻译那些满足人工规则的句子,但对不符合之前写过的规则的句子,这种方法就无能为力了。人工书写翻译规则的代价很高,而且翻译规则千变万化,很容易产生规则相互冲突的“跷跷板”现象。翻译记忆技术和基于实例的技术非常依赖于预定义的翻译库,有点死记硬背不灵活。第一代基于规则的机器翻译技术被我国著名的机器翻译专家董振东老师称之为“傻子型”。
第二代机器翻译技术是基于统计的机器翻译技术。简单来说,统计机器翻译的基本思想是利用机器学习方法,通过对大量的平行语料进行统计分析,构建机器翻译模型。它将源语句子分解为词汇/短语片段,找到这些词汇/短语片段的目标语译文,然后将这些译文进行组合,选择其中模型认为最好的一个译文作为机器翻译结果。这种技术生成的翻译结果,质量非常不稳定,有时候非常完美,有时候非常糟糕,让人不可琢磨,所以被董老师称之为“疯子型”。
第三代机器翻译技术,也就是基于深度学习技术的机器翻译技术(神经机器翻译,NMT)。深度学习技术通过多个非线性处理单元,能够自动对数据进行表征学习,本质上是一个强大的函数拟合器。目前深度学习已经在图像、语音、自然语言处理等领域取得了空前的成功。从2013年神经机器翻译的提出,2016年10月份谷歌神经机器翻译GNMT系统正式上线,预示NMT的彻底爆发,仅仅用了不到四年的时间。我们小牛翻译去年12月上线了NMT系统,从今年上半年开始国内一些互联网巨头也不断上线了NMT系统,预示着NMT技术框架成为了目前机器翻译的主流技术。
NMT采用经典的编码器-解码器架构,编码器将输入的源语言句子表示为实数向量,解码器根据源语言编码的结果,生成目标语译文。其优点在于模型中考虑了双语句子内部的上下文信息,使生成译文的结构非常流畅。传统的NMT采用循环神经网络(Recurrent Neural Network, RNN)分别作为编码器和解码器。RNN的基本思想是当前时刻的状态受之前时刻的影响,因此理论上具有捕获全局上下文的能力,十分适合对变长的序列建模。在实际应用时,为了缓解RNN固有的梯度消失(Vanishing Gradient)问题,往往使用RNN的两个变种:长短时记忆网络(LSTM),门控循环单元(GRU)。但是RNN网络由于前后时刻存在时序上的依赖(即前一个时刻结束了,才能进行下一个时刻),因此无法并行计算,训练的时间代价很高。
相比而言,卷积神经网络(Convolutional Neural Network, CNN)能够对一个窗口内的局部上下文信息进行提取,不同窗口间能够并行进行,能够充分利用GPU设备的并行计算能力。因此有人提出了CNN-based NMT模型(ConvSeq2Seq)。为了缓解CNN上下文受限的问题,ConvSeq2Seq模型通过堆叠多层CNN来扩大感受野的范围,同时使用门线性单元(GLU)来控制底层信息向高层信息的传递。不过原则上ConvSeq2Seq还是存在上下文缺失的问题,尤其是序列很长的时候。
最近,不使用RNN、CNN,而是完全通过Attention构建翻译模型(Transformer)取得了很大的成功。Transformer模型使用self-attention机制,即保证了并行训练的速度优势,又能快速的获得序列中任意两个时刻的交互状态,成为了目前最先进的翻译模型。目前小牛翻译系统也采用了transformer model。
翻译记忆的优点是翻译准确高,数据利用率低;机器翻译的优点是翻译准确率低,数据利用率高。如果将二者优势互补,从翻译记忆库中找到与待翻译句相似的源语句子,将该源语句子的译文提供给机器做翻译参考,那么理论上可以帮助生成更好的翻译结果。
包括基于分类的方法和基于排序学习的方法。基于分类的方法,就是采用主流的各种分类模型比如最大熵模型和SVM模型等,把机器译文分为高质量和低质量两类。基于排序学习的方法,主要采用learning to rank技术,将机器译文根据质量好坏进行打分排序。无论哪种方法,机器都可以通过自动的方式将高质量的译文推荐给人工进行修正。
目的是让机器从错误中学习,做到“吃一堑,长一智”。理想的方案是利用人工后编辑的记录,让机器模型自动实时学习“译员的知识”。现实的方案是,人工对机器译文持续“挑错”,将正确的译文(句子或术语)快速反馈给机器,通过不断“打磨” 机器翻译模型的各个细节来提高翻译的整体质量。
目前我们讨论比较多都是大语种的机器翻译系统构建,事实上世界上99%以上的语言对都是资源稀缺型,缺乏大规模的双语数据,无法有效构建高性能的机器翻译系统。为了解决这个问题,学术界提出了基于中介语、zero-shot和无指导机器翻译训练技术等,但仍然面临很多严重挑战。目前小牛翻译参加了国家自然科学基金重点项目—资源稀缺型机器翻译基础理论和关键技术研究,这也是一个重要的研究课题。
机器翻译技术的发展是应用驱动的,通过大数据驱动、真实用户访问日志驱动,可以让机器翻译结果不断更好地满足用户的应用需求。通过学术界与企业界的联手推动,学术界注重机器翻译理论和技术创新,产业界侧重于机器翻译产品和应用创新,我们有充足的理由相信,当前机器翻译产业化正在迎来发展高潮,通过机器翻译帮助全球语言交流无障碍的时机已经来临。