截止目前累计成功为5,000,000 用户成功查重检测

CNCNKI学术不端文献查重检测系统 多语种 图文 高校 期刊 职称 查重 抄袭检测系统

深度神经网络在统计机器翻译词对齐模型上的应用

时间:2016-08-26 11:53:00 编辑:知网 阅读:

第1章 绪论

    机器翻译( Machine Translation, MT )是采用电子计算机进行自然语言之间的翻译的一门新兴的实验学科[1]。 作为自然语言处理过程中的其中一个主要的任务,机器翻译同时也在人工智能领域中成为一个重点课题,与句法分析、语义理解和自然语言生成等计算语言学( Computational Linguistics )核心理论课题联系紧密。知网论文查重

利用机器来自动地翻译语言的想法自古就有,但真正让这一想法能够成为一门自然科学下的学科却是在计算机发明之后。1949年,美国洛克菲勒基金会副总裁Weaver发表了一份以Translation为题的备忘录[2],提出了机器翻译这一问题。在这份备忘录中,他提出了三个值得我们重要关注的论点:

1)他提出了各种语言都有许多共同的特征。

2)他认为翻译类似于解读密码的过程。他说道:“当我阅读一篇用汉语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读之时,我是在进行解码的工作。”

3),他认为原文与译文“说的是同样的事情”。因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“中间语言”(Interlingua),转化为语言B,这种“中间语言”可以认为是我们全人类所能共同所有和理解的。

现在,计算机不论是在速度上,还是在容量上都有了极大的改进,并且大量的联机语料可供统计使用,因此,20世纪90年代,基于统计的机器翻译又兴盛了起来。

然而,人类语言本身复杂多样,很多语句都具有歧义性,并且同一句话在不同的语境都具有不同的语义,当代计算机系统对自然语言的理解仍然停留在一个很低的阶段。在这种限制下,机器翻译的结果能够真正符合出版的要求,甚至能够达到“信,达,雅”的要求,仍然有十分艰深的困难需要去克服。

深度学习,作为一种崭新的机器学习方法,能够自动去学习抽象特征表示,建立输入与输出信号间复杂的映射关系,给统计机器翻译提供了新的思路。本论文也正是就探索神经网络学习的方法,对统计机器翻译中的词对齐问题进行研究,从而为最终实现完善的机器翻译系统作出努力。

 

1.1论文背景

随着交通技术和互联网的飞速发展,世界不同国家、不同语言、不同文化的人们的交流日益增加,这种跨语言跨文化的交流变催生了对翻译技术翻译人才的需求剧增。传统人工翻译能够提供高质量的翻译,世界上也产生了很多脍炙人口的优秀翻译成果和翻译故事。但是,传统翻译产业也面临着效率低下,成本高昂和翻译人才的培养周期长的问题。所以与其想办法改善传统翻译,倒不如将目光转换到机器翻译这种高效,相对低成本的方式上来。在这种情形下,借助人工智能技术,让机器来进行不同语音不同文本的翻译,将成为未来的一个趋势。

机器翻译大致可以分为基于规则的机器翻译(Rule-Based Machine Translation , RBMT )和基于语料库的机器翻译 ( Corpus-Based Machine Translation, CBMT ) 两种。

基于规则的机器翻译过程一般分为分析、转换、生成三个阶段。这三个阶段具体表示如下:

1)原文分析。分析原文的形态和句法结构。

2)原文译文转换。把原文词转换为译文词,并进行原文和译文之间的转换。

)译文生成。生成译文的句法和形态,输出译文。

而基于语料库的机器翻译可以分为基于实例的机器翻译 ( Example-Based Machine Translation , EBMT )和统计机器翻译 ( Statistical Machine Translation , SMT ) 两种。这两种都是使用语料库作为翻译知识的来源,所以可以统称为基于语料库的机器翻译。在统计机器翻译当中,知识的表示的统计数据,而不是语料库本身,翻译知识的获取是在翻译之前完成的,翻译过程是不再使用语料库的。

近十年来,统计机器翻译得到了深入的发展,提出了多种统计机器翻译模型;其中最重要的工作是基于短语 ( phrase-based )的翻译模型的提出[3]。基于短语的统计翻译系统从跨语言的词汇对应关系出发,从数据中抽取互译的短语片段作为机器翻译的基本单元;由于翻译短语对能够直接记录丰富的翻译现象,相比于词汇级别的机器翻译系统[4],翻译性能得到了极大的提升。但是,基于短语的翻译系统也面临着一系列问题,其中一个重要的问题是:

翻译短语的获取问题:给定机器翻译训练语料,我们需要自动地从中抽取虎威翻译的短语片段,作为机器翻译系统的基本处理单元。获取翻译短语对的主流方法是通过在双语数据上进行词汇对齐,然后依据词汇对齐的结果,使用启发式的规则进行短语抽取[5]。词汇对齐是获取高质量翻译短语对的前提条件;词汇对齐效果的质量决定了机器翻译后续处理的基本单元( 翻译短语对 )的质量。

针对上述问题,机器翻译的研究人员做了一系列相关的深入研究工作。一种重要的尝试就是引入大量的词汇、句法特征对翻译现象进行更好的描述。基于词汇的特征是一种稀疏的高维特征,在双语数据有限的情况下,不易得到准确的估计,容易出现过度拟合现象,而且词汇特征对于长距离、短语级别的翻译描述能力有限;句法特征虽然能在一定程度上对于语言中的递归结构进行描述,但是句法特征依赖于句法分析的结果,而现在句法分析技术不够鲁棒,效果不能达到预期。

最近几年,深度神经网络技术在自然语言处理中得到了广泛的关注。深度神经网络技术在自然语言任务中的作用主要有以下几点:

1)学习自然语言基本处理单元的低维表示。

2)利用重现神经网络对于自然语言处理中的序列预期问题进行建模。

3)利用递归自动编码器、递归神经网络对于自然语言处理中的树状递归结构进行建模。

深度神经网络能够自动地对自然语言的各种对象学习新的表示,为解决自然语言处理中稀疏特征容易出现过拟合、对语言结构缺乏描述的能力提出了一种新的思路。本文的工作就是探索如何使用深度神经网络来对统计机器翻译中的词对齐问题进行更好的描述,从而机器翻译的性能。

1.2论文结构

本论文的结构安排如下:

第一章介绍本论文的研究背景和论文的组织结构。

第二章简要介绍相关研究领域的现状。此章节分为两个部分:一部分介绍机器翻译的发展历史和最新成果;另一部分介绍神经网络和深度学习研究领域的概况,着重介绍其在自然语言处理领域的新发展。本章节是本论文的工作基础。

第三章介绍将神经网络学习方法结合到词对齐的机器翻译的基本问题的探索工作,并通过相关实验验证每种方法的有效性。这章是本论文的核心。

第四章对本论文的工作进行总结,并对未来的研究工作作出展望。

返回