机器翻译方法的研究现状_史树敏收稿日期:2003-06-29作者简介:史树敏(1978-),女,内蒙古包头市人,内蒙古师范大学硕士研究生.机器翻译方法的研究现状史树敏(内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010122)摘要:对几种常见的机器翻译方法的特点和适用性等问题进行了深入的讨论.分析了机器翻译面临的主要困难和技术难点.关键词:自然语言;机器翻译技术;机器翻译方法;特点;难点:TP391.2文献标识码:A:1011--8735(2004)02--0165--05机器翻译的研究工作已经进行了许多年,虽然目前还没有完全实现机器翻译代替人工翻译的目标,但已经取得了很大的成就[1~3].本文综述了机器翻译方法的现状,分析了几种常见的机器翻译方法的特点和适用性,以及机器翻译面临的主要困难和技术难点.1机器翻译方法机器翻译的重要特点是处处体现了机器的思维方式,所有方法都有一种心理学的解释,但都是对人的思维过程的某一个侧面在某种程度上的模拟.如最早的图灵试验,在检验机器是否能思维时,就是对行为主义心理学进行的定义测试和解释.每种机器翻译方法都有其适用性,如基于实例的方法和基于统计的方法就属于“经验主义”的方法范畴.所谓经验主义(Rationalism)是指以大规模语料库的分析为基础的方法,又称为基于语料(Corpus-Based)的方法,分为基于统计(Statistics-Based)和基于实例(Example-Based)两种方法.他们通过大规模的双语或多语料进行概率运算,依照各语言要素间的相似程度来构造语言模型,从而进行机器翻译;与“经验主义”对应的是“理性主义”(Empiricism),它是指以生成语言学为基础的方法,也称为基于规则(Ruler-Based)的方法,这是传统的也是一直占主导地位的机器翻译方法,又可分为基于转换(Transfer-Based)和基于中间语言(Interlingua-Based)两种方法.通过人工或机器辅助,先构造供翻译用的词语信息库和句法语义规则库,通过知识表示、知识推理、分析生成等步骤来进行机器翻译.经验主义方法的特点是较少对源语言和目标语言进行分析,而是直接在词串上进行处理[4,5].目前,机器翻译系统主要有基于规则转换的系统、基于实例的经验系统和基于词转换的统计系统[6],呈现出三足鼎立的局面.每种方法各有千秋,但又都不能胜任一切.1.1基于规则的机器翻译方法自从Chomsky提出转换生成语法以来,基于规则的方法成了机器翻译研究的主流.虽然统计方法的崛起对规则方法形成了一定的冲击,但在已有的商品化机器翻译系统中,很少有哪个系统声称自己采用的是纯统计(或语料库)的方法.基于规则的方法现在已有了很大的变化,传统的规则方法在规则获取方面主要依靠语言学家总结规则进行调试,而现在更加注重从语料库中获取规则,如采用错误驱动的学习算法.另外,传统的规则方法往往偏重于描述粗粒度、全局化、大范围的语言学知识,现在的方法则呈现出“小规则库、大词典”的趋势,更加重视描述细粒度、局部化、小范围的语言学知识.在知识表示方面,为了以更小的粒度,更准确地对翻译知识进行描述,一般要对单纯的与上下文无关的规则加以改进.一种方法是采用特征结构合一算法,另一种是采用词汇化的方法对规则细化,后者就是下面将要提到的基于模板的方法.另外,传统的规则方法往往采用非此即彼的确定性原则,系统的鲁棒性比较差,现在方法一般都引入各种概率或评分函数,对提高第33卷第2期2004年6月内蒙古师范大学学报自然科学(汉文)版JournalofInnerMongoliaNormalUniversity(NaturalScienceEdition)Vol.33No.2June2004收稿日期:2003-06-29作者简介:史树敏(1978-),女,内蒙古包头市人,内蒙古师范大学硕士研究生.机器翻译方法的研究现状史树敏(内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010122)摘要:对几种常见的机器翻译方法的特点和适用性等问题进行了深入的讨论.分析了机器翻译面临的主要困难和技术难点.关键词:自然语言;机器翻译技术;机器翻译方法;特点;难点:TP391.2文献标识码:A:1011--8735(2004)02--0165--05机器翻译的研究工作已经进行了许多年,虽然目前还没有完全实现机器翻译代替人工翻译的目标,但已经取得了很大的成就[1~3].本文综述了机器翻译方法的现状,分析了几种常见的机器翻译方法的特点和适用性,以及机器翻译面临的主要...