英汉翻译模板的标准化方案及其应用-中国科学院计算技术研究

英汉翻译模板的标准化方案及其应用1李玉鑑北京工业大学,计算学机学院,多媒体与智能软件技术北京市重点实验室,北京100022E-mail:liyujian@bjut.edu摘要:在机器翻译系统中,模板可以作为一种知识表示的方法,其规模的大小和组织的策略将极大地影响系统的整体性能。本文对英汉翻译模板的标准化问题进行了探讨,提出了一个初步方案,并将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模模板库的根底上开发高质量的英汉翻译系统提供了可能性。在2005年举行的863评测中,本文开发的英汉翻译系统到达的水平:对话翻译人工评测忠实度和流利度分别为73.62和68.16篇章翻译人工评测忠实度和流利度分别为41.16和31.45。关键词:机器翻译;翻译模板;标准化中图分类号:T391.2AStandardizationStrategyofEnglish-ChineseTranslationTemplatesandItsApplicationsLiYujianCollegeofComputerScienceandTechnology,BeijingUniversityofTechnology,Beijing100022,ChinaBeijingMunicipalKeyLaboratoryforMultimediaandIntelligentSoftwareTechnologyE-mail:liyujian@bjut.eduAbstract:Inmachinetranslationsystems,templatescanbeusedasaknowledgerepresentationmethod,theirscaleandorganizationwillgreatlyinfluencethewholesystem’sperformance.ThispaperstudiesthestandardizationproblemofEnglish-Chinesetranslationtemplatesandpresentsaninitialstrategyforit.ByapplyingittodesignandimplementasomewhatsuccessfulEnglish-Chinesetranslationsystem,weshowthatthestrategyisusefulandpracticable,anditprovidespossibilitiestodevelophigh-qualityEnglish-Chinesetranslationsystemsbasedonalargescaleoftemplatelibrary.Inthe“863”evaluationof2005,theEnglish-Chinesetranslationsystemofthispaperreachesscoresof73.62Adeqand68.16Fleufor“dialogtest〞aswellas41.16Adeqand31.45Fleufor“articletest〞.Keywords:machinetranslation,translationtemplate,standardization1.引言现有的机器翻译方法主要分为基于规那么[1-4]、基于统计[5-11]和基于例子[12-14]这三种。但是由于自然语言的极端复杂性,目前还没有一种分析策略能够彻底解决机器翻译系统所涉及的各种难题。为了综合利用这三种方法的优点,同时克服各自所存在的问题,一种常用方法是把多种翻译策略有机地集成在一起,以实现各种策略之间的优势互补,改善系统的性能[15-17]。在机器翻译的研究中,除了综合集成多种策略外,另一种重要方法是加大处理粒度[18],其根本思想是利用单义的语块〔Chunk〕代替多义的单词,并给以中心词的标注,目的是为了简化处理的句型,化解机器翻译的歧义问题。基于语块的方法是近年来在自然语言领域兴起的一条新思路[19],目前关于单语语块的研究已经取得大量成果[21-24]。一个可以代替Chunk进行机器翻译的概念是模板〔Template〕。简单的说,模板可以看作是一个带有变量的Chunk,而Chunk那么可以看作一种不带变量的模板。用模板代替Chunk,可以使很多Chunk合并成一个模板,因此模板在语料库中出现的频率要比作为其特例的Chunk大。所以,为了刻划一个语料库中的语言现象,所需要的模板数量将远远少于所需要的Chunk数量,虽然一个模板具有的歧义可能要比一个Chunk的歧义多,但是常常可以消解模板中单个词的多种歧义。本文讨论了模板的定义,对英汉翻译模板的标准化问题进行了探讨,同时提出了一个初步方案,并通过结合句法分析技术和模板匹配替换通用算1北京市自然科学基金资助工程(No.4052005)、北京市教委科技开展工程〔No.Km200310005013〕第1作者信息:李玉鑑,男,1968年生,博士,副教授,主要研究方向为自然语言处理、模式识别、生物信息学---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---法将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模英汉翻译模板库的根底上开发高质量的英汉翻译系统提供了可能性。2.模板的定义和说明在各种自然语言中都存在...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?