以来我国多语言语料库研究进展

2000年以来我国多语言语料库研究进展〔摘要〕语料库是指根据一定的方法收集的自然出现语料构成的电子数据库。2000年以来我国对多语言语料库的研究呈现快速上升的趋势。在全面文献调研的基础上,本文对我国多语言语料库的研究现状进行了归纳与梳理。国内学者对多语言语料库的研究多集中于语言学领域,其次是计算机领域。研究主题主要分布在多语言语料库的关键技术研究、多语言语料库的应用研究两大方面。〔关键词〕多语言语料库;跨语言语料库;平行语料库;可比语料库;综述〔〕G252.8〔文献标识码〕A〔〕1008-0821(2016)06-0165-06〔Abstract〕Corpusisanelectronicdatabasewhichiscomposedofthenaturalcorpuscollectedaccordingtoacertainmethod.Since2000,theresearchonmultilingualcorporainChinapresentedarapidupwardtrend.Basedonacomprehensiveliteratureresearch,thispapersummarizedthecurrentresearchsituationofmultilingualcorporainourcountry.Theresearchesonmultilingualcorpusweremostlyconcentratedinthefieldoflinguistics,followedbythecomputerfield.Researchtopicsweremainlydistributedintwoparts:thekeytechnologiesofmultilingualcorporaandtheapplicationmultilingualcorpora.〔Keywords〕multilingualcorpora;cross-languagecorpora;parallelcorpora;comparablecorpora;review语料库是指根据一定的方法收集的自然出现语料构成的电子数据库[1]。按语种划分可分为单语言、双语言和多语言语料库,后两者根据语料的组织形式又可以分为平行语料库和可比语料库。平行语料库,又称对齐语料库,是由原文本和对应的翻译文本构成的语料库,语言之间是完全对等的、互译的,是译文关系,多用于机器学习、双语词典;而可比语料库,又称类比语料库,是表述相同主题的多种语言文本的集合源语言和目标语言没有严格的翻译关系,多用于语言对比研究,比如针对同一事件不同语言的新闻报道的集合等。自20世纪90年代初世界上第一个多语言语料库“加拿大议会会议录英法平行语料库”在加拿大建成以来[2],国内外出现了一些多语言语料库,如厦门大学海外教育学院主持开发的英汉双语平行语料库(厦大E-CCorpus)[3]、北京大学中国语言学研究中心开发的汉英双语语料库[4]、北京外国语大学日本研究中心研制的中日对译语料库[5]、香港理工大学研制的双语旅游语料库、上海交通大学的科技英语可比语料库(JDEST)、绍兴文理学院创建的《红楼梦》汉英平行语料库[6]等。国内学者对多语言语料库的研究以双语平行语料库为主,涉及3种及3种以上语种的语料库较少。据笔者统计,英汉语料库的研究文献(包括学术论文、学位论文、会议论文)占总文献的55.9%。语料库的语种以英汉语为主,其次是维汉语,另外还包括俄语、日语、法语、藏语等与汉语的结合。本文研究的多语言语料库包括两种及两种以上语言的语料库。1我国多语言语料库研究数量分布笔者选取CNKI、重庆维普、万方数据库为数据源,以“跨语言语料库”或“双语语料库”或“多语言语料库”或“平行语料库”或“对齐语料库”或“类比语料库”或“可比语料库”为关键词,对期刊论文、会议论文与学位论文进行检索,经筛选得到999篇与“多语言语料库”主题相关的论文,其中学术论文628篇、会议论文51篇、学位论文320篇。具体学术论文数量的年代分布分别如表1和图1所示。从图1可以看出,2000年以来我国对多语言语料库的研究基本呈快速上升的趋势。笔者将其分为3个阶段,第一阶段为萌芽时期(2000-2004年),这一阶段的发文量较少,年均发文量3.6篇;第二阶段为初步发展时期(2005-2009年),发文数量有所增长,但增幅较慢,年均发文37.8篇;第三阶段为快速发展阶段(2010年至今),发文量大幅提升,共发文792篇,占总文献量的79.2%,年均发文132篇。可见,多语言语料库的研究已引起学界足够的重视,成为领域研究热点。2我国多语言语料库研究的主题分布除了检索各种学术论文外,笔者还以“语料库”为主题词对国家图书馆馆藏书籍进行检索,筛选出32种多语言语料库相关的图书,数据采集时间为2015年11月5日。通过对研究成果的深入研读...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?