现代汉语语法信息词典的开发与应用

现代汉语语法信息词典的开发与应用*朱学锋俞士汶王惠【摘要】现代汉语语法信息词典是为计算机实现汉语句子的自动分析与自动生成开发的一部机器词典,它以数据库文件形式收录了5万多条现代汉语的词语,不仅给出了每个词语所属的词类,而且详细描述了它们的各种语法属性。本文介绍这部语法词典的开发历程、内容概要和设计思想,并且举例说明在自然语言处理系统中如何应用这部语法词典。关键词:现代汉语、语法信息词典、机器词典、自然语言处理TheDevelopmentofContemporaryChineseGrammaticalKnowledgeBaseanditsApplicationsZHUXuefengYUShiwenWANGHuiInstituteofComputationalLinguistics,PekingUniversityBeijing100871,P.R.CPhone:2501892AbstractTheContemporaryChineseGrammaticalKnowledgeBaseisamachinedictionary,whichisdevelopedforautomaticanalysisandgenerationofChinesesentences.Thereareabout50,000Chinesewordsandidiomsintheknowledgebaserepresentedbydatabasefiles.Theknowledgebasenotonlygivespartofspeechforeachwordoridiom,butalsodescribestheirvariousgrammaticalattributes.Thepaperintroducesthedesign,thedevelopmentandtheoutlineoftheknowledgebaseandshowsitsapplicationsinnaturallanguageprocessingsystemswithexamples.Keywods:contemporaryChinese,grammaticalknowledgebase,machinedictionary,naturallanguageprocessing1.现代汉语语法信息词典的开发历程十年前,中文输入技术的主流还是汉字编码,以词为单位进行输入也只是汉字输入的陪衬。北大计算语言学研究所在1986年提出了一个语法规则制导的以语句为单位的中文输入方案,并在一年多的时间内实现了。参考文献[1]深入浅出地介绍了这个方案的原理与实现技术。这个方法中就包含了一部电子词典,除了词条及每个词的检索特征(拼音、起笔、末笔等)外,还包括词类及细分的子类。这部词典成为现代汉语语法信息词典的基础。作为中国七五攻关项目“自然语言理解与人机接口”中的一个子专题,俞士汶于1987年提出了开发“现代汉语词语语法信息库”的计划[2],把研究重点放在词语语法属性的描述上。恰逢此时,中国著名语言学家朱德熙先生承担了全国社会科学规划领导小组下达的*本项研究得到中国八五攻关项目与国家自然科学基金的支持“现代汉语词类研究”的攻关项目。从此,北大计算语言学研究所与中文系的研究者们在朱德熙先生的率领下开始了联合攻关,并结成了稳定的合作关系。1990年,“现代汉语词语语法信息库”取得了阶段性成果,通过技术鉴定。在讨论八五攻关项目时,以中国工程院院士、中国中文信息学会理事长陈力为教授为代表的中国一批自然语言处理技术专家敏锐地觉察到,为了中文信息处理技术的发展,特别是语言信息处理技术的发展,有必要建立通用的应用开发平台[3][4]。这个大型语言工程将现代汉语语法信息词典(以下有时简称为“语法词典”)列为它的一个子专题。从1991年起北大计算语言学研究所承担了这个子专题的研制任务。本项研究继承了“现代汉语词语语法信息库”的成果,又经过5年的努力,现在本项研究已完成如下任务:(1)制订了现代汉语语法信息词典的规格说明书与开发方略[5];(2)建立了面向信息处理的现代汉语词语分类体系并完成了关于这个分类体系的研究报告[6];(3)明确了词语的收录范围与选词原则[7];(4)探讨了某些词类的子类划分[8];(5)语法词典本身的开发,这当然是最繁重、最艰巨的任务。到目前为止,语法词典收录的词语总数为5万多条,并且将这5万多词都归了类,按照规格说明书填入了语法属性信息,其中百分之七十经过了仔细的、多遍的、不同角度的校对。按照应用开发平台工程总体组的布署,北大已将语法词典的部分内容提交给其他子专题开发组使用。最近,负责句法规则的研究者告知,语法词典对句法分析提供的语法知识是有价值的,也是相当充分的。对于开发者来说,这当然是莫大的安慰与鼓励。另外,北大计算语言学研究所与中国科学院计算所联合开发“汉英机器翻译模型系统”,与北京通字公司联合开发“面向通用图像码的自然语言生成系统”,与自然科学基金...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?