基本命名的计算机自动识别

基本命名的计算机自动识别摘要:以概念层次网络(HNC)概念基元符号为基础,探索汉语语句中基本命名的构成方式与特点,为计算机识别基本命名提供了关键信息。最后在语料中对规则进行了测试并给出了结果。关键词:基本命名;构成;规则;概念层次网络:TP311.5文献标志码:A:1001-3695(2007)07-0016-030引言??汉语理解处理需要从语言层面映射到概念层面来进行。在对汉语文本进行理解处理时,对于连用的两个或多个字,应作何种切分并不重要,重要的是连用后的内容效应,即它们是否应作为一个整体的语义单位来理解。这种语义单位也就是汉语理解处理意义上的词。因此,对汉语文字文本的处理重点是合而不是分。从此种意义上说,什么是词并不重要,重要的是对多字的组合结果有清晰的认识。字知识库要对汉字每个义项的意义及其组合能力有准确而全面的描述,即在文本自动处理中单字是如何积字成词、成短语、成语义块的。??据统计,原国家语委汉字处制定的《现代汉语常用字表》中的2500个常用字可以覆盖97.97%的汉语文本,1000个次常用字覆盖率达1.51%,合计(3500字)覆盖率达99.48%。这是汉语“字义基元化,词义组合化”特点的充分体现;表明为数有限的充分基元化的汉字是汉语特有的结构元,同时也是汉语中最基本的概念基元。用这些汉字及其组合能描述汉语中的绝大多数概念。??基本命名是HNC所谓动态新词的一种类型。这里所指的动态新词,是指在文本处理中,由两个或多个字串接而成的、经过辨认处理后需要作为一个意义单位进行理解的组合成分。例如在“张三打碎了杯子”一句中的“打碎”是动态新词。这是因为在理解处理中,需要把“打碎”看做是全局的特征语义块,同时“碎”字又有动词义项,存在单独做特征语义块的可能,会干扰对全局特征语义块的判断。可见,这里所谓的动态新词与传统语言学对新词的定义并不一致。后者是从分词的角度认为“打碎”不是一个词,而应该切分成“打”和“碎”两个词;本文认为“打”与“碎”应该组合为理解处理过程中的一个意义单位。??动态新词实质上是词典上未收录或没必要收录的汉字优先组合的意思,是汉字“积”的意思;它是概念空间的语义单位,与语法学上定义的词并无联系。它包括两种基本类型,即动态动词新词和动态名词新词。动态名词新词即是基本命名。所谓基本命名是人们依据一定的命名构成模式对客观事物的指称。这些命名构成模式是建立在对现有基本命名归纳概括的基础上的。人们对新事物的命名往往依据已有的命名构成模式来进行,由一定的构成模式可以派生出许多对新事物的命名,而这类命名往往不见于词表中。对命名构成模式的分析并辅之自动识别机制,会提高汉语处理系统对名词新词的识别效率。某一基本命名内在构成模式的揭示,关键在于揭示这一基本命名中各个单字之间的语义组合关系。??汉语命名的习惯是表达事物范畴的核心字在命名最后,修饰说明成分在前。因此,汉语中的基本命名以偏正型组合为主。下面列出三组典型的基本命名:??玻璃杯,铁皮车;搅拌机,屠宰刀;成绩榜,风景画。??碰到一个新的基本命名时,人们一般可以依据潜在的基本命名构成模式的知识推知其基本含义。例如,人们可以通过“割草”“机”两个字词的含义就可以理解“割草机”是一种用于割草的机器。而对于无法经过辨认分析理解其含义的命名,可以将其收录进词库中,如表达台湾海峡两岸政党及民众意思的“两岸”。如果在词库中不存在,由于两者的含义无法通过对字的组合分析得到,从汉语信息处理的角度而言,它们应作为应登录词看待。如果基本命名已经非常常用,可以考虑登录进词库中,如“货车”等。??对于基本命名的处理一般来说属于串内处理。串内处理是指以语串为基本处理单位的种种作业。基本命名处理主要包括基本命名之人造物概念处理、基本物概念处理、结构概念处理、物化概念处理、信息物概念处理以及两类特殊概念的处理等内容。??1基本命名构成特征分析??因为汉语的特点,基本命名构成词语语义的重心往往是最后一个字词,如“青石路”“保卫部”等。重心可以是一个单字,也可以是一个多字词语,如“修理工人”“勘探设备”等。该文主要是对单字情况的处...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?