中文分词歧义消除初探

中文分词交集型歧义消除初探摘要:歧义消除是中文分词中的难点,也是关键。本文探讨了中文分词的现状,并对交集型歧义的采集和消除方法作了介绍,旨在提高消除歧义的效率。本文通过文献阅读和实验调查等方法探讨消除歧义的有效方法,提出了将双字耦合度和t-测试差两种方法结合起来。最后实验证明,将双字耦合度和t-测试差结合起来的方法是一种消除歧义行之有效的方法。关键词:中文分词;歧义消除;交集型歧义中图分类号:TP391.1APreliminaryStudyonChineseWordSegmentationAmbiguityEliminationAbstract:AmbiguityeliminationisthedifficultyinChinesewordsegmentation,anditisalsothekeyproblem.ThispaperdiscussedthepresentsituationofChinesewordsegmentation,andtheacquisitionandeliminationmethodsofintersectionambiguityareintroducedinordertoimprovetheefficiencyofambiguityresolution.Inthispaper,aneffectivemethodtoeliminateambiguityisdiscussedbymeansofliteraturereadingandexperimentalinvestigation.ItisproposedtoCouplingDegreeofDoubleCharacterandDifferenceofT-test.Finally,itisprovedthatthemethodofcombiningtheCDDCandDifferenceofT-testisaneffectivemethodtoeliminateambiguity.Keywords:Chinesewordsegmentation;Ambiguityelimination;Intersectionambiguity1引言中文分词是文本分类、信息检索、信息过滤等中文信息处理系统的基础,也是关键技术。没有中文分词,任何更加深入的中文信息处理都无从谈起。但是中文文本不同于英文文本,英文文本词与词之间有空格相隔,存在明显的界限,而中文文本中词是字的组合,词与词之间并没有明显的界限。由于中文文本的这种性质以及现有技术的制约,中文分词达不到百分百的准确,存在切分错误,也就是切分歧义。识别并消除切分歧义,能够提高中文分词的精度。2中文分词简介2.1中文分词概念中文分词就是将一段由字组成的文本切分成由词组成的文本的过程。例如,句子“我是一个学生”,切分后的结果是“我/是/一个/学生”。中文分词主要存在两个难点,一是歧义识别,也就是一个字串有两种以上不同的切分结果,例如“国家规定”,可以切分成“国家/规定”和“国/家规/定”,但是第二种切分结果在语义上并没有意义,我们如何识别歧义,并消除歧义,这是中文分词中的一个难点。中文分词的第二个难点是对未登录词的处理。未登录词就是没有在词典中出现过的词。词典是词的集合,我们可以通过将一个字串在词典中匹配,以判断该字串是否是一个词。未登录词包括实体名词和专有名词,例如人名、地名和机构名,也包括专业术语和新词语。2.2中文分词研究现状从上世纪80年代开始,语言学界和计算机界的诸多学者对中文分词进行了研究,并出现了大量的研究成果。早期进行中文分词研究的是北京航空航天大学的梁南元和刘源教授接下来有上海交通大学王永成教授和东北工学院的姚天顺教授。目前研究中文分词技术的主体是科研院校,如清华大学、北京大学、中国科学院和微软中国研究院,此外,研究中文分词的商业公司有海量科技。典型的中文分词系统有如下几个。北京航空航天大学的CDWS系统是我国第一个实用的中文分词系统,首次论证了自动中文分词的可行性,初步建立了一个描述书面汉语的计算模型,对自动分词的有关概念和术语给出了明确的定义,首次对歧义切分字段进行了分类。清华大学先后研制开发了SEG、SEGTAG分词系统。整个系统首次提出了全微分的概念,即找出输入字串的所有可能的字串,分词结果取其中的最佳字串序列。复旦大学的分词系统对中文姓氏的自动辨识达到了70%的准确率,对地名和一些领域专有词汇也能进行一定的识别。中科院的ICTCIAS分词系统是一套获得广泛好评的分词系统,使用完美大规模知识库管理技术,使用该技术可以管理百万级的词典知识库,分词速度达到500KB/s,分词精度达到98.45%。[1]目前,中文分词还在处于迈向成熟的阶段。3分词算法简介3.1基于词典的分词算法基于词典的分词算法又称为机械分词算法,它是按照一定的策略将待分析的汉字串与一个“充分大的机器词典”中的词条进行匹配,若在词典中找到某...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?