中文分词算法研究与分析

中文分词算法研究与分析摘要:屮文分词作为搜索引擎以及自然语言处理的重要组成部分,是当前这一领域的研究热点和难点之一。文中首先分析了中文分词的特点,包含基于字符串匹配分词算法、基于统计分词算法、基于理解分词算法这三大类的各种中文分词算法。并通过分析和对比,对各种中文分词算法进行了总结与展望。关键词:中文分词;字符串匹配分词;统计分词;理解分词中图分类号:TP393文献标识码:A文章编号:2095-1302(2016)01-00-030引言早在上世纪80年代,我国就出现了第一个自动屮文分词系统。屮文分词的研究工作主要在国内,其研究机构主耍为国内高校实验室及研究室,例如,中科院计算所数字化研究室的汉语词法分析系统ICTCLAS.北大计算语言学研究所的分词系统、微软研究院自然语言研究所的MicrosoftResearch汉语句法分析器,还有北京师范大学、南京大学等高校的分词系统以及当前较好的商业软件海量科技公司的海量智能分词等[llo随着对中文分词研究的深入,中文分词的准确度及速度都在逐步提高。其准确度从80%提高到99%左右,速度从几百宁每秒提高到几十万字每秒。当前,搜索引擎已然发展成为我们口常生活、工作、学习中不可或缺的工具。常见的搜索引擎有百度搜索、Google搜索、搜狗搜索、360搜索等。搜索引擎,即指把收集到的文档、网页进行索引,建立起索引数据库,且用户可通过查询关键词进行全文检索操作。作为当今互联网中最具技术含量的应用产品之一,搜索引擎涉及到的技术十分复杂,主要包括“分词一索引一搜索”。由此可见,分词在搜索引擎中占据十分重要的地位。当前的中文分词算法非常多,是比较热门的研究方向Z-O因此,本文将对中文分词算法进行研究与分析。1中文分词特点英文的基本单位是词。因此,英文分词就相对来得简单些。因为英文中词与词之间以空格为分隔符,通过空格的切分就可以进行英文分词。在英文分词中,大体需要进行的步骤有:通过空格分隔符,分割字符串得到单词组;进行大小写字符转换;停用词过滤;词干分析提取。而中文分词就相对困难许多。因为中文的基本单位是字而非词。即中文中的字、句、段才冇明显的分割线,而词却没有明显的分割线。因此,计算机很难如同英文分词那样通过分隔符进行中文分词。中文分词在分词中主要面临的难点有如下4点:(1)容易产生歧义。中文词由字与字组合而成,相同的一段文字在中文分词中可能因为产生不同的划分而产生歧义。在汉语使用中,由于英使用的灵活性、多样性等特点,相同的词在不同的语境屮也有可能表示不同的意思。(2)中文词的规则、结构较为复杂。当前,词的概念仍旧不明确,没有统一、严格的非形式的定义。并口中文的同音词较多,语法尚未规范化。(3)中文单词数量较为庞大。常用的中文单词有十儿万,而随着社会的发展,新的词汇、网络流行语也不断出现。(4)未登录词的识别。对于基于词典的屮文分词算法,词典的完整性程度犬大影响分词的效果。而由于新词的不断增加,词典则常有一些未登录词,这使得基于词典的中文分词算法难于识别那些未登录词。2中文分词算法分析当前,中文分词算法主要有三大类,即基于字符串匹配的分词算法、基于统计的分词算法以及基于理解的分词算法。其屮,基于字符串匹配的分词算法是根据某种分词策略将耍分词的字符串和一个“足够人”的词典进行匹配,从而切分出中文单词;基于统计的分词算法则是通过统计相邻字与字之间的联合出现概率來判断是否是一个单词;基于理解的分词算法是在中文分词时进行句法、语义分析,并利用句法信息和语义信息来处理歧义现象。而这三类屮文分词算法即代表着屮文分词算法的研究三大方向。2.1正向最大匹配算法正向最大匹配算法[2,3]是基于字符串匹配分词算法的一种,采用“长词优先”的切分原则进行中文分词。其思想是从左到右依次扫描,取词典屮最大长度的字符串作为当前的匹配字段;查询词典并与之匹配。如果匹配成功,则将其作为一个中文单词切分出当前匹配字段;如果匹配失败,则去掉当前匹配字段的最后一个字,剩下的字符串作为新的当前匹配字段,重复匹配;循环操作,直至当前匹配字段的字数为1;重复正向最大匹配过程,直至切分出所...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?