短中文分词算法优化探究

要采用一定的技术或方法将汉语短语、句子分割成最为基本短中文分词算法优化探究摘要摘要:对中文分词进行研究是自然语言处理的重要步骤,结合字典对短中文进行正逆向分词,在此基础上得到多组分词结果,利用基于统计的方法和基于规则的方法进一步优化算法,根据用户使用频度和网络搜索热度以及词语间的固定搭配规则对多组分词进行排序,并通过实例验证发现该方法具有较好分词效果关键词关键词:中文分词;分词算法;使用频度;搜索热度DOIDOI:10.11907/rjdk.171062:TP312文献标识码:A"6727800(2017)0050042020引言自然语言处理中,词是最小的能独立活动的有意义的语言成分。汉语不同于英语,英语有天然的分割符,而汉语需的词。对于搜索引擎、微博情感分析等具体应用,绝大多数的用户输入的中文语句长度短且无自然分割符(标点符号)b本文重点研究短中文分词算法及其优化方法,提岀了结合基于词典的分词方法,并利用基于统计的方法和基于规则的方法进一步优化算法,并通过实例验证发现该方法对短中文具有较好的分词效果1分口~算法优化思路短中文具有字数少、无自然分割的特点口]。针对短中文可以根据一定的分词方法(例如逆向或者正向的分词方法)将短中文分成几组词,即要有不同的分词词组,并在此分词算法基础上,根据用户的搜索习惯和网络上词的热度,结合固定搭配和语法匹配规则,给出一定概率指标的排名。利用排名来确定分词的词组,从而实现分词的优化,使得分词结果更加接近用户需求[2-4]该优化方法有3个主要步骤,分别是基于字典的分词方法、基于频度的概率指标计算方法和基于规则的概率指标计算方法当用户输入关键词字符串时,会根据分词方法将字符串分成几个组词,这几个组词每一组都有一个分词概率指标P,代表该组分词的匹配概率,也就是该组分词是正确分词的概率。而这个指标P由以下4个因素决定首先,对于一个用户而言,其具有固定的搜索习惯,分析其搜索习惯的信息有助于分析该用户的习惯,从而在用户给定的搜索关键词中找到用户所需要信息。将这一因素对P的比重记为P1其次,一个词在互联网的热度也表明这个词在大众生活中的一种倾向性。例如,某部电影近期很受关注,那么可以预见在近一段时间内针对它的搜索量会增多。对于单个用户而言,它是大众中的一部分,如果在分词分组中出现一个热度很高的词,那么这个分组很有可能就是需要的。因此,将这个因素对P的比重为P2除了频度因素对P的影响外,词的搭配也会对词组产出影响。词与词之间的搭配是固定的,如果分词词组存在这样的搭配,也会增加是该组分词的概率,可以把该因素记为0。词与词之间除了固定搭配,还有语法规则上的搭配,每个词都具有词性如名词、动词、形容词等,这些词与词的组合也会对分词产生影响,该因素记为指标附加值Va综上所述,对于某一搜索词的分词概率指标P可以表示P=aP1+pP2+x0+C+Va(1)其中,c为其它因素,a,0,X为公式中的系数因子。对于不同组的分词来说,C值是相同的2基于短中文特点的分词方法在本步骤中,需要多种分组方法,所以使用逆向与正向相结合的方式[5]。假设字典已经被建立,要从字符串中取出词,首先采用正向方法,设该字符串有L个字符,第一次,取全部的L个字符,然后在字典中查找匹配,如果存在,则该分组为一个有效的分组。如果不存在,那么去掉最后一个字符,即取前1个到第L-1个字符,然后在字典中继续匹配,如果存在,该词即为所需,并将剩下的一个字作为另一个词。同样,如果不匹配,为了加快匹配的进度,去掉上一步最后的两个字符,即取第1到第(L-1)-2个字符,如果匹配,则该词是需要的,并将剩下的词按此方法继续匹配,如果仍然不匹配,就按((L-1)-2)・3这样来继续减少字符串长度来进行字典匹配,直到把该字符串的第一个词从左到右取出来。至此,取到了从左到右的第一个词。需要再从右向左取第一个词,按照同样的方法,只不过这次是从右到左,找到第一个从右到左的词。结合这两个词,如果这两个词的长度加起来等于字符串长度,那么就是一个分组,如果加起来长度小于字符串长度,那么将这两个词之间的字符串取出来,按上述步骤,再次进行分词,直到将词取出完按照正逆序结合...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?