图书情报工作国内中文自动分词技术研究综述

国内中文自动分词技术研究综述*奉国和1郑伟21华南师范大学经济管理学院,广州5100062河北北方学院理学院,张家口075000〔摘要〕分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为了分词技术中的难点。论文全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。〔关键词〕中文分词分词算法歧义消除未登录词分词系统〔分类号〕G354ReviewofChineseAutomaticWordSegmentationFengGuohe1ZhenWei21SchoolofEconomics&Management,SouthChinaNormalUniversity,Guangzhou5100062CollegeofScience,HebeiNorthUniversity,Zhangjiakou075000[Abstract]Wordsegmentationisoneofthekeytechnologyfornaturallanguageprocessingsuchastextauto-classification,informationretrieval,informationfiltration,documentauto-index,summarizationauto-generationetc.,Chinesewordsegmentationisdifficultprobleminwordsegmentationbecauseofit’scomplexityanduncertainlanguagerulesinnature.ThispapersumsuptheresearchcomprehensivelyofChinesewordsegmentationalgorithm,disambiguationmethod,unknownwordrecognition,auto-segmentaionsystemsetc.andsummarizesChinesewordsegmentation’sresearchdifficultpointsandhotpointstoday.[Keywords]ChineseWordSegmentationWordSegmentationAlgorithmDisambiguationMethodUnknownWordRecognitionWordSegmentationSystem中文分词是文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理关键技术及难点。经过广大学者共同努力,过去20多年中文分词取得可喜进步,黄昌宁、赵海[1]在四方面总结了取得的成绩。笔者利用CNKI全文期刊数据库,以“中文and分词”、“汉语and分词”、“自动and分词”等为检索条件,检索时段为1987年-2010年9月11日,进行篇名检索,经筛选分别得到相关研究论文214、191、165篇,通过文献归纳总结出该领域研究现状、研究内容、研究热点与难点,并展望其发展。1中文分词基础理论研究中文分词理论研究可归结为:三种主要分词算法及组合算法研究、中文分词歧义消除、未登录词识别与分词与词性标注评测研究。1.1分词算法研究衡量分词算法优劣标准是分词速度与精度,各种算法围绕精度与速度展开。目前分词算法很多,大致可归纳为:字符串匹配方法、理解分词方法、统计分词方法、组合分词算法。1.1.1词典分词方法·算法词典分词方法按照一定策略将待分析汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,该方法需要确定三个要素:词典、扫描方向、匹配原则。比较成熟的几种词典分词方法有:正向最大匹配法、逆向最大匹配法、双向最大匹配法、最少切分等。实际分词系统,都是把词典分词作为一种初分手段,再通过各种其它的语言信息进一步提高切分的准确率。词典分词方法包含两个核心内容:分词算法与词典结构,算法设计可从以下几方面展开:①字典结构改进;②改进扫描方式;③将词典中的词按由长到短递减顺序逐字搜索整个待处理材料,一直到分出全部词为止。·词典结构*国家社科基金项目:自动文本分类技术研究(编号:08CTQ003)。词典结构是词典分词算法关键技术,直接影响分词算法的性能。三个因素影响词典性能[2]:①词查询速度;②词典空间利用率;③词典维护性能。Hash表是设计词典结构常用方式,先对GB2312-1980中的汉字排序(即建立Hash表),然后将其后继词(包括词的属性等信息)放在相应的词库表中。孙茂松等[3]设计并实验考察了三种典型的分词词典机制:整词二分、TRIE索引树及逐字二分,着重比较它们的时间、空间效率。姚兴山[4]提出首字Hash表、词次字Hash表、词次字结构、词3字Hash表、词3字结构、词4字Hash表、词4字结构、词索引表和词典正文的词典结构,该结构提高查询速度,但增大存储开销。陈桂林[5]等介绍了一种高效的中文电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度,并给...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?