基于改进线图分析算法的浅层汉语句法分析器的设计与实现

基于改进线图分析算法的浅层汉语句法分析器的设计与实现摘要:针对传统的汉语句法分析算法进行改进,采用了自底向上与自顶向下相结合的线图分析方法,分析、设计和实现了一个汉语句法分析原型系统。该系统实现了基于最大词长匹配算法的分词模块、基于统计方法的词性标注模块和基于改进的线图分析算法的句法分析模块。最后对系统进行小规模中文文本试验测试,测试结果表明利用改进的分析算法,使得句法分析效率和分析结果的准确率均有一定程度的提高。关键词:文本信息处理;汉语句法分析;线图分析法;句法解析器;句法结构:TP391文献标志码:A:1001-3695(2007)09-0164-04随着计算机和Internet的推广应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越高。汉语句法分析在中文文本信息处理领域中占有十分重要的地位,同时它也是公认的一个研究难题。不同于其他西方语言,汉语有许多特殊之处,吸收其他语言研究成果时需要结合汉语的特点加以研究[1]。当前对汉语的研究主要按照词、句子和篇章三个层次开展。其中句子的处理在三个层次中起着承上启下的作用,所以句子处理是一个核心课题。就目前来说,句子处理以自动分词为基础,以句法分析和语义分析为核心。本文工作围绕着句法分析方法和系统展开,句法分析就是应用句法规则和其他知识,将输入句子中的词之间的线性次序变换成语法树形式的数据结构。目前国内很多有代表性的句法分析系统中的汉语句法分析模块都是通过改进已有的经典句法分析算法设计的,不少已在实践中取得了良好的效果[2]。其中,传统的基于规则的方法占了主导地位,这是因为基于规则的方法从汉语句子最本质的特征出发,如构词法、词组构造法、造句法等,从宏观上总结出句法规则。无论汉语的句式结构多么自由,其中蕴涵的最基本的规则是相对稳定的,而且规则易于表达汉语句子成分的构成规律。另外的原因是,经过长时间的发展和不断改进,这类方法已较为成熟,应用在一些实用化的系统中有较高的效率。基于此,本文采用基于规则的线图分析方法进行句法分析,对其改进后,实现了一个句法分析原型系统的开发。1线图句法分析算法线图(chart)分析算法是最通用、简单、直观的句法分析算法。线图就是一组节点和边的集合。简单地说,线图分析算法是一个由日程表驱动的不断循环的过程。按照初始化策略对日程表(agenda)进行初始化处理,如果agenda为空,那么分析失败;否则每次按照日程表组织策略,从日程表中取出一条边。如果取出的边是一条非活跃边而且覆盖整个句子,那么返回成功,将取出的边加入到hart中,执行基本策略和规则调用策略将产生的新边又加入到agenda中[3]。这个算法流程中,各项基本策略均可调整的,通过调整这些策略可以得到改进的chart分析算法。1.1自顶向下与自底向上的句法分析算法使用线图分析算法进行句法分析时,通常采用两种方式[4],即自顶向下分析和自底向上分析。1)自顶向下分析算法在句法分析中,最普通的就是采用自顶向下回溯的分析方法。它逐个地枚举推导直至找到一个能生成输入句子结构的推导。自顶向下的分析是从假设出发的,它假定一个节点可以替换下面的节点,从根到叶逐步分枝,从抽象到具体、从整体到部分。目的很明确,就是要找到与叶相适应的句法结构。2)自底向上分析算法自底向上的并行算法是另一种常用的句法分析方法。这种方法从作为分析对象的句子中的单词序列出发,以自底向上的方式建立一些局部分析,然后从具体到抽象,一步步地归并,最后到达根节点S。因此它首先应该使用N、V等最具体的改写规则,而且要按照规则中箭头所指的反方向使用规则。1.2传统线图分析算法的优点与不足传统线图分析算法的优点表现在可以表示不相连的子树。在自然语言分析中,有时局部的结构分析成功了,但总体的结构分析却不好,使得最后难以形成一棵完整的树。线图可以表示不相连的子树,不一定要求最后必须形成一棵完整的树,可以把局部分析正确的结构以子树的形式保存下来,而不至于将前面的分析抛弃。线图算法可以直观地表示具有多个解释的词。在线图中,如果某个词具有多个解释,则可以把这些解释表示为多重的边,...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?