主题信息搜索系统中的搜索策略研究

主题信息搜索系统中的搜索策略研究摘要:针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基丁内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%0关键词:搜索引擎;搜索策略;遗传算法;空间向量模型中图分类号:TP319文献标识码:A文章编号文章编号:16727800(2014)001008904基金项目基金项目:中央高校基本科研业务费专项资金项目(ZZQ10011)作者简介作者简介:张小琴(1974),女,中南民族大学图书馆馆员,研究方向为智能移动代理、下一代搜索引擎;王晓辉(1988-),男,中南民族大学电信学院硕士研究生,研究方向为下一代搜索引擎。0引言主题信息搜索系统服务于特定的应用领域,其任务是获取与主题相关的页面,无需遍历全网。在主题信息搜索系统中,搜索策略是影响系统性能的关键。常用的主题搜索策略有:基于网页链接结构的搜索策略和基于索策略,Fish算法[3]和Shark算法[4]是基于内容评价的搜索策略。这些搜索策略存在主题漂移、忽略链接结构信息,以及在预测网页的重要程度方面存在不足等问题。基于此,木文在目前常用的主题爬虫Heritrix[5]框架基础上,将遗传算法与基于内容的空间向量模型相结合改进其搜索策略。通过在搜索的初始阶段引入高质量的种子集合,搜索过程中结合Hub网页对主题的贡献,以及向量空间模型対于网页主题的判断,进行交叉变异操作。这一方面提高了网页的搜索质量,另一方面也扩大了搜索范围。1向量空间模型及相似度计算在主题信息搜索系统中,文本特征表示是关键的一步[6]。在大规模文本处理中,向量空间模型[7]是一种效率较高的文本表示模型,是当前对自然语言处理时采用的主流模型。向量空间模型(VectorSpaceModel:VSP)是把文本的内容简化处理后,生成在向量空间中的向量运算,并利用在空间中的某种关系来表达语义上的相似程度。当某一文档被确定为空间向量模型时,通过计算向量的相似度来衡量文档Z间的相似性。向量空间模型的基本要素包括:①文本内容(Document):通常指某个网页中所有文字信息内容;②项(Tenn):指字、词语、词组等基本单位要素;③权重(Weight):对于某个含冇M个项的文本内容X(Tl,T2,T3,…,TM),项被赋予一定的权重,体现项在文木中的重要程度,可表示为D=(Tl,Wl,T2,W2,T3,W3…,TM,WM);④空间模型(VSM):设一文本X(Tl,T2,T3,…,TM),为了方便分析,不考虑那些重复出现且有先后次序的项,把Tl,T2,T3,…,TM看成是一个M维的坐标,Wl,W2,W3…,WM分别对应坐标的值,这样D二(Tl,Wl,T2,W2,T3,W3…,TM,WM)被视为一个M维的向量。权重的计算是基于词频TF,项的词频是指某个单词在文本中出现的次数,TF的值越高权重就越大。本文对TF作归一化的权重计算,将文本中所有项对应的TF值在[0,1]Z间进行归一化处理。可采用以下几种方法:(1)最大值归一化:Wi二TFiMaxiTFi。(2)加强最大归一化:Wi=0.5+0.5XTFiMaxiTFio(3)余弦归一化:Wi二TFiEiTF2i。文木相似度是反映两个文木之间相关程度的统计量,相似度的数值一般定义为[0,1JZ间,如果文本Z间的相似度为L说明两个文本完全相同,完全不同时为0,可以借助空间向量模型进行评价。在空间向量模型中,相似度的计算方法有内积法、距离函数法、Jaccard系数法、余眩法,本文采用余弦法进行相关度计算。利用文档中出现的词条对文档建立D=(Tl,Wl,T2,W2,T3,W3…,TM,WM)的空间向量模型。假设Di、Dj是要计算相关度的页面,页面的相关度是计算两个页面向量的余弦值。计算公式如下:Sin(Di,Dj)二cos8二刀Mk二lWi,kXWj,kFMk二lW2i,kEMi二lW2j,k2算法设计结合遗传算法和基于文本内容的空间向量模型,利用遗传算法的全局查优特点保证搜索的整体性,以空间向量模型确定主题相关度。将遗传算法应用到主题信息搜索系统中进行查找链接,在查找过程中不断选择变异优化,对搜索过程进行启发式引导。把待搜索的页面集看作遗传因子,首先初始化种子集合,通过爬虫...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?