网络级发现服务的实施实践与思考-以北大图书馆未名学术搜索为例_1

网络级发现服务的实施实践与思考以北大图书馆“未名学术搜索”为例3.4检索机制的优化对于借鉴网络搜索引擎的技术框架,基于海量元数据仓储技术的网络级发现服务,衡量其检索效果的核心指标与网络搜索引擎相似,分别为召回率(又称查全率),精度(又称查准率),以及在系统返回的全部相关文档集合上进行的更为精细的相关度得分计算和排序。相应地,在检索机制的优化中,北大图书馆将这三个指标列为重点考量的因素。在大规模数据集合中,召回率和精度这两个指标是相互制约的,需要寻求一个平衡点。对于学术性的资源检索系统,高质量的数据和可靠的召回率至关重要。因此,北大图书馆在改进中文检索机制时的指导思路是:确保高的召回率,在兼顾较高精度的同时,通过相关度排序帮助用户在结果前列快速查找信息。实施小组对检索机制进行了深入的调查和研究,并通过大量实例评测了检索效果,提出了建议的改进方案。在此基础上,与公司负责中文检索的工程师进行了多次集中研讨,根据评测结果分析问题实质并提出解决方法,最终有效地推动公司在随后的几次升级版本中逐步实现相应的改进。3.4.1相关度排序的优化Summon的相关度排序因子包括两方面:动态因子(词频、字段、邻接度等),静态因子(内容类型,时间等),具体算法则基于统计模型。实施小组从用户角度对系统相关度排序效果进行了评测,评测结果可分为两类:一、取得一致的改进意见。例如:标题匹配的记录应该更加提前,完全逐字匹配的记录应该更加提前,中文记录的排序应该考虑语序因素等。相应地,实施中根据测试反馈对相关度排序进行了优化:1.微调个别字段权重。对标题字段权重在可允范围内适当加大。2.对完全匹配记录给予奖励权重。对符合与输入字串完全逐字匹配,甚至整个字段完全匹配的记录给予奖励权重。3.根据中文特点引入语序奖励权重。同等条件下当记录中词串语序与输入语序相同时该条记录提前。二、有争议的改进意见。例如:1.内容类型的权重调整。有的意见认为纸本书目代表图书馆馆藏的优势和特点,应该给予尽量提前;有的意见认为期刊论文的时效性、学术性较高,应该尽量给予提前;还有的意见认为数字特藏最能突出本馆特色,应该尽量给予提前。2.中外文记录的混排。有的意见认为应该将与用户使用界面语种相同的记录提前,或将与用户输入检索词语种相同的记录提前,另外的意见则认为当用户使用某语种界面或使用某语种输入时,对记录的语种属性并无明确期待。对这类评测意见,实施中则保持原状,未做调整。但是,对于面向多种类型和多语种资源的发现服务,如何在繁多资源类型和不同语种之间进行权衡和平衡,是个无法回避的问题,有待进一步研讨。3.4.2中文检索相关提高中文分词的精度和系统对分词歧义的容错性:中文分词技术是所有中文信息处理步骤的基础,分词结果的好坏对中文检索系统的三个核心指标都有影响。北大图书馆通过分词评测(sigHan标准[12])和检索测试,对系统中原来存在的主要分词问题进行了诊断和改进。1.人名和新词识别率较低,往往被切分为单字,导致检索返回大量不相关结果。针对这一问题,分词系统引入后处理模块和专用词典(该词典覆盖了系统元数据作者字段中抽取的高频人名、机构名等,并利用其它数据源进行了大量补充),对分词后不能有效识别的字词碎片,与专用词典进行匹配和二次识别。这种方式在基本不影响召回率的前提下,有效提高了检索精度。2.分词歧义(此处特指真歧义)的存在,对召回率和精度都造成了不利影响。针对这一问题,在索引中对典型切分歧义保留了多重分词路径,使得这些记录不再因为切分歧义而被漏检,在存在歧义的情况下提高了系统召回率。需要说明的是,这种方式对精度有一定的放宽,但通过在相关度排序中计入不同分词路径的权重,对用户体验的影响并不大。优化中文作者字段的查询策略:对未指定字段的检索输入,系统同等地将其解析为对每个字段的查询表达式并分别执行,再将查询结果合并,并按相关度排序。由于中文人名基本不具有变异写法,往往只有严格匹配时才具有检索意义。因此,优化中将作者字段的查询表达式作了更严格的限定,使大量不相关记录被滤除,在基本不影...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?