基于主题模型的短文本查询扩展算法

基于主题模型的短文本查询扩展算法刘润楠,陈光**(北京邮电大学信息与通信工程学院,北京100876)510摘要:近年来,微博短文本语料下的信息检索需求日益突出。查询扩展作为信息检索领域的关键技术,对于查询结果的优化具有非常重要的作用。本文提出了一种基于Bayes-LDA模型的微博语料建模方法,该模型能够在保证建模质量的基础上对微博短文本的完整建模;并设计了基于以上模型的微博语料查询扩展算法,其核心是将Bayes-LDA的建模结果应用于特征词的生成与选择、查询结果重排序等操作,从而提高短文本查询的效果。实验结果表明,该算法在TREC2011年微博评测的数据集中的多种主要性能指标均优于BM25伪相关反馈方法。关键词:自然语言处理;查询扩展;LDA模型;短文本;贝叶斯理论;伪相关反馈中图分类号:TP391.415SHORTTEXTQUERYEXPANSIONBASEDONTOPICMODELLiuRunnan,ChenGuang(SchoolofInformationandCommunicationEngineering,BeijingUniversityofPostsand2025303540Telecommunications,Beijing100876)Abstract:Inrecentyears,therequirementofmicroblogretrievalisbecomingmore.Asakeytechnologyinthefieldofinformationretrieval,queryexpansionisvitaltooptimizeretrievedresults.ThispaperproposesaBayes-LDAbasedmodelingmethodonmicroblog.Themodelcanguaranteethequalityandcompletenessofthemodelingonshorttextssuchasmicroblogs.Wedesignaqueryexpansionalgorithmbasedonthismodel.ItscorethoughtistoapplythemodelingresultsofBayes-LDAtothegenerationofexpansionfeaturesandthere-rankingofsearchresults.TheexperimentsshowthatthisalgorithmhasabetterperformanceofvariousindicatorsontheTREC2011MicroblogevaluationcorpusthantheBM25pseudo-relevancefeedbackmethod.Keywords:NaturalLanguageProcessing;QueryExpansion;LDAModel;ShortTexts;BayesianTheory;Pseudo-relevanceFeedback0引言近年来,微博已经成为一种混合了社交网站的属性及大众媒体的作用的新型网络应用,在热点新闻和各类信息发布中的重要性愈发显现,并深刻影响着社会舆论的走向。面对数以千万计的、实时更新的微博数据,用户需要一种方便快捷的方式获取信息。因此微博短文本语料下的信息检索需求日益突出。但是目前包括微博在内的短文本搜索仅仅是基于原始查询的简单检索,查询效果和用户体验都很难的到保障。产生这种现象的原因如下:首先,由于微博发送量巨大,关键字匹配的方法得到的查询结果很多,且中文微博中转微博比例大,导致返回结果出现很多相同内容;另一方面,因为短文本长度限制,包含信息量有限,且口语化严重,书写随意,由此这类搜索方式得到的结果非常不利于用户获取信息。这就需要我们在现有搜索框架的基础上,针对短文本语料的特性设计有效的搜索结果优化策略。文献[1]将伪相关反馈方法提取的扩展词分为3类,使用单主题平均准确(meanaverage---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---作者简介:刘润楠(1988-),男,北京邮电大学在读硕士研究生,web多媒体搜索与挖掘通信联系人:陈光(1978-),男,北京邮电大学硕士研究生导师,信息检索、文本挖掘及可视化.chenguang@bupt.edu.cn-1----本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---precision,MAP)加以判断。文献[2]将伪相关反馈的相关文档进行聚类,按照不同类别抽取45扩展词。在文献[3]中,将经典的PLSA模型以用于伪相关反馈,利用PLSA划分相关文档主题,可以在文档次与主题词间建立基于共现形式的映射特点,按照不同的主题抽取扩展词,改善抽取的扩展词的质量,同时能抽取不同主题的扩展词。1Bayes-LDA模型建模501.1短文本语料下LDA建模分析LDA模型在文本建模领域应用广泛。考虑对于微博语料的处理,一种最为直观的处理方式就是将每一条微博原文作为一个单独的文档,应用经典LDA算法[4]建模。主题模型是一种无监督的挖掘算法,因此该建模算法非常容易应用,但学界研究表明[5],由于LDA模型的建模效果受到文本内容长度影响较为严重,而微博类...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?