私人微博主题词检测的算法研究

私人微博主题词检测的算法研究咼永兵,周环宇’聂知秘(内蒙古科技大学信息工程学院,内蒙古包头014010)摘要:在分析传统长文本的主题词检测算法的基础上”结合微博数据特有的文本特征,提岀一种"聚类■权重■提取"(clusteringweightingextractionCWE)模式的主题词检测方法,并对其词频、词性以及传统的TF-IDF进行改进。主要综合考虑了微博数据转帖、评论、赞数、内嵌超链接(URL),实验结果证明该方法提取的主题词具有很高的准确性。最后对私人微博的主题词检测的发展方向和用途进行总结和展望。关键词:微博数据;聚类;主题词检测;中图分类号:TP392文献标识码:A文章编号:PrivatemicrobloggingkeywordsdetectionalgorithmresearchGAOYong-bingzZHOUHuan-yuzNIEZhi-mi(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnolog%Baotou014010,China)Abstract:Ontheanalysisoftraditionallongtextkeywords,onthebasisofdetectionalgorithm,combinedwiththefeatureofweibodatacharacteristicofthetext,putfonvarda^clusteringweights-extraction1*(clusteringweightingextractionCWE)modelkeywordsdetectionmethod,andthewordfrequency,partofspeech,andimprovethetraditionalTF-IDF.Mainlyconsidersthedataweiborepost,reviews,praise,inlinehyperlinks(URL),theexperimentalresultsprovedthatthemethodtoextractthesubjecthastheveiyhighaccuracy.Finallybytestingthesubjectheadingsofprivatemicroblogging,summarizeandprospectthedevelopmentdirectionandpurpose・Keywords:Weibodata;Clustering;Subjectheadingsdetection1引言微博是近年来新兴起的,且发展迅速的新闻媒体。用户可以在任何时间、任何地点使用电脑或移动客户端发布状态。其屮关注和分享最新的新闻事件,是用户使用微博平台的重要目的。微博数据⑶具有以下五个特性:(1)海量数据。以新浪微博为例,微博平台平均每天收录将近2亿条帖了,同时用户发帖的频率平均高达1000条/s,这就形成了微博海量数据的特征。(2)短文木性。根据微博平台的规定,每条帖了的长度不超过140个字符,所以对微博数据的处理要考虑其短文本的特性。(3)文本的多样性。由于用户关注的新鲜事件有多种表现形式,除了文字描述还有图片、视频以及超链接,使其微博文本呈现出多样性。(4)即吋性。用户可以通过移动客户端、IM软件和开放的API接口等多种途径去随时随地记录自己的所见所闻,体现了微博数据的即时性。(5)庞大的社交网络。用户间通过“关注与被关注”双向模式形成了庞大的社交网络,同时转发、评论、互赞等功能的引入进一步增加了信息稠密性。主题词的检测一•直是国内外研究的热点,传统主题检测的数据集都是普通的长文本,采用的方法通常是基于向量空间模型和TFIDFo一方面由于微博数据自身的短文木性和多样性,所以采用传统的检测方法无法达到预期的效果;另一方面微博主题词的检测要结合转发数、评论数、赞数以及内嵌的超链接等因索,而传统的主题词检测方法是不能将其以上因素考虑进去的。在分析传统主题词检测方法的缺陷基础上以及结合微博数据本身的特点,本文提出了一种CWE(clustcringweightingextraction)的主题词检测方法。本文的主要创新点冇以下三点:1)改变了传统的先计算关键词的多特征权重值⑵,再根据此权重值进行聚类⑴的模式。本文采取的模式是先聚类,冃的是先锁定用户关注度高但综合权重低的主题词,即聚类关键词;其次计算所冇候选关键词的综合权重,提取一定阀值范围内的分词,即特征关键词;最后合并两次提取结果并消除重复数据得到最终的主题词。2)考虑了微博数据短文本的特征,将传统的TF-IDF⑷公式进行改进,在词频的计算上综合考虑了分词在特定的某个短文木中出现的频率以及指定的文木范围中出现的频率,使得每个候选关键词的TF-IDF值保持相对稳定。3)传统的词性权匝赋值只是单纯地划分为名词、动词等,没冇对具体的词性进行具体的分类。山于名词在表达文木信息的贡献度比较大,而不同名词贡献度也不同,所以本文对名词词性的权重进行了详细地分类。2相关工作随着微...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?