基于私人微博的主题词检测

基于私人微博的主题词检测咼永兵J周环宇/聂知秘(内蒙古科技大学信息工程学院,内蒙古包头014010)摘要:在分析传统的长文本的主题词检测算法的基础上,结合微博数据特有的文本特征,提岀一种"聚类-权重-提取"(clusteringweightingextractionCWE)模式的主题词检测方法。主要综合考虑了微博数据转帖、评论、赞数、内嵌超链接(URL),实验结果证明该方法提取的主题词具有很高的准确性。最后对私人微博的主题词检测的发展方向和用途进行总结和展望。关键词:微博数据;聚类;主题词检测;中图分类号:TP392文献标识码:A文章编号:SubjectheadingsdetectionbasedonpersonalweiboGAOYong-bing,ZHOUHuan-yu,NIEZhi-mi(SchoolofInformationEngineering,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,China)Abstract:Theanalysisofthetraditionalkeywordsdetectionalgorithmonthebasisofthelongtext,onthebasisofcombinedwiththefeatureofweibodatacharacteristicofthetext,putforwarda"clusteringweights・extraction*1(clusteringweightingextractionCWE)modelofkeywordsdetectionmethod.Mainlyconsidersthedataweiborepost,reviews,praise,inlinehyperlinks(URL),theexperimentalresultsprovethemodeltoextractthesubjecthastheveryhighaccuracy.Finallybytestingthesubjectheadingsofprivatemicroblogging,summarizeandprospectthedevelopmentdirectionandpurpose・Keywords:Weibodata;Clustering;Subjectheadingsdetection---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除------本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---1引言微博是近年来新兴起的,且发展迅速的新闻媒体。用户可以在任何吋间、任何地点使用电脑或移动客户端发布状态。其中关注和分寧最新的新闻事件,是用户使用微博平台的重要日的。微悶数据⑶具有以下五个特性:(1)海量数据。以新浪微博为例,微博平台平均每天收录来口用户发布的将近2亿条帖子,Ifu发帖的频率平均高达1000条/s,形成了微障海最数据的特征。(2)短文本性。根据微博平台的规定,每条帖了的长度不超过140个字符,故对微[専数据的处理都是针对短文本的。(3)文本的多样性。由于用户关注的新鲜事件有多种表现形式,除了文字还有图片、视频以及超链接,使其微博文本呈现出多样性。(4)即时性。用户通过移动客户端、IM软件和开放的API等多种途径去随时随地记录白C的所见所闻,体现了微博数据的即时性。(5)庞大的社交网络。用户间通过“关注与被关注”双向模式形成了庞人的社交网络,同时转发、评论、互赞等功能的引入增加了信息密集度。主题词的检测一直是国内外研究的热点,传统主题检测的数据集都是针对普通的长文本,采用的方法通常是基于向虽空间模型和TFIDFo一方面由于微博数据自身的短文木性和多样性,采用传统的检测方法无法达到预期的效果;另一方面微博主题词的检测要结合转发数、评论数、赞数以及内嵌的超链接等因索,而传统的主题词检测方法是不能将其以上因素考虑进去的。所以分析传统主题词检测方法的缺陷以及微博数据木身的特点,提出一种CWE(clustcringweightingextraction)的主题词检测方法。本文的主要创新点冇以下三点:1)改变了传统的先计算候选关键词的多特征权重⑵,再根据权重值进行聚类⑴的模式。本文采取的模式是先聚类,冃的是先锁定用户关注度高但综合权重低的主题词,即聚类关键词;其次计算所冇候选关键词的综合权重,提取阀值范围内的分词,即特征关键词;最后合并两次提取结果并去除重复数据得到主题词。2)结合了微博数据短文本特征,将传统的TF-IDF⑷公式进行改进,在TF的计算上综合考虑了一个词在特定的某个短文本中出现的次数以及整个文本中出现的次数,使得每个关键词的TF-IDF值具备相对稳定性。3)传统的词性权匝赋值只是单纯地划分为名词、动词等,没冇对具体的词性进行具体的分类。山于名词在表达文木信息的贡献度比较大,而不同名词贡献度也不同,所以本文对名词词性的权重进行详细的划分。2相关工作随着微博的广泛应用和移动...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?