基于LDA和K均值的微博用户聚类研究

基于LDA和K均值的微博用户聚类研究白友东,庄伯金**(北京有邮电大学信息与通信工程学院,北京100876)5101520253035摘要:近年来互联网飞速发展,微博已经成为信息交流和传播的一个重要的平台。本文以中国最大的社交微博网站新浪微博为研究对象,利用LDA主题模型分析用户关注的话题,然后根据用户关注的话题采用K均值对用户进行聚类。本文首先介绍本文对于用户微博数据的处理框架;接着介绍了各部分的处理方法,其中包括中文分词、去停用词和@信息、TF_IDF提关键词和LDA模型训练,最后给出了本文方法的实验结果和分析。本文提出的方法能够对用户进行较好的聚类,具有较高的准确率。关键词:用户聚类;微博;TF_IDF;LDA主题模型;K均值聚类中图分类号:TP391.4MicroblogUsersClusteringBasedonLDAandK-MeansBAIYoudong,ZHUANGBojin(SchoolofInformationandCommunicationEngeering,BeijingUniversityofPostandTelecommunication,Beijing100876)Abstract:WiththerapiddevelopmentofInternet,theMicroBloghasbecomeanimportplatformofinformationsharing.Inthispaper,westudythelargestsocialnetwork,analyzeusers'topicsbasedonLDAtopicmodel,thenweclusteringusersbasedonK-Meansmethold.Firstly,wedescibetheoverallprocessingframework.Thenweintroduceeachpartrespectively.includingparticipingword,extractingkeywordusingTF_IDF,andLDAtopicmodel.Atlast,wegivetheresultofourexperiment.Theexperimentresultsshowthatourmetholdachieveagoodperformanceonuserclustering.Keywords:serClustering;MicroBlog;TF_IDF;LDATopicModel;K-MeansClustering0引言互联网的出现和普及是人类文明发展史上的一个巨大的进步,它成为信息的存储、加工、传递的一个有效的载体。微型博客(MicroBlog)简称微博,是近年来兴起的一种网络信息分享、交流平台。在微博中发布的字数限定为140字,是一种短消息即时分享的机制[1]。最著名的微博是美国的Twitter,2009年8月新浪推出微博产品“新浪微博”,成为中国第一家微博网站,从此微博开始在国内网民中普及,截止2013年上半年,新浪微博注册用户达到5.36亿[2]。微博是一个极具个性化的传播平台,其中的每个体都自己不同的特性。每个用户所关注的话题领域会有较大的差异。分析用户的信息,根据用户关注的话题对用户进行聚类,将具有相似话题关注话题的用户聚类到一起。根据用户聚类的结果做相应的推荐和广告的投放,将极大的提高推荐的效率。作者简介:白友东(1989-),男,硕士研究生,主要研究方向:多媒体通信与模式识别、数据挖掘通信联系人:庄伯金(1976-),男,副教授,主要研究方向:嵌入式系统,MPEG-2/MPEG-4/H.263/H.264智能转码器设计以及网络编码(NetworkCoding)与视频应用融合技术等.bjzhuang@bupt.edu.cn-1-1用户聚类总体设计40本文中对于用户聚类的设计框架如图1所示。对于一个用户而言,其微博的语料集合为其从注册微博开始所发布的每一条微博的内容。本文中将用户所有的微博聚集在一起作为用户的原始数据。图1用户关注话题聚类框架图455055对于用户语料集合,我们按照图1所示的框架依次进行中文分词、去停用词、去微博@信息、TF_IDF提取关键词和LDA模型训练,最后对LDA模型训练的结果采用K均值进行聚类。2中文分词和去停用词在处理英文文档的时候,文档中的词自然采用空格进行了分隔。在处理中文文档的时候,需要先对文档进行分词处理。本文采用中国科学院计算技术研究所张华平博ICTCLAS2013(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)对微博内容进行分词。ICTCLAS2013可以对分词后的结果进行词性的标注。用户可以方便的建立自己的词典,增加分词准确率。CTCLAS2013中还增加了微博分词的功能,能够对微博主的@信息进行标示。CTCLAS2013的内核已经有10余次升级,分词的准确率高达98.45%[3]。采用CTCLAS2013进行分词之后的数据格式如图2所示。不管/c此次/rz事件/n最后/f结果/n如何/ryv,/wd我们/rr也/d从中/d得到/v了/ule教训/n,/wd今后/t我们/rr会/v严谨/a预案/n事故/n策划/vn,/wd,/wd,/wd提前/v争取/...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?