基于SNS的微博个性化推荐系统研究与设计

基于SNS的微博个性化推荐系统研究与设计方勇杨佩诗黄培金张芳芳【摘要】文章介绍了SNS及推荐系统的相关概念,阐述了系统使用的关键技术,对SNS环境下的微博个性化推荐系统进行了总体设计和需求分析。【关键词】SNS;微博推荐系统;协同过滤:G250.76;TP391.3:A:2095-2457(2019)25-0038-002DOI:10.19694/j.cnki.issn2095-2457.2019.25.017ResearchandDesignofPersonalizedRecommendationSystemforMicroblogBasedonSNSFAGNYongYANGPei-shiHUANGPei-jinZHANGFang-fang(CityCollegeofDongguanUniversityofTechnology,DongguanGuandong523106,China)【Abstract】ThispaperintroducestherelatedconceptsofSNSandrecommendationsystem,expoundsthekeytechnologiesusedinthesystem,andcarriesouttheoveralldesignandrequirementanalysisofpersonalizedrecommendationsystemformicrobloginSNSenvironment.【Keywords】SNS;MicroblogRecommendationSystem;CollaborativeFiltering0引言近年来,随着互联网的发展,社会性网络服务(SNS)规模逐渐变得越来越大,微博是其中一种非常流行的社会化网络产品,成为人们共享信息的网络平台。由于社区的开放性与广泛性,信息爆炸的问题日益严重[1]。用户在网络社区中的角色要求不再是简单的信息接受者与传递者,而是信息管理者,希望能获取具有价值性的信息。如何对SNS中庞大的用户信息进行数据挖掘,获取用户的兴趣,提供个性化推荐服务功能,将是SNS社区发展的重要方向。1关键技术介绍现在SNS社区应用进行的好友推荐一般是根据用户的共同好友数进行推荐。结合SNS社区特点,解决SNS社区现在所存在的两个问题,即信息价值下降和人际交互强度减弱。结合微博推荐系统的特点,本项目采用以下推荐技术。1.1协同过滤的推荐协同过滤(CollaborativeFiltering)[2]是推荐系统中应用最早和最成功的技术之一吗,分为user-base,Item-based,model-base三种方法。系统将采用协同过滤算法user-base。根据Pearson公式求出用户间的相似度1.2短文本的分类技术传统的KNN、SVM[3]、神经网络、朴素贝叶斯法、统计法算法不能满足以信息量大、数据特征稀疏、含有大量未登录词为特点的短文本分类要求。本项目将结合多重经典文本处理方法来解决短文本分类问题,改进传统的文本分类技术数据集倾斜问题、短文本高维度问题、短文本稀疏性问题。其处理流程如下:在文本预处理阶段,用VSM方法把样本特征向量化,其中使用TF-IDF来计算词的权重问题。在特征项抽取阶段,在本系统中采用了词和类别的互信息量进行特征项抽取的判断标准,其算法过程如下所列:而P(W)同上面的计算公式相同,只是计算词在所有训练文本中的比重,其中,为全体训练文本数。stepthree:对于该类中所有的词,依据上面计算的互信息量排序。stepfour:抽取一定数量的词作为特征项,具体需要抽取多少维的特征项,目前无很好的解决方法,一般采用先定初始值,然后根据实验测试和统计结果确定最佳值,一般初始值定在几千左右。stepfive:将每类中所有的训练文本,根据抽取的特征项,进行向量维数压缩,精简向量表示。2总体设计与需求分析2.1总体功能构架基于SNS的微博个性化推荐系统功能结构图如下图(图2)所示,包括微博及广告推荐、社區发现及核心交际圈推荐。2.2应用功能模块规划(1)数据抓取模块:直接调用API从微博的服务器端获取数据储存在本地数据库中。需要抓取的数据包括:用户转发过的微博,用户的好友关系,微博的信息等,需要储存在本地数据库的数据包括:用户的好友关系。(2)挖掘模块:分为四个模块,为:社团发现模块、中文分词模块、中文短文本分类模块、协同过滤模块。社团发现模块是用于在人际网络图中利用社团发现算法挖掘出用户的核心交际圈。协同过滤模块是根据用户的兴趣特征即兴趣标签[4]所喜欢的程度进行协同过滤处理,找出用户对新的兴趣标签所喜欢的程度。其目的是在兴趣相近的人中找出用户可能该兴趣的标签,即增加用户的兴趣特征。(3)表现形式模块本模块在本项目中至关重要,因此一个应用是否吸引人一般情况下首先是依靠其界面是否吸引人,推荐结果后的表现形式分为两...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?