BLOG社区发现研究

学术论坛BLOG社区发现研究王婷(湖北经济学院计算机学院湖北武汉430205)摘要:介ftTBlog社風鼻*特杠及社区发现的几种典型方法.分析了Blog社区发现的基水桓条.总结了社区复观枚术中存A的H«t農方何。关縫词:blog社区岌现数携挖播:TP393文獻标识码:A:l674-098X(2008)ll(b)-0197-011Blog社区网络日志WebLog■简称博客(Blog).口misI弘x*.i-t=1.»rzu-I-曰#4邑:上疋WitT-EPV—TTHS水疋IF令刁吸者以H志形式进行交Q的媒介。它由一系列表达作者(Blogger)个人的想法.感悟.技术讨论等带有时间H期标签的帖子(post或entry)组成,包含读者的评论.指向其他Blog的blogroll链接和来自其他网站.Blog评论的trackback链接。Blog的更新较快■一般按post发表时间的倒序排列°W€b社区,简称社区•由具有相同兴趣的暇位和个人所组成丁他们通过共同认可的网页讨论某个主题。社区内所有成员网页与其他成员网贞间的链接数都应大于它和社区外页面的链接数。社区有些是明确定义过的,比如新闻组(NewsGroup).商帽(Webring)和某些门户网站的待定内容频道。由于网络资源众多R更新迅速,也存在大谊隐含的社区。早期Blog的聚合程度比较低,随善BlQg.的快i朿发展和影响■力的逐麻壇加,其社群形成效应也渐渐显示出来。Blog社区与传统Web社区很大的不同。传统社区中•讨论的是同一主题,而BIOR是一个高度个人化的空间.Blogger可能会发表很多不同主题的post,读者也有相当一部分是岀于对Blogger本人而非某个主题的兴趣而发表评论,所以可能存在更多的隐含社区。2Blog社区发现算法•・・••••■■••••**•■•*•社区发现M以采用人工的方法•但效率低下•成本高昂。自动化和半自动化的社区发现技术近年来已成为研究热点。社区发现把社区看作一个图•页I6L作者或站点是图的节点•节点间的联系是图的边。传统Web社区按不同的实现途衿可分为基THITS(hyperlink-inducedtopicsearch)算法的技术、基于有向二分图的技术和基于网络流址的技术⑼。这些发现方祛可以用来发现Blog社区■但效率不髙•研究者们也提出了一些专门针对Blog的算法。其中,基干流量.基于内容分析和慕下相互感知的方法是比较有代表性的几种。2.1基于流量的社区发现基于浹显的社区发现方法的基础是页面间的相互引用。关注同一话题的Blogger间可能并不知道对方的存在•但他们可能引用了相同的网页。典吃算法是WP(weakestpairs)。Wp算法将页而分为Post与非Blcg的w已bpage两个巢合•两个集合间形成一个引用矩阵R。通过矩阵运算计算节点间的关系強度。为了去除无用的引用链接和结点・WP算法寻找关系j弱的结点对•然后找到这对结点间白路絵■把逋过吊短路径频率最斋的¥制除,得到的由结点和链接边组成白子图都被认为是一个社区。2.2基于内容分析的社区发现社区的中心都是一个或几个壬于内容分析的社区发现方法对Blogn^xa行筛选•根据内容的相关度来发现社区。首先为标題、文章和评论设工不同的权值,从内容中筛去已设定好的高频无用词,如上沙发二孤•然炷根療词语的出现频來和权值得到主题词.再利用利用度、密度、中心度等参数来分析.挖掘出社区。23基于Blog间相互感知的社区发现社区的形成来自于blogger的post.而该posl被阅渎焙可能后产生与讨论话題相关的post.基于感知的社区发现方法对特定的行为如阅读.拷贝.另作以及行为发生的频率和时间赋以概率值,由概率决定丕同的相感知度以此侄为图中边的权值•然后便用这芋養数进行隐含社区的推理发现。3Blog社区发现各类社区发现算法对于表示社区的图的理解都有区别•所以町能适用于不同的数据集,但无论采用哪种算法,社区发现的过程大体上循如卜•步骤。3.1选择数据集数据氮可•以菜用二些i平测机构如TREC等的数据,也可以直接从网络中抓取,利用网络爬行誥从Internet±搜集网页信息。在爬行过程中•对毎个获取的网页内容进行分析,只下我并保留Blog信息,包括Bloj?站点的uri.文章.评论.trackback链接等•然洽将信息存人数据库中。3.2数据的分析与建模社区可以抽仪为图的形式,但对不同的方法而吉,图的意义各不相同。在数据分析阶段,应对数据进行筛选•去除項复及无效数摇•并根据对图的定义来抽取出需要的...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?