基于DOM树结构的Blog网页自动识别

基于DOM树结构的Blog网页自动识别摘要:针对当前Internet中大量出现的博客网页,通过分析博客网页自身的结构特点和技术特征,结合网页的DOM节点特性,提出了基于DOM树分析和模式匹配的博客网页自动识别算法,并通过实验对本算法进行了验证,指出需进一步完善的研究内容和方向。关键词:博客网页;文档对象模型结构分析;特征发现:TP391文献标志码:A:1001-3695(2008)05-1489-03博客,即Blog或Weblog。这一词源于WebLog(网络日志)的缩写,是一种网络个人信息的发布形式。一个Blog其实就是一个网页,通常是由简短并且经常更新的文章所构成;在文章中可以插入超链接、电子邮件、图像、动画、电影、代码、引用等资源,这些张贴的文章又都是按照年份和日期进行排列的。应该说,博客是一个个人性与公共性相结合的媒介,它充分利用了网络双向互动、超文本链接、动态更新、覆盖范围广的特点。其精髓不是表达个人思想或是记录个人的日常经历,而是从个人的角度来精选和链接互联网上最具有价值的信息、知识与资源,为他人提供共享资源。现在,人们以博客来共享思想与资源,并且进行相互学习的行为已经变得越来越普遍。博客不仅仅是一个流行的媒体表达工具,其内容更是成为了人们认知世界的窗口。近年来,博客的数量正在以每六个月翻一番的速度快速膨胀。Technorati的报告表明,超过11%的Internet用户是博客的读者,并且每天有超过7万的新博客在诞生,同时,每天全球有2000~2400万个博客网页在更新。如此大规模和快速增长的趋势,使得对于博客内容的分析和管理变得愈加重要。而作为博客内容分析和管理的第一步,首先要能够自动化地将博客网页与其他传统网页相区分,以便于后续的内容分析和管理工具能够更为有针对性地进行分析处理。本文的主要研究就是从Internet中自动进行博客网页类型的?┦侗稹*?1博客与传统网页的特性差异??1.1博客的基本特征和功能要素??因为商业和技术发展以及定位的不同,Internet上的博客网站在形式、内容、功能和排版布局等方面均有很大的差异。但是,任何一个博客网站都共同拥有以下五条基本特征和功能要素。只有具备了这样的基本功能特征,才认为其是一个博客网站,也才能成为本文研究的对象。??1)RSS技术――聚合RSS是一种技术规范的简称,是一种遵循W3CRDF规范的XML格式,是一种多用途、可扩展的元数据描述及联合推广格式。它允许互联网站点制作人员为内容整合客户端提供选择性的、汇总过的Web内容。??2)Trackback技术――引用通告Trackback最早是Movable上的功能,后来成为Blog的标准配置,它是一种将全世界无数个Blog连接起来的功能。通过Trackback,用户可以在自己的Blog上就别人发表的某篇文章作评论和延伸,并通知对方引用了其文章中的内容。只要对方的Blog也支持Trackback,在发布自己的文章时,将同时向对方Blog发出一个Trackbackping,向刊载被评论文章的服务器发送用户写的Blog的地址、标题和部分征文。这样当其他人浏览那篇文章时,就能够看到用户的部分评论和正文,感兴趣的话他们还可以通过链接阅读用户评论的详细内容。同样,别人也可以使用Trackback功能对用户Blog中的某篇文章加以评论,在该文章中留下相应的引申链接。??3)Comments――评论也称做回复功能,用户可以借此对该Blog进行评论,这是读者与Blogger相互交流的最直接?┣?道。??4)Archive――归档也称做索引功能,通常是按月份进行Blog文件的归档(也有按分类归档的),便于大家在一个页面就查找到归档日期内的所有Blog文章,通常都生成静态页面,这也是有利于搜索引擎搜录的一个重要手段。??5)tamp――时间戳每个Blog均可以看到的最基本的元素,这也是Blog最基本的特征,根据日期可以检索到当日发表的Blog。??1.2博客网页的主要形式特征??通过对于现有的国内外博客网站和其他技术文档分析了解,笔者发现,从网页类型来看,博客网页主要分为两大类型,即博客的个人首页和具体的文章页。下面就这两个基本类型的网页形式特征进行简要的说明描述。??1)博客个人首页在笔者研究的三十多个国内外知名或少部分不知名博客网站中,博客个人首页是变化最大、个性化最强的网页界面。博客可以...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?