基于页面分块与信息熵的评论发现及抽取

基于页面分块与信息熵的评论发现及抽取摘要:提出了一种新颖的REA(ReviewExtractAlgorithm)算法进行评论信息的发现与抽取。算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。其中,页面分块技术的运用有效地去除了噪声信息;基于块的熵值计算精确定位了每一个用户评论。实验结果证明该算法具有较高的查全率与查准率。关键词:评论抽取;自动;语义块;熵??中图法分类号:TP311.13文献标识码:A:1001―3695(2007)02―0269―03随着电子商务的迅猛发展,越来越多的商家开始进行网上销售,并且也有越来越多的人选择网上购物。为了能让潜在用户了解已购买过某产品用户的满意程度与购买经验,多数商家都会要求用户对所购买的商品进行评价,以便为潜在用户提供购买参考。结果使得Web上关于某类产品的评论信息迅猛增长,潜在用户难以阅读这些众多的评论信息,从而难以帮助他们进行购买取向的决策。对产品的评论信息进行抽取与分析的工作就显得非常必要。近年来,众多研究者对评论抽取技术作出了深入研究,提出了具有重要价值的有效算法。然而,针对目前复杂多样的Web页面,进行评论抽取工作主要存在以下问题:①网页页面结构复杂,页面中含有大量的与主题无关的信息,这些无关信息称作噪声信息。这些噪声信息的存在将大大影响信息抽取的质量。②一个网站内部各个网页的结构大致相同,但各个网站之间的网页结构却千差万别。这就要求采用一种更为通用的信息抽取方法,能够对这些千差万别的网页进行统一处理,从而使算法适用于所有页面。??一般地,针对Web页面的信息抽取方法主要包括手工抽取和自动抽取。手工抽取是通过观察一个网页的源代码,找出其具体模式,然后手工编写代码对目标信息进行抽取。这种方法面对现在数量惊人的Web页面显得费时费力,是完全不可行的。自动抽取的方法主要利用Wrapper(Wrapper是一个从网站上抽取目标信息的程序),该方法主要利用了监督学习的思想。首先将一些手工标记的网页作为训练集,通过对训练集的学习生成抽取规则;然后利用学习到的规则对新页面进行信息抽取。这种方法在一定程度上具有自动抽取的能力,但是这种方法仍然需要大量的人工去准备训练集,并且一个Wrapper只能适用于一种形式的页面,所以它仍然浪费大量的人力和时间。Wrapper的系统包括Softmealy[6],WIEN[7]等。??基于以上原因,笔者提出了一种基于页面分块和信息熵的评论发现与抽取算法――REA(ReviewExtractAlgorithm)。REA算法充分考虑了信息抽取的自动性与通用性,利用页面分块与信息熵的迭代计算技术实现了对各种评论页面中评论信息的自动抽取。??1相关工作??1.1页面分块??通常,一个Web页面包含了不同的语义块,这些语义块都是不相关的,因此将整个页面看作一个不可再分的整体是不合适的。于是,国内外很多专家学者开始进行页面分块的研究,即将页面分割成多个语义块,使块内主题尽可能地相关于同一主题。对页面进行分割以后:①可以直接去除一些无用信息块,如导航信息和版权信息等;②对语义相关的块进行操作,而不是整个页面,这将大大提高信息检索的质量。??针对页面分块,使用较多的是基于DOM(DocumentObjectModel)树的方法[4,9,10]。然而,由于HTML语法的灵活性,很多页面并没有遵循W3C规范,因此在构建DOM树时就有可能产生错误。此外,DOM树最初的引入是为了便于在浏览器中显示,并不能描述页面的语义结构。VIPS算法[1]的提出弥补了DOM分割的不足,在原有DOM方法的基础之上结合了视觉信息对页面进行语义块划分。本文利用了VIPS算法对页面进行分块处理,VIPS的工作主要分为三步:(1)将Web页面解析成DOM树结构,之后从DOM树中抽取所有合适的块。??(2)从抽取的块中找出分离因子,进行页面的划分。??(3)构建整个页面的内容结构。??VIPS算法的过程是这三步的一个循环过程。页面首选被分为几个大的语义块,并且记录下此层分割的层次结构。对每一个大的语义块,相同的分割算法循环调用,直到最终语义块的DOC值大于预先设定的PDOC值为止。DOC与PDOC的定义如下:??定义1DOC(DegreeofCoherence)用来测量每个可视块的相关程度。DOC值越大说明块中内...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?