改进WEB数据挖掘方法及其在个性化推荐中的应用

---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---2010年第6期科技管理研究ScienceandTechnologyManagementResearch2010No.6---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---文章编号:1"00-7695(2010)06-0239-03改进WEB数据挖掘方法及其在个性化推荐中的应用何俊杰陆军$(1.宁波大学网络中心,浙江宁波315211;2.国防科技大学计算机学院,湖南长沙410073)摘要:个性推荐系统在数字图书馆中具有良好的发展和应用前景,逐渐成为电子资源智能处理的一个重要研究內容。提出了一种基于遗传算法的改进WEB数据挖掘方法,同时将该方法应用到数字图书馆中电子资源的个性化推荐中。实验结果表明,本文方法适用于大规模文本数据集;该方法提取规則的分类正确半校高,分类速度校快;本文方法极大地提高了丈本挖掘系统的分类效準。关键词:数据挖掘;个性化推荐;遗传算法;数字图书馆中图分类号:G202文献标识码:A---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除------本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---1引言数据挖掘的核心技术历经了十几年的发展,已经取得了很大的成就。现在,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段⑴oWEB数据挖掘是数据挖掘的一个重要分支,是随着数据库技术、人工智能技术和网络技术的发展而提出的⑵。互联网使得目前数字图书馆中的信息资源更加丰富,但随着信息量的膨胀,用户很难获得符合其偏好特征的信息。为了克服这种信息获取困难,个性化推荐技术被应用到数字图书馆中,从而主动向用户推荐其可能缶要的信息。目前,个性化推荐技术⑶被应用在很多领域.如电子商务、可卜出信息检索等,其中应用较成熟的是基于协作过滤的推荐技术。但在其应用的过程中存在很多问题,如用户评价矩阵的稀疏性、算法的可扩展性等。为了解决这些问题,很多改进的方法先后被提出,如单值分解法⑷、贝叶斯法⑴等,但稀疏性问题均未得到很好的解决,更頂要的是图书馆的读者都有特定专业背景,读者兴趣也有其待殊性。在数字图书馆中对于大多数读者尤其是研究型读者来说,他们的研究兴趣往往集中在某一个(或几个)领域中,对于研究领域中的信息资源具有较多的评价,而对研究领域以外的信息资源评价很少甚至几乎没有。鉴于此,提出了一种基于遗传算法的改进WEB数据挖掘方法,同时将该方法应用到数字图书馆中电子资源的个性化推荐中。文本分类技术岀现于20世纪60年代早期⑸。20世纪80年代,研究人员用知识工程(KnowledgeEngineering,KE)的方法来实现文本分类⑹。KE方法一般采用析取范式(Dis・junctivcNormForm,DNE)为每个类别定义逻辑规则,足一种简单的自然语言处理方法(NaturallanguageProcessing,NLP)。Rmi等采用复杂的词汇一语义模式来实现对自然语言资料库(NalurallanguageforDataBases,NLDB)的分类⑺。Jacobs等采用统计方法来辅助构造分类规则,进一步提高了文本分类系统的性能⑻。采用KE方法实现文本分类需要手工编制规则或应用英它复杂的NLP技术,难度非常大,也非常耗时,在很多场合显得过于低效而不实用⑼。WEB挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程【心。WEB挖掘是一项综合技术,涉及WEB、数据挖掘、计算语言学、信息学等多个领域M。和传统的数据挖掘相比,WEB挖掘有很多的独特之处(⑵。首先,WEB在逻辑上是一个由文档节点和超链接构成的图,因此WEB挖掘所得到的模式可以是关于WEB内容的,也可以是关于WEB结构的。其次,WEB挖掘的对象是大駅的、分布的、异质的WEB文档,它们是结构化的或半结构化的,数据量巨大,增长迅速,并且具有机器难以理解的语义。因此现有的数据挖掘工具并不完全适用于WEB挖掘。这样,开发新的WEB挖掘技术,以及对WEB文档进行预处理得到关于文档的待征表示等问题,便成为WEB挖掘研究的重点。2—种改进的WEB数据挖掘方法本文基于遗传算法的改进WEB数据挖掘方法的优化框架如图1所示。该方法按照顺序覆盖的方法,试图挖...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?