基于Item-Based协同过滤农业高校图书个性化推荐算法研究

下载本文档

ID 1148830
格式 docx
大小 252.83 KB
约11页
收藏
点赞(0)
海报
举报

/ 11

下载本文档

文本预览下载提示常见问题

基于ItemBased协同过滤农业高校图书个性化推荐算法研究赵鹏博+韩宪忠+王克俭摘要：针对高校用户对图书的个性化需求，运用用户对图书的评分，构建了基于Hadoop和Mahout的图书推荐系统。通过Hadoop中分布式文件系统（HDFS）和Map/Reduce计算模型的应用，发现当Hadoop中节点数不断增加时，计算时间不断减少，实时响应效率得到了提高；通过对Mahout中传统的Item-Based聚类协同过滤推荐算法进行改进，利用MAE值对传统和改进后的协同过滤算法进行比较，发现图书推荐的精度进一步提高。总体来说，推荐系统改善了传统单机运行内存严重不足和推荐结果不精确的问题。关键词：高校图书馆；个性化推荐算法；协同过滤算法；大数据：G258.6+62：A：0439-8114（2017）06-1150-05DOI：10.14088/j.cnki.issn0439-8114.2017.06.040Abstract：Forpersonalizedbookneedsofusersatcollegesanduniversities，webuildabookrecommendationsystembasedonHadoopandMahoutusingthescoresgivenbyusers.ThroughtheapplicationofHadoopdistributedfilesystem（HDFS）andMap/Reducecalculationmodel，wefoundthatthecalculationtimeisreducedwhilereal-timeresponseefficiencyisimprovedwiththeincreasingofthenumberofnotesintheHadoop.ThroughtheimprovementoftraditionalItem-Basedcollaborativefilteringrecommendationalgorithm，whichisbasedonitemclusteringintheMahout，wecomparethetraditionalcollaborativefilteringalgorithmswiththeimprovedcollaborativefilteringalgorithmsbyusingMAE，andfindthattheprecisionoftherecommendationisfurtherimproved.Ingeneral，thisexperimentimprovestheproblemofout-of-memoryfortherunningoftraditionalsinglemachineandtheinaccurateresultsofrecommendation.Keywords：universitylibrary；personalizedrecommendationalgorithm；collaborativefilteringalgorithm；bigdata隨着图书馆事业的发展，用户对图书馆资源的使用提出了越来越高的要求；为读者提供有针对性的服务，成为图书馆发展中所面临的具体任务之一。在建设智慧图书馆中，国外个性化图书推荐服务已经比较成熟，但国内个性化推荐系统尚不完善[1]。目前国内大部分高校图书馆都是通过输入关键词进行模糊搜索，然后列出只和关键词相关的书籍，没有达到智能以及个性化推荐的效果。在借阅图书的过程中，用户过去产生的行为分为显式用户反馈与隐式用户反馈两种，主要包括浏览页面、搜索图书、收藏图书、借阅图书、评论图书、图书评分等用户行为[2]。本试验通过显式用户反馈中的图书评分，推荐出在校学生和老师感兴趣的书，达到一个图书个性化推荐的效果。河北农业大学图书馆每天产生大量的数据信息，单机运行无法满足实时响应的效率。在处理大规模海量数据时，许多研究者将其设计的协同过滤算法部署于Hadoop并行化平台，以期在保证结果准确的前提下，通过Hadoop提高协同过滤算法执行的效率。Mahout提供了Hadoop并行化算法的接口，本试验将Mahout中提供的基于项目聚类协同过滤算法与Hadoop中Map/Reduce计算模型和分布式文件系统（HadoopDistributedFileSystem，HDFS）进行结合，改进原来的推荐算法，设计出河北农业大学高校图书推荐系统。该推荐系统由Application业务系统、Mahout计算框架、Hadoop集群组成，解决了海量数据环境下算法实施的效率及推荐的精准性问题。1图书推荐系统环境1.1Hadoop与MahoutHadoop包括HDFS和Map/Reduce2个子项目。HDFS由1个名称节点（NameNode）和多个数据节点（DataNode）组成[3]。NameNode管理和维护着系统中所有文件的索引目录，记录每个数据块节点的位置。DataNode存储着用户数据，实时被Namenode调用，并且定时向NameNode发送更新的数据列表信息。Map/Reduce并行编程框架[4]用于处理大规模计算机集群上的海量数据，该模型具有良好的扩展性及高容错性；集群中的Map/Reduce框架是由运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。当一个Job被提交时，JobTracker接收到提交作业和配置信息之后，就会将配置信息等分发给TaskTracker，TaskTracker...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供参考，付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等，请点击“举报”。