大数据下基于Spark的电商智能推荐云平台的研究

大数据下基于Spark的电商智能推荐云平台的研究【摘要】本文在“互联网+”背景下对基于Spark的电商智能推荐云平台进行了研究。首先阐述了该平台研究的意义、Spark技术的主要功能和系统架构,最后探讨了基于Spark的电商智能推荐云平台的设计。【关键词】大数据;Spark;智能推荐;云平台:TP391.3:A:2095-2457(2018)26-0105-002DOI:10.19694/j.cnki.issn2095-2457.2018.26.0450引言随着“互联网+”和“移动互联网+”等新一代信息技术的飞速发展,消费者用智能终端(手机和平板电脑等)去电子商务网站、社交网络、微博、微信上购物变得越来越方便。然而随着电子商务规模的不断扩大,商品种类和信息的不断增长,消费者需要花费大量的时间、精力才能找到自己想买的商品。尤其在移动互联网环境下,消费者在移动端显得更没有“耐心”,日益增长的商品信息和数据使用户感到困惑与迷茫,因此,对于消费者来说,如何从庞大的商品中快速找到自己需要的商品成为亟待解决的问题。同时,对于互联网企业和生产服务提供商而言,如何让自身商品信息从海量数据中脱颖而出并得到消费者认可也是亟待解决的一个问题。而智能推荐云平台可以较好地解决上述问题。电商和企业可以通过智能推荐云平台精准的向消费者推荐自己的商品,从而快速、全面、准确的满足消费者需求。本项目利用Spark和大数据挖掘等新一代信息技术,构建电商智能推荐云平台,通过各种信息渠道(即如何利用社交网络、微博、电商网站上的消费者的综合行为数据)收集消费行为的实时数据以及他们和品牌的互动行为,分析日志数据、用户历史行为、用户属性从而创建用户兴趣偏好模型,依据智慧推荐算法预测用户对商品权重偏好并进行排序,向消费者智能推荐满足需求与感兴趣的商品列表,为用户的消费决策提供一定的参考。对生产企业来说,管理者能够通过该平台得出的信息来预测消费者的潜在需求,打破了公司传统的自顶而下的决策流程,全面转向以消费者为中心的组织架构和业务流程,从而实现生产者与消费者的双赢。1Spark关键技术Spark是为处理大数据而开发的并行通用计算平台,与Hadoop集群系统具有相似的特点。但两者最大的区别是Spark处理的中间计算结果是保存在内存中,不需要读写分布式文件系统,因此Spark能更好地适用于大数据挖掘与机器学习等需要迭代计算的地方。1.1Spark主要功能模块Spark主要有SparkCore、SparkSQL、SparkStreaming、GraphX和MLlib模块组成,主要功能如下:SparkCore:是集群系统中最核心的功能,包括创建SparkContext对象、任务提交与执行、分布式部署任务与资源、分布式计算等。SparkSQL:提供了对关系型数据库的增、删、查、改等的交互式操作,也可以对Hive和Json等数据格式的数据进行符合要求的处理。SparkStreaming:主要功能是将流数据集聚为弹性分布式数据集RDD,然后再进行批量处理,提供大数据流式计算处理服务,其数据吞吐量较大。支持的数据源包括Kafka、Twitter、MQTT、Flume、ZeroMQ和简单的TCP套接字等。GraphX:主要功能是通过调用其中的API,解决基于分布式的内存图形计算问题。在迭代计算次数较多的情况下,图形计算和处理效率较高。MLlib:通过调用其中的API接口,实现大量的机器学习有关的分类、统计、回归等多种功能。方便了用户,提高了效率,同时也大大降低了用户的学习成本。1.2Spark系统架构Spark应用程序从编写到提交、执行、输出的整个过程采用集群的协作计算模式进行,整个集群的系统架构如图1所示。Spark集群管理器ClusterManager:负责资源的分配与管理。用户使用SparkContext提供的API,编写了Driverapplication程序后,Spark集群管理器将各个Worker机上的计算资源(包括内存和CPU)分配给应用程序,但是并不负责对Execoutor的资源分配。Spark工作节点Worker:从节点。由Spark集群管理器分配任务后,再由Spark工作节点创建一个Executor进程,再将其资源和任务分配给Executor进程,同时将资源信息反馈给Spark集群管理器。Executor:为用户提交的Spark应用程序运行在Workernode上的一个进程,主要负责Worker工作节点分配的任务的处理,并且与Worker工作节点、Driver?App的交互与信...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?