KMeans算法及其在卷烟零售门店库存聚类探析中应用

K-Means算法及其在卷烟零售门店库存聚类探析中应用[摘要]为准确了解市场库存和需求,减小商业库存压力,实现对零售户进行按需供货,发现零售户群体共性特征,通过考察零售户的年销售量和年库存量,基于Spark+MLlib的kmeans++算法实现对零售户行为的聚类,并根据收集所得的卷烟销售扫码数据采用KMeans+进行聚类分析,将客户分为三大类别,得到了较为合适的分类结果,给岀了相应的销售和库存的管理策略,这为卷烟销售和库存管理策略的制定提供决策支持[关键词]K-Means算法;卷烟零售户;库存聚类分析[]F272[文献标识码]A[]1009-6043(2017)03-0128-02Abstract:Inordertoaccuratelyunderstandthemarketinventoryanddemand,reducethepressureofbusinessinventories,implementtheon-demandsupplytoretailersandfindoutthecommonfeaturesofretailersgroups,thestudyinvestigatestheirannualsalesandinventorylevel.Thecustomercanbedividedintothreecategoriesbasedonthekmeans++algorithmofSpark+MLlibandclusteringanalysisofcollectedthecodedataofcigarettesalesbymeansofKMeans+・Theappropriateclassificationresults,andcorrespondingmanagementstrategyofsalesandinventory,whichprovidedecisionsupport・Keywords:K-Meansalgorithm,cigaretteretailers,inventoryclusteringanalysis—、前言KMeans算法是聚类分析中的常用算法,它是数据划分或者分组处理的重要方式,目前在电子商务、生物科学、图像处理、Web文档分类等领域都得到了有效的应用,如许多文献利用KMeans进行聚类分析将客户细分特定的类型,同时根据其所属类别进行群组协同推荐。论文根据收集所得的卷烟销售扫码数据采用KMeans进行聚类分析,以期更为准确了解市场销售和库存情况,减小商业库存压力,实现对零售户行按需供货,发现零售户群体共性特征,为制定合理的卷烟销售和库存管理策略提供决策支持二、实验平台选择Spark是一个基于内存的分布式计算系统,是由UCBerkeleyAMPLab实验室于2009年开发的开源数据分析集群计算框架,是BDAS(BerkeleyDataAnalyticsStack)中的核心项目,被设计用来完成交互式的数据分析任务。MLlib是建立在ApacheSpark上的分布式机器学习库,Spark的机器学习有分类和回归、协同过滤、聚类、降维和特征提取和变换等[2]。Spark将分布式内存抽象成弹性分布式数据集(ResilientDistributedDatasets,RDD\RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,以便后续的查询能够重用,这极大地提升了查询速度[2]。故论文选择了Spark+MLlib作为K-means算法的运行平台三、卷烟零售户销售量和库存的聚类分析(一)原始数据及数据预处理烟草公司在以往的经营中产生了海量的柜台扫码交易数据,本文数据来自贵阳市红华烟草公司零售门店在2014年1月1日至2015年3月20日之间产生的柜台扫码销售及库存数据,共有2014年1月4日至2015年3月20日的1797371条销售数据,有销售码、执照-代号、交易时间、商品代号、交易数量、单价、交易金额、门店名等字段265071条库存数据,有库存数量、日期、时间、门店名等字段。本实验通过spark集群计算岀每个零售门店在2014年1月1日至2015年3月20日之间日库存量之和与日销售量之和,最终得到了各零售户的年销售量(单位:箱)和年库存量(单位:箱L例如,零售户1的销售量(单位:箱)和年库存量(单位:箱)分别为18706箱和57705箱,在数据进入模型之前进行了标准化(二)实验过程、结果及分析1.SparkMLlib对经典K-means算法的改进经典K-means聚类算法有两个典型的缺陷:(1)聚类数K的值是预先给定的,未必就是最优解;(2)初始聚类中心是随机选择的,可能会得到一个局部最优聚类,具有较高的平方误差对于经典K-means聚类算法的上述缺陷,许多学者提出了不同的改进方法,本文通过计算不同聚类数K的轮廓系数来确定最优聚类数K,轮廓系数结合了聚类的凝聚度和分离度,用于评估聚类的效果。该值介于畀畀之间,值越大,表示聚类效果越好[8]对于初始聚类中心的选择,SparkMLlib采用了kmeans++算法,所谓kmeans++算法其实就是在进行标准kmeans优化算法之前执行一个初始化聚类中...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?