基于数据挖掘技术的红酒评分预测模型的设计与分析

基于数据挖掘技术的红酒评分预测模型的设计与分析王柏摘要:随着现代社会的快速发展,红酒行业已慢慢走向全球化与大众化,更多的红酒品牌和品种也逐渐被世人所知。然而,红酒品质也分三六九等,如何判断一款红酒是优是劣?利用SPSS,Excel等软件,使用回归、决策树、聚类等经典机器学习算法,对红酒的价格、评分、产地等因素进行统计与分析。最终得出红酒的原产国,省份以及品种基本可以决定红酒的优劣。关键词:红酒;数据挖掘;机器学习:TB:Adoi:10.19311/j.cnki.1672-3198.2019.07.1001前言红酒,是一种有着漫长历史的饮品。早在公元前1000年,红酒就在地中海沿岸大部分地区繁衍传播,并逐漸发展成为高档饮品。在全世界的基督教信徒的眼中,红酒被视为耶稣的血液,这一点也促进了红酒的平民化。红酒不仅仅给人以高雅和浪漫的感觉,在很多女性心中还有美容驻颜的功效,随着时间的推移,社会也在快速发展,人们生活水平逐步提升,红酒市场目前拥有着巨大的发展潜力和良好的发展前景,红酒也将逐渐走向全球化与大众化,让越来越多的人有机会去品尝。近年来,越来越多的人更加讲究红酒的品质,传统红酒的品鉴,要考虑红酒的香气、口感、结构、酿造工艺、风土和价格等综合因素。但这些复杂的品鉴技术需要积年累月的品酒经验,对于大多数普通人来说,学习这门技术并不容易。因此,人们对于红酒的品质界定十分地模糊,并不清楚哪些红酒档次较高,而哪些红酒档次相对较低。为了帮助人们通过更简单直接的方法去了解红酒的品质,本文根据Kaggle网站上WineReviews专题提供的129970组数据,使用决策树,聚类等经典机器学习算法,分析数据规律,建立了根据红酒产地、品种、制造商等因素预测红酒品质的模型;并探索了影响红酒档次的最主要因素。该模型可以为喜欢红酒的人们提供参考,从而使他们对于红酒品质有着更加清晰的认识。2数据介绍和预处理本文使用的WineReviews数据集的原始出处是WineEnthusiast网站上不同国家用户对众多红酒的评论。本数据集主要包含了129970款红酒的产地国(Country)、省份(Province)、城市(Region)、评分(Points)、描述(Description)、制造商(Winery)、品种(Variety)、价格(Price)等重要因素。数据集中,评分和价格都是数值型属性,为了构建决策树模型,在预处理过程中,要对这两个属性进行离散化处理。本文根据分数的高低初步划分这些红酒的档次,大于等于90分的为高等(High),大于等于85分,小于90分的为中等(Medium),小于85分的则为低等(Low)。同时,本文对价格进行排序,将红酒的价格划分为三个档次:大于等于500美元的为贵(Expensive),大于等于100美元,小于500美元的为普通(Normal),小于100美元的为便宜(Cheap)。同时在这129970组数据当中,缺失部分数据的红酒样本会对计算产生影响,为消除这部分影响,本文删除了部分数值或资料缺失的样本,保证红酒数据的完整性,为后文中的预测模型的准确性提供更加科学的依据。3单因素数据分析3.1原产国、价格与评分首先,本文将对129970款红酒按照国家(country)分类,分别求出不同国家红酒的平均价格和平均评分。使用了Excel的“分类汇总”功能,将国家作为“分类字段”,将“价格”和“评分”作为“汇总方式”,使用“平均值”作为汇总项。得到分类汇总的结果后,本文使用“定位”功能,将汇总结果单独取出,使用EXCEL图表中的“组合图”,分别用柱形图表示“评分”,用折线图表示“价格”,得到结果如图1所示。通过比较每个国家红酒的平均价格与平均评分,我们可以判断哪些国家的红酒更加物美价廉。根据图1我们分析得出,法国、匈牙利、卢森堡、德国、意大利等这些我们熟知的红酒发展历史悠久的欧洲国家的红酒性价比反而比较低。反而,如印度、摩洛哥、阿尔巴尼亚、塞尔维亚、智利、土耳其等国家,其红酒拥有不俗的品质,但是价格并不高,他们出产的红酒往往是性价比高的选择。其次,我们重点观察了高品质红酒的原产地。红酒平均得分最高的五个国家均在欧洲,分别是英国、奥地利、法国、德国和意大利。在亚洲国家中,评分最高的三个国家是土耳其、印度和以色列。韩国、中国、黑山共...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?