基于Python语言Kaggle的数据集分析

基于Python语言Kaggle的数据集分析段聪聪柴世一【摘要】本文基于python来进行对kaggle数据集库中的数据集来进行数据分析,在这个大数据时代,我们的生活早已成为一个数据化的生活,文章的目的是在于用现有的计算机科学技术来预示通过数据分析来进行预判的可行性。【关键词】python程序设计与开发;数据分析;特征选择:TP311.13:A:2095-2457(2019)08-0106-001DOI:10.19694/j.cnki.issn2095-2457.2019.08.044【Abstract】ThispaperisbasedonPythontoanalyzethedatasetinkaggledatabases.Inthisbigdataera,ourlifehasalreadybecomeadatalife.Thepurposeofthispaperistousetheexistingcomputersciencetechnologytopredictthefeasibilityofdataanalysis.【Keywords】PythonProgramminganddevelopment;Dataanalysis;Featureselection1简介数据集名称为iris.csv,该数据由kaggle网站获取而来,数据集的规模为150*6,总计150条数据,数据信息分为6列,列属性名分别为Id,SepaLength,SepalWidth,PetalLength,PetalWidth,Species.我们希望利用python语言对数据集中的特征来进行分析,最后可以根据分析结果来较为准确的根据鸢尾花四个属性判断出其所属类别。2数据处理查看数据集Id显示为整数类型,之后的是个花瓣花萼长宽均为小数点后一位的小数类型,而Species则为字符串类型,对应着某一行数据所属鸢尾花的类别从数据集中可看出花萼长度最小值4.30,最大值7.90,均值5.84,中位数5.80,右偏花萼宽度最小值2.00,最大值4.40,均值3.05,中位数3.00,右偏花瓣长度最小值1.00,最大值6.90,均值3.76,中位数4.35,左偏花瓣宽度最小值0.10,最大值2.50,均值1.20,中位数1.30,左偏按中位数来度量:花萼长度大于花瓣长度大于花萼宽度大于花瓣宽度当该条数据鸢尾花类别为setosa时,我们让它在图中的点的颜色为红色,versicolor为绿色,virginica为蓝色。通过这样的设置可以在散点图中明显的看出三种种类鸢尾花与属性之间的关系。考虑到有四种属性,我们让他们来两两相交,选择了四组属性来进行测试:分别是品种与花萼长度宽度,品种与花瓣长度宽度,品种与花瓣宽度花萼宽度,品种与花瓣长度花萼长度,这是四组具有参考价值的属性值。实验结果显示山鸢尾的属性值和杂色鸢尾,维吉尼亚鸢尾范围有明显的差距,而杂色鸢尾和维吉尼亚鸢尾存在属性值范圍的重叠。接下来我们想对于鸢尾花三种种类的四个属性的值范围有一个较为直观的显示,于是我们采用绘制四个图形的方式来进行显示,以ID为X轴(因为在数据集中ID属性的值前50个、中间50个、最后50个分别代表不同的鸢尾花),以四个属性为Y轴,最后以不同的颜色来明确区分三种鸢尾花的四个属性值的范围。使用seaborn模块的relplot方法来绘制图形,函数中的kind属性值设置为line表示我们要绘制的是折线图。然后传入X和Y轴的参数以及数据集对象。实验结果显示在花瓣长度和宽度上,山鸢尾的属性范围与其他两种鸢尾花的属性范围有非常明显的区分,处于一个较小的范围内,花瓣与分辨山鸢尾有较强的相关性。而在花萼的折线图中我们看出,杂色鸢尾和维吉尼亚鸢尾没有很好的区分出,这表示,花萼不能很好作为参数来区分他们,相比较而言,花瓣的属性值更有利于区分他们。首先我们将数据集按照8:2的比例随机分为训练集,测试集。我们使用SVM模型来对数据集进行一个预测。由此可见,该数据集根据SVM模型来判断种类,正确率高达100%,可见,鸢尾花的种类和其四个属性值之间存在着一定的相关性,到了这一步我们也可以做出结论,的确可以根据鸢尾花的四个属性判断其种类,我们所建立的SVM模型也证实了这一点。为了验证上一步的准确性,我们想用两个模型进行验证结论,在构建决策树模型后的准确率也是100%,我们可以得出结论:可以通过鸢尾花的四个属性值来判断其种类。3分析结果回到我们最初的目标,我们希望通过鸢尾花的四个属性值来判别其种类,我们通过散点图来进行可视化分析,根据四种属性的交叉显示,我们得出,鸢尾花的类别与属性之间存在一定的关系且山鸢尾的属性值和杂色鸢尾,维吉尼亚鸢尾范围有明显的差距,而杂色鸢尾和维吉尼亚鸢尾存在属性值范...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?