大数据下的机器学习算法综述一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一?国家自然科学基金项目(No.61175052,61203297,61035003,61363058)二国家863计划项目(No.2014AA012205,2013AA01A606,2012AA011003)资助1一引一言随着产业界数据量的爆炸式增长,数据以前所未有的速度积累,大数据(BigData)概念受到越来越多的关注.大数据正在给数据密集型企业带来丰厚的利润,据估计仅Google公司在2009年就为美国经济贡献540亿美元[1].学术界和产业界关于大数据的认识也在逐步清晰化并形成共识.2011年的语义技术信息(SemanticTechnologiesInformation,STI)峰会上,与会的语义网络和数据库学者讨论了大数据时代语义网络二语义技术及数据库领域所面临的挑战.关于大数据带来的挑战主要有如下观点.Brodie[2]认为在真实二无模式和复杂的大数据或大数据语义网络中进行有意义的数据集成需多学科多技术交叉.Bizer列举大数据时代的Web数据研究的3种挑战:1)Web数据的拓扑结构,因为互联网中有大量的不同形式的数据存在,各种类型的数据都非常巨大;2)Web数据的特点,这对于数据集成和大数据处理来说是一个值得研究的问题;3)已有一些公开的可用的预先爬取好的Web数据集可用于评测和实验.他认为未来的挑战都将围绕数据集成二大规模资源描述框架(ResourceDescriptionFramework,RDF)处理和数据质量评定.Boncz认为如果人们想更广泛地使用语义网络,存在两大挑战:1)缺乏好的使用案例;2)现有的数据集成方法使得创建链接非常困难.Erling认为大数据时代语义的价值体现在让数据集成驱动数据库管理系统(DatabaseManagementSystem,DBMS)的技术.产业方面,大数据是现有产业升级与新产业诞生的重要推动力量.大数据时代的到来,产业界需求与关注点发生重大转变:企业关注的重点转向数据,计算机行业正在转变为真正的信息行业,从追求计算速度转变为关注大数据处理能力,软件也将从编程为主转变为以数据处理为主.大数据处理的兴起也改变云计算的发展方向,使其进入以分析即服务(AnalyticsasaService,AaaS)为主要标志的Cloud2.0时代[3].机器学习算法在学术界和产业界都有巨大的实用价值.由于大数据的大量二复杂特性,对于大数据下的应用问题,传统的在小数据上的机器学习算法很多已不再适用.因此,研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题.本文主要分析和总结当前用于处理大数据的机器学习算法的研究现状.并行是处理大数据的主流方法,本文还单独介绍一些并行算法,并引出大数据环境下机器学习研究所面临的问题.2一大数据的相关知识介绍2.1一大数据定义有关大数据的定义有多种.一个狭义的定义:大数据是指不能装载进计算机内存储器的数据.尽管这是一个非正式的定义,但易理解,因为每台电脑都有一个大到不能装载进内存的数据集.李国杰等[3]对大数据的定义为:一般意义上,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知二获取二管理二处理和服务的数据集合.2.2一大数据特点大数据有多方面的特点,从最开始的3V模型到目前扩展的4V模型就是以大数据的特点命名的.Laney的3V模型包括体积(Volume),速度(Velocity)和多样性(Variety);4V模型中的第4个V有多种解释,如变化性(Variability),虚拟化(Virtual)或价值(Value).针对这些特点,王飞跃[4]认为在大数据时代知识解析二机器智能与人类智能协调工作及智能分析系统将会扮演重要角色,人们需要一种智能分析接口将人类与计算机世界连接,否则将被淹没在大数据的洪流中.总之,大数据问题是目前学术界和产业界共同关注的挑战性问题.伴随着大数据的采集二传输二处理和应用的相关技术就是大数据处理技术,是系列使用非传统的工具来处理大量的结构化二半结构化和非结构化数据,从而获得分析和预测结果的一系列数据处理技术[3].3一大数据环境下的机器学习理论随着大数据时代的到来,大数据逐渐成为学术界和产业界的热点,已在很多技术和行业广泛应用,从大规模数据库到商业智能和数据挖掘应用;从搜索引擎到推荐系统;推荐最新的语音识别二翻译等.大数据算法的设计二分析和工程涉及很多方面,包括大规模并行计算二流算法二云技...