第十七届“二十一世纪的计算”学术研讨会图灵奖得主MichealStonebraker的主题演讲

第十七届“二十一世纪的计算”学术研讨会---图灵奖得主MichealStonebraker的主题演讲(信息数据:易达大数据)今天,我要跟大家谈谈大数据。大数据这个词其实是一些做营销的人发明的,大概是几年前的事情。然后我也非常高兴,我终于知道过去四十年自己到底在做什么,我原来是在做大数据。所以我想跟大家谈谈大数据对于我来说意味着什么,以及我认为的大数据中什么是重要的。关于大数据,很多人说意味着三件事情,这三个单词都是以字母V开头的。大数据的问题,第一个就是量(volume)很大。第二个是这些数据的产生速度(velocity)太快了,软件跟不上。第三个问题是数据来自许多不同的地方(variety),你需要进行数据整合,但这些数据太多了,你想要整合这些数据就非常困难。所以在这三个“V”领域你要解决的问题是完全不一样的,我分别给大家谈谈。BigVolume大量数据在量方面,第一种情况是你要想做一些非常愚蠢的分析,比如说SQL分析。第二种情况是,你想要做非常复杂的分析。前者是比较简单的,如果你想做SQL分析的话,我知道你可能要在上百个节点,PB的数据上面运行二十到三十个生产实现,日以继夜地进行分析。在这些数据仓库产品中,有几款已经做得还不错了。所以,这个市场的需求其实已经被一些商业软件很好地解决了,比如说Vertica,就是这样的一家数据仓库公司。他们最大的用户叫做Zynga。Zynga开发了一个名叫FarmVille的游戏。Zynga会实时记录全世界每一个用户在玩他们的游戏时每一次的点击,这样的话就可以利用他们的数据做人工智能研究,看看如何能够让全世界的用户购买更多虚拟商品。所以,我认为这个问题已经得到了解决,因为现在即使你从用户身上获得大量的数据,他们也不会感到不快。但我要提醒一下大家,在过去十年里,我们已经经历了一个非常巨大的变化。大约十年以前,如果你去和一些卖数据仓库产品的公司聊的话,他们基本上卖的都是一种叫做“行存储”(rowstorage)的产品,这是指存储的下一个对象是同条记录的下一个属性。他们在磁盘上用行的方式存储数据。SQL服务器以前就是这样的。---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---其他的数据仓库公司都是卖这样的产品。当时我成立的这家公司叫做Vertica。我们从另外一个角度来看待这件事情,把行转90度,变成列,用列的方式存储数据。于是存储的下一个对象就从同一条记录的下一个属性,转变为下一条记录的同一属性。这种方式比原来的行存储方式要快很多。Vertica完全颠覆了这个市场。它的速度比行存储产品要快50到100倍。这是颠覆性的。而这是由一家创业公司带来的。所以我认为,在这个市场上实现颠覆的一种常见方式就是成立一家公司,然后去挑战那些大公司,让他们感受到威胁。所以在过去的十年里,整个市场都开始转而采用列存储。其中包括微软的数据仓库产品PDW,也是用的列存储,不过是10年后才用的。为什么列存储的速度要比行存储快很多呢?当然,这背后有很深层次的技术原因,不过我现在没有时间去详细解释了。厂商要取得成功,他们必须做出转变。于是,基本上除了Oracle外,所有其他厂商都开始采用多节点列存储的方式,它的速度非常快。在过去的十年里,正是由于这种颠覆性的转变,数据仓库产品的性能提升了50倍。但是在我看来,这已经是明日黄花了,就像PeterLee所说---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---的,人们现在感兴趣的是机器学习,机器翻译,数据聚类,预测模型,这些才是接下来要做的重要事情。借用华尔街的说法,我们已经进入了“股市分析员”的时代。这些分析员其实与火箭科学家无异。如果你是一名从事数据库工作的人员,当你仔细去看他们的算法和他们的工作,你会发现,其实大部分的算法都是采用数组形式的线性代数,而不是表格形式的SQL。这与现实世界毫无关系。如果你再仔细看这些算法的话,你会发现,其实大部分的算法都是内循环迭代,也就是执行几次诸如矩阵乘法、奇异值分解之类的线性代数运算。为了说明这一点,我来举一个非常简单的例子。这个例子就是人们为之疯狂的股票市场。股票市场有涨有跌。假设有...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?