数据流信息从MySQL到HBase的迁移策略的研究

数据流信息从MySQL到HBase的迁移策略的研究摘要:数据流信息在网络管理、网络安全和网络分析等方面具有十分重要的作用,然而,随着互联网的不断发展,网络中数据量极速增长,数据流信息变得越来越难以存储。结合数据流信息的本身特点和HBase数据库的优点,本文研究和实现了数据流信息从MySQL到HBase的迁移策略,完成数据库表和索引的转换设计,设计特有主键以支持多条件查询,并通过Hadoop实现HBase数据库表数据的分布式存储。测试结果表明将数据流信息存储在HBase中具有更高的稳定性、扩展性,并能够满足多条件查询需求。关键词:MySQL;HBase;数据流;迁移;索引:TP392文献标识码:ADOI:10.3969/j.issn.1003-6970.2015.11.0010引言数据流产生于动态的网络环境中,相比较传统的数据集,这些数据具有快速性、连续性、变化性、无限性等特点,这使数据流信息的存储管理面临着新的要求和挑战。众所周知关系数据库非常善于处理事务的更新操作,尤其是处理更新过程中复杂一致性的问题,并可以进行Join等复杂条件查询,为此,关系数据库在企业市场一度占据长期稳固的统治地位。但是,关系数据库在一些操作上过大的开销严重影响了数据存储管理的效率,尤其是关系数据库不擅长处理一些海量数据存储管理方面的操作:首先,关系数据库扩展能力有限,无法大规模扩展,即使网络解决方案在一定程度上改善了这个问题,但还是无法有效的动态添加新节点,创建新的集群,随着大数据时代的到来,关系数据库也就逐渐不能满足海量数据的存储管理需求。其次,关系数据库不善于处理非结构化数据。互联网的快速发展,尤其是移动互联网的发展,移动终端的多样化使用,今天的数据已不再是传统的结构化数据,而是通过设备、服务器、应用自动产生的非结构化或半结构化数据,这为数据的存储管理提出了新的挑战。最后,关系数据库比较难以处理存储字段不固定的情况,不能有效的为数据库表添加新字段。一些社交网络和大数据公司,例如Facebook、谷歌等,首先意识到在现如今的海量数据和多样化数据类型的环境下,关系数据库不再是最佳的选择。因此,NoSQL数据库,例如MongoDB、Cassandra、HBase等,就应运而生了。这类数据库的主要功能之一就是帮助用户动态的、简便地扩展数据存储服务器的数量。如何把关系数据库中的数据迁移到NoSQL数据库中并且设计合理的表格式来符合海量数据的存储管理需求已成为开发者所关注的问题。HBase是目前最受欢迎的开源NoSQL数据库之一,分布式,可伸缩,基于列的数据存储特点使其在大数据领域的应用越来越广泛。开发人员可以在不了解HBase的底层存储模式的情况下通过一些数据仓库工具,如Hive,来操作HBase中的数据。另外,HBase还提供了大量的编程接口,可供HadoopMapReduceJob并行批处理HBase表数据。但是,HBase和其他NoSQL数据库一样,都有其适用范围,在复杂条件查询的情况下,HBase的查询效率并不高。本文将以数据流信息从MySQL到HBase的迁移为例,研究和探讨HBase数据库表和索引的转换设计,在满足复杂条件查询需求的基础上,提高数据流信息的存储管理效率。1研究背景1.1HBase介绍HBase是完全不同于关系数据库的新型NoSQL数据库,类似于Google的BigTable,是一个稀疏长期存储的、面向列的、排序的映射。从逻辑视图来看,HBase是一个具有映射关系的很大的表,可以有数百万列和数十亿行,由于HBase是稀疏存储数据的,所以某些列可以是空的,表1是一个HBase表逻辑视图的示例。1)RowKey:RowKey是表的行键也是表的唯一索引,在HBase中通过RowKey访问行有三种方式:通过单个RowKey访问;通过给定RowKey范围访问;全表扫描。RowKey可以是任意字符串(最大长度64KB)并按字典序进行存储,所以在用HBase存储数据时.要对RowKey进行精心设计,使经常一起读写的行能够一起存储。2)列族:列族是一些列的集合,一个列族所有列成员是有着相同的前缀,比如,列Info:sip和Info:dip都是列族Info的成员,冒号(:)是列族的分隔符,用来区分前缀和列名。column前缀必须是可打印的字符,剩下的部分(称为qualify),可以由任意字节数组组成。族必须在表建立的时候声明,而列可以随时新建。...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?