HBase理解
一.概述
在互联网应用中,经常需要存储大量的用户数据,然后对这些数据进行加工,分析最终产出对用户有价值的数据,关于数据的存储,我们可以选择文件,缓存以及数据库等,在数据库我们经常使用关系型数据库(mysql,oracle等)来存储,当数据达到一定量就需要进行分表分库,以便提高数据库的查询效率,例如在mysql中当表记录行数超过400万的时候,通常就需要分表。但是如果我们存储数据的时候选择的是HBase,这时候就不用分表,HBase中的表可以支撑上亿行,上百万列,这些数据最终存储都是分布在多台机器上的,因此HBase可以存储大量的数据,但是HBase就不具备关系型数据库的关联查询,就是说在HBase中不存在表和表的JOIN查询,关系型的查询是关系型数据库天生的优势,这样在HBase中存储的数据一定是一些弱关系的数据,要是数据之间有很强的关系,那就不太适合存储在HBase中了。
HBase中表的Schema很灵活,每行记录的列数都可能不一样,第m行的有x列,第n行有y列,不像关系型数据库,第m行和第n行必须有相同的列数。在定义HBase表Schema的时候,我们不需要指定这张表有多少列,列的增加和删除都是动态的。
关系型数据库数据的存储是面向行的,HBase数据的存储是面向列,在HBase中存储数据的时候都是以K/V的形式存储的,一行HBase的记录对应存储层的多条K/V的记录。
二.HBase相关概念
- 表
和关系型数据库一样,存储数据到HBase的时候先要建立一张表 - 列族
HBase中每张表都是有1个或者多个列族组成的,每张表至少要有1个列族 - 列
在关系型数据库中列是直接属于表的,但是在HBase中列是和列族关联在一起的,一个列族下面可以有多个列 - rowkey
在HBase中每行记录都和一个rowkey关联,这个rowkey决定了记录存储在什么地方,在获取记录的时候通常需要指定一个rowkey或者rowkey相关的数据,这样就能定位到在那台机器上获取数据了,在存储数据的时候,都是按照rowkey的字典序来存储的 - timestamp
在HBase中,每个列的数据可以存储多个版本,这个timestamp就是用来标识数据存储写入HBase时的时间戳 - version
HBase中每个列存储数据的时候,默认存储三个版本的数据,每个数据都有一个版本号,这个版本号可以让HBase自动来生成,也可以自己指定。 - TTL
time-to-live,HBase中列的数据都有一定的过期时间,当超过这个时间后,这个数据就会自动被HBase删除 - cell
HBase中数据存储的最小单元,这个单元包含了列名,列的值,时间戳,版本,列族以及rowkey
在HBase中,可以有多张表,每张表有多个列族,一个列族中可以有多个列,每个列可存储多个版本的数据。因此对于某张表某一列族下面的一行记录,我们可以抽象出这样的数据结构
SortedMap<RowKey,List<SortedMap<Column,List<Value,Timestamp>>>
注意:
1.存储的时候首先按照rowkey进行排序,一个rowkey会关联多个列,多个列存储的时候按照列名的字典序排列。
2.由于HBase中存储了多个版本的数据单元,因此HBase中就没有真正意义上的数据更新,所有的更新都是插入,超过数据单元的版本数目后,老的数据自动被剔除。
三.HBase数据存储理念
我们创建HBase表的时候,只要需要指定表名和列族即可,不用特意去指定某个特定的列族下面有多少列,如下图所示:
建完表后,我们可以使用describe命令来查看我们刚才所建立的表。前面我们已经说过HBase在数据存储的时候是面向列存储的,而mysql在存储数据的时候是按照行存储的。我们可以使用scan命令来查看表中的数据(自己完可以这么搞,但是线上千万别用scan乱来),如下图所示:
通过上图我们可以看到HBASE_PUT_ROW_KEY_A所在的行有4列数据,即COL_NAME_A,COL_NAME_B,COL_NAME_C,COL_NAME_D。HBASE_PUT_ROW_KEY_B所在的行有两列数据既COL_NAME_A,COL_NAME_D。HBASE_PUT_ROW_KEY_C所在的行有两列数据,即COL_NAME_B和COL_NAME_C。HBASE_PUT_ROW_KEY_D所在的行也有两列数据,既COL_NAME_B和COL_NAME_C,假如我们把这样的数据存储在mysql后会出现下面的存储视图:
这样的存储视图出现在mysql中会造成两个问题:
- 上图已经很清楚描述了存储格局,明显出现有些数据单元被浪费掉了。
- 要是在来一行数据,这行数据需要有五列,这时mysql表就满足不了,需要重新修改表结构才能满足这样的存储需求。
在HBase中存储是面向列进行存储的,因此上面的存储格局不会出现存储单元的浪费,同时HBase表的列是可以动态增加的,因此也不用担心多出四列的行没法存储的问题。其实可以这么说,正是由于HBase的存储理念是面向列的存储,才导致HBase中表schema非常灵活,列可以动态增加和删除。