Compression就是在用CPU换IO吞吐量/磁盘空间,如果没有什么特殊原因推荐针对Column Family设置compression,下面主要有三种算法: GZIP, LZO, Snappy,作者推荐使用Snappy,因为它有较好的Encoding/Decoding速度和可以接受的压缩率。

Comparison between compression algorithms

Algorithm% remainingEncodingDecoding
GZIP 13.4% 21 MB/s 118 MB/s
LZO 20.5% 135 MB/s 410 MB/s
Zippy/Snappy 22.2% 172 MB/s 409 MB/s

1. 下载snappy代码,编译并安装动态连接库到每台datanode和regionserver上
Build/install Snappy (http://code.google.com/p/snappy/)
./configure
make && make install

2. Build Hadoop Snappy (http://code.google.com/p/hadoop-snappy/)
mvn package

3. 在hdfs中安装snappy
a. 解压 hadoop-snappy-0.0.1-SNAPSHOT.tar.gz 将其中的native中的动态静态链接库文件拷到hadoop lib的native下面,将hadoop-snappy-0.0.1-SNAPSHOT.jar考到hadoop lib下,此过程类似安装lzo.

b. 将一下改动加入到hadoop的core-site.xml中:
<property>
<name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

c. 重启动 Hadoop.

4. 将3.a 中的lib拷贝到hbase 的对应lib 和 lib/native 之中,并启动hbase

测试安装是否成功:

1 . 使用 CompressionTest 来查看snappy是否 enabled 并且能成功 loaded:
$ hbase org.apache.hadoop.hbase.util.CompressionTest hdfs://host/path/to/hbase snappy

2 . 创建一章以snappy方式压缩的表来检查能否成功:
$ hbase shell
> create 't1', { NAME => 'cf1', COMPRESSION => 'snappy' }
> describe 't1'

在"describe" 命令输出中, 需要确认 "COMPRESSION => 'snappy'"

参考链接:
https://ccp.cloudera.com/display/CDHDOC/Snappy+Installation
http://blog.csdn.net/jingling_zy/article/details/7258014 

http://shitouer.cn/2012/07/hadoop-snappy-introduction-and-install/

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐