【HBase】整合Phoenix
HBase 6 整合Phoenix
Phoenix 是 HBase 的开源 SQL 皮肤。可以使用 标准 JDBC API 代替 HBase 客户端 API 来创建表,插入数据和查询 HBase 数据。
为什么使用
在 Client 和 HBase 之间放一个 Phoenix 中间层不会减慢速度,因为用 户编写的数据处理代码和 Phoenix 编写的没有区别(更不用说你写的垃圾的多),不仅如此 Phoenix 对于用户输入的 SQL 同样会有大量的优化手段(就像 hive 自带 sql 优化器一样)。
安装
http://phoenix.apache.org/
上传并加压jar包
phoenix-hbase-2.4-5.1.2- bin.tar.gz
复制 server 包并拷贝到各个节点的 hbase/lib,分发
配置环境变量
#phoenix
export PHOENIX_HOME=/opt/module/phoenix
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin
重启 HBase
连接 Phoenix
/opt/module/phoenix/bin/sqlline.py hadoop102,hadoop103,hadoop104:2181
报错
警告: Failed to load history
java.lang.IllegalArgumentException: Bad history file syntax! The
history file `/home/atguigu/.sqlline/history` may be an older
history: please remove it or use a different history file.
解决方法:在/home/atguigu 目录下删除.sqlline 文件夹
Shell
Phoenix 的语法: https://phoenix.apache.org/language/index.html
显示所有表
!table 或 !tables
创建表
CREATE TABLE IF NOT EXISTS student(
id VARCHAR primary key,
name VARCHAR,
age BIGINT,
addr VARCHAR);
在 phoenix 中,表名等会自动转换为大写,若要小写,使用双引号,如"us_population"。
CREATE TABLE IF NOT EXISTS student1 (
id VARCHAR NOT NULL,
name VARCHAR NOT NULL,
age BIGINT,
addr VARCHAR
CONSTRAINT my_pk PRIMARY KEY (id, name));
注:Phoenix 中建表,会在 HBase 中创建一张对应的表。为了减少数据对磁盘空间的占 用,Phoenix 默认会对 HBase 中的列名做编码处理。具体规则可参考官网链接: https://phoenix.apache.org/columnencoding.html,若不想对列名编码,可在建表语句末尾加 上 COLUMN_ENCODED_BYTES = 0;
插入数据
upsert into student values('1001','zhangsan', 10, 'beijing');
查询记录
select * from student;
select * from student where id='1001';
删除记录
delete from student where id='1001';
删除表
drop table student;
退出命令行
!quit
表的映射
默认情况下, HBase 中已存在的表,通过 Phoenix 是不可见的。
如果要在 Phoenix 中操 作 HBase 中已存在的表,可以在 Phoenix 中进行表的映射。
视图映射
Phoenix 创建的视图是只读的,所以只能用来做查询,无法通过视图对数据进行修改等 操作。
create view "test" (
id varchar primary key,
"info1"."name" varchar,
"info2"."address" varchar
);
drop view "test";
表映射
在 Pheonix 创建表去映射 HBase 中已经存在的表,是可以修改删除 HBase 中已经存在 的数据的。
删除 Phoenix 中的表,那么 HBase 中被映射的表也会被删除。
进行表映射时,不能使用列名编码,需将 column_encoded_bytes 设为 0。
create table"test"(
id varchar primary key,
"info1"."name" varchar,
"info2"."address" varchar
) column_encoded_bytes=0;
数字类型
HBase 中的数字,底层存储为补码
Phoenix 中的数字,底层存储为在补码的基础上, 将符号位反转。
故在 Phoenix 中建表去映射 HBase 中已存在的表,当 HBase 中有数字类型 的字段时,会出现解析错误的现象。
解决
不考虑负数
Phoenix 种提供了 unsigned_int,unsigned_long 等无符号类型,其对数字的编码解 码方式和 HBase 是相同的,如果无需考虑负数,那在 Phoenix 中建表时采用无符号类型。
考虑负数
可通过 Phoenix 自定义函数,将数字类型的最高位,即 符号位反转即可。
自定义函数可参考如下链接:https://phoenix.apache.org/udf.html。
JDBC
<dependency>
<groupId>org.apache.phoenix</groupId>
<artifactId>phoenix-client-hbase-2.4</artifactId>
<version>5.1.2</version>
</dependency>
import java.sql.*;
import java.util.Properties;
public class PhoenixClient {
public static void main(String[] args) throws SQLException {
// 标准的 JDBC 代码
// 1.添加链接
String url = "jdbc:phoenix:hadoop102,hadoop103,hadoop104:2181";
// 2. 创建配置
// 没有需要添加的必要配置 因为 Phoenix 没有账号密码
Properties properties = new Properties();
// 3. 获取连接
Connection connection = DriverManager.getConnection(url, properties);
// 5.编译 SQL 语句
PreparedStatement preparedStatement = connection.prepareStatement("select * from student");
// 6.执行语句
ResultSet resultSet = preparedStatement.executeQuery();
// 7.输出结果
while (resultSet.next()) {
System.out.println(resultSet.getString(1) + ":" + resultSet.getString(2) + ":" + resultSet.getString(3));
}
// 8.关闭资源
connection.close();
// 由于 Phoenix 框架内部需要获取一个 HBase 连接,所以会延迟关闭
// 不影响后续的代码执行
System.out.println("hello");
}
}
Phoenix 二级索引
添加如下配置到 HBase 的 HRegionserver 节点的 hbase-site.xml。
<!-- phoenix regionserver 配置参数-->
<property>
<name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCod
ec</value>
</property>
全局索引
Global Index 是默认的索引格式,创建全局索引时,会在 HBase 中建立一张新表。也就 是说索引数据和数据表是存放在不同的表中的,因此全局索引适用于多读少写的业务场景。 写数据的时候会消耗大量开销,因为索引表也要更新,而索引表是分布在不同的数据节 点上的,跨节点的数据传输带来了较大的性能消耗。
在读数据的时候 Phoenix 会选择索引表来降低查询消耗的时间。
create index
my_index on student1(age);
drop index my_index
on student1;
查看二级索引是否有效,可以使用 explainPlan 执行计划,有二级索引之后会变成范围扫描
explain select
id,name
from student1
where age = 10;
如果想查询的字段不是索引字段的话索引表不会被使用,也就是说不会带来查询速度的 提升。
解决:
包索引
创建携带其他字段的全局索引(本质还是全局索引)。、
CREATE INDEX my_index ON my_table (v1) INCLUDE (v2);
本地索引
Local Index 适用于写操作频繁的场景。
索引数据和数据表的数据是存放在同一张表中(且是同一个 Region),避免了在写操作 的时候往不同服务器的索引表中写索引带来的额外开销。
CREATE LOCAL INDEX my_index ON my_table (my_column);
my_column 可以是多个。
本地索引会将所有的信息存在一个影子列族中,虽然读取的时候也是范围扫描,但是没有全 局索引快,优点在于不用写多个表了。
更多推荐
所有评论(0)