【HBase】整合Phoenix

HBase 6 整合Phoenix

岱宗夫如何、

824人浏览 · 2023-05-12 21:33:15

岱宗夫如何、 · 2023-05-12 21:33:15 发布

Phoenix 是 HBase 的开源 SQL 皮肤。可以使用 标准 JDBC API 代替 HBase 客户端 API 来创建表，插入数据和查询 HBase 数据。

为什么使用

在 Client 和 HBase 之间放一个 Phoenix 中间层不会减慢速度，因为用户编写的数据处理代码和 Phoenix 编写的没有区别（更不用说你写的垃圾的多），不仅如此 Phoenix 对于用户输入的 SQL 同样会有大量的优化手段（就像 hive 自带 sql 优化器一样）。

安装

http://phoenix.apache.org/

上传并加压jar包

phoenix-hbase-2.4-5.1.2- bin.tar.gz

复制 server 包并拷贝到各个节点的 hbase/lib，分发

配置环境变量

#phoenix
export PHOENIX_HOME=/opt/module/phoenix
export PHOENIX_CLASSPATH=$PHOENIX_HOME
export PATH=$PATH:$PHOENIX_HOME/bin

重启 HBase

连接 Phoenix

/opt/module/phoenix/bin/sqlline.py hadoop102,hadoop103,hadoop104:2181

报错

警告: Failed to load history
java.lang.IllegalArgumentException: Bad history file syntax! The 
history file `/home/atguigu/.sqlline/history` may be an older 
history: please remove it or use a different history file.

解决方法：在/home/atguigu 目录下删除.sqlline 文件夹

Shell

Phoenix 的语法： https://phoenix.apache.org/language/index.html

显示所有表

!table 或 !tables

创建表

CREATE TABLE IF NOT EXISTS student(
id VARCHAR primary key,
name VARCHAR,
age BIGINT,
addr VARCHAR);

在 phoenix 中，表名等会自动转换为大写，若要小写，使用双引号，如"us_population"。

CREATE TABLE IF NOT EXISTS student1 (
id VARCHAR NOT NULL,
name VARCHAR NOT NULL,
age BIGINT,
addr VARCHAR
CONSTRAINT my_pk PRIMARY KEY (id, name));

注：Phoenix 中建表，会在 HBase 中创建一张对应的表。为了减少数据对磁盘空间的占用，Phoenix 默认会对 HBase 中的列名做编码处理。具体规则可参考官网链接： https://phoenix.apache.org/columnencoding.html，若不想对列名编码，可在建表语句末尾加上 COLUMN_ENCODED_BYTES = 0;

插入数据

upsert into student values('1001','zhangsan', 10, 'beijing');

查询记录

select * from student;
select * from student where id='1001';

删除记录

delete from student where id='1001';

删除表

drop table student;

退出命令行

!quit

表的映射

默认情况下， HBase 中已存在的表，通过 Phoenix 是不可见的。

如果要在 Phoenix 中操作 HBase 中已存在的表，可以在 Phoenix 中进行表的映射。

视图映射

Phoenix 创建的视图是只读的，所以只能用来做查询，无法通过视图对数据进行修改等操作。

create view "test" (
id varchar primary key,
"info1"."name" varchar, 
"info2"."address" varchar
);

drop view "test";

表映射

在 Pheonix 创建表去映射 HBase 中已经存在的表，是可以修改删除 HBase 中已经存在的数据的。

删除 Phoenix 中的表，那么 HBase 中被映射的表也会被删除。

进行表映射时，不能使用列名编码，需将 column_encoded_bytes 设为 0。

create table"test"(
id varchar primary key,
"info1"."name" varchar, 
"info2"."address" varchar
) column_encoded_bytes=0;

数字类型

HBase 中的数字，底层存储为补码

Phoenix 中的数字，底层存储为在补码的基础上，将符号位反转。

故在 Phoenix 中建表去映射 HBase 中已存在的表，当 HBase 中有数字类型的字段时，会出现解析错误的现象。

解决

不考虑负数

Phoenix 种提供了 unsigned_int，unsigned_long 等无符号类型，其对数字的编码解码方式和 HBase 是相同的，如果无需考虑负数，那在 Phoenix 中建表时采用无符号类型。

考虑负数

可通过 Phoenix 自定义函数，将数字类型的最高位，即符号位反转即可。

自定义函数可参考如下链接：https://phoenix.apache.org/udf.html。

JDBC

<dependency>
 <groupId>org.apache.phoenix</groupId>
 <artifactId>phoenix-client-hbase-2.4</artifactId>
 <version>5.1.2</version>
 </dependency>

import java.sql.*;
import java.util.Properties;

public class PhoenixClient {
    public static void main(String[] args) throws SQLException {
        // 标准的 JDBC 代码
        // 1.添加链接
        String url = "jdbc:phoenix:hadoop102,hadoop103,hadoop104:2181";
        // 2. 创建配置
        // 没有需要添加的必要配置 因为 Phoenix 没有账号密码
        Properties properties = new Properties();
        // 3. 获取连接
        Connection connection = DriverManager.getConnection(url, properties);
        // 5.编译 SQL 语句
        PreparedStatement preparedStatement = connection.prepareStatement("select * from student");
        // 6.执行语句
        ResultSet resultSet = preparedStatement.executeQuery();
        // 7.输出结果
        while (resultSet.next()) {
            System.out.println(resultSet.getString(1) + ":" + resultSet.getString(2) + ":" + resultSet.getString(3));
        }
        // 8.关闭资源
        connection.close();
        // 由于 Phoenix 框架内部需要获取一个 HBase 连接,所以会延迟关闭
        // 不影响后续的代码执行
        System.out.println("hello");
    }
}

Phoenix 二级索引

添加如下配置到 HBase 的 HRegionserver 节点的 hbase-site.xml。

<!-- phoenix regionserver 配置参数-->
<property>
 <name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCod
ec</value>
</property>

全局索引

Global Index 是默认的索引格式，创建全局索引时，会在 HBase 中建立一张新表。也就是说索引数据和数据表是存放在不同的表中的，因此全局索引适用于多读少写的业务场景。写数据的时候会消耗大量开销，因为索引表也要更新，而索引表是分布在不同的数据节点上的，跨节点的数据传输带来了较大的性能消耗。

在读数据的时候 Phoenix 会选择索引表来降低查询消耗的时间。

create index
my_index on student1(age);
drop index my_index
on student1;

查看二级索引是否有效，可以使用 explainPlan 执行计划，有二级索引之后会变成范围扫描

explain select 
id,name 
from student1 
where age = 10;

如果想查询的字段不是索引字段的话索引表不会被使用，也就是说不会带来查询速度的提升。

解决：

包索引

创建携带其他字段的全局索引（本质还是全局索引）。、

CREATE INDEX my_index ON my_table (v1) INCLUDE (v2);

本地索引

Local Index 适用于写操作频繁的场景。

索引数据和数据表的数据是存放在同一张表中（且是同一个 Region），避免了在写操作的时候往不同服务器的索引表中写索引带来的额外开销。

CREATE LOCAL INDEX my_index ON my_table (my_column);

my_column 可以是多个。

本地索引会将所有的信息存在一个影子列族中，虽然读取的时候也是范围扫描，但是没有全局索引快，优点在于不用写多个表了。

大数据技术专区

大数据从业者之家,一起探索大数据的无限可能！

更多推荐

SQL：数据去重的三种方法

SQL中去除重复数据

大数据技术专区

一文通览腾讯云大数据ES、数据湖计算、云数据仓库产品新版本技术创新

大数据技术专区

Hadoop——Windows系统下Hadoop单机环境搭建

大数据技术专区

所有评论(0)

查看更多评论

岱宗夫如何、

@qq_70770395

已为社区贡献5条内容

【HBase】整合Phoenix

岱宗夫如何、

文章目录

为什么使用

安装

Shell

显示所有表

创建表

插入数据

查询记录

删除记录

删除表

退出命令行

表的映射

视图映射

表映射

数字类型

解决

不考虑负数

考虑负数

JDBC

Phoenix 二级索引

包索引

本地索引

所有评论(0)

岱宗夫如何、