logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark3使用hive zstd压缩格式总结

ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFile,JsonFile,Parquet,Squence,CSV。ZSTD压缩格式的表和其他普通压缩表的SQL操作没有区别,可支持正常的增删查及聚合类S

#数据仓库#大数据#hive
Kafka Connect 的 REST API 接口

REST API由于 Kafka Connect 的意图是以服务的方式去运行,所以它提供了 REST API 去管理 connectors,默认的端口是 8083(我们也可以在启动 Kafka Connect 之前在配置文件中添加 rest.port 配置):GET /connectors:返回所有正在运行的 connector 名POST /connectors:新建一个 connector;请

#kafka#zookeeper#分布式
hive中实现group_concat

mysql中的group_concat分组连接功能相当强大,可以先分组再连接成字符串,还可以进行排序连接。但是hive中并没有这个函数,那么hive中怎么实现这个功能呢?这里要用到:concat_ws函数和collect_list、collect_set 函数。建立测试表(无分区表):create table if not exists db_name.test_tb(id string,cont

#大数据#hive
使用kafka connect结合debezium的方式采集oracle数据,日期类型时区问题处理

环境配置:1、kafka 2.8.02、debezium 1.9.03、oracle 11g使用kafka connect结合debezium的方式采集oracle数据, 参考我的上篇文章 https://blog.csdn.net/qq_36039236/article/details/124236918?spm=1001.2014.3001.5501本篇主要解决使用 debezium 采集数据

#oracle#kafka
Kafka Connect 的 REST API 接口

REST API由于 Kafka Connect 的意图是以服务的方式去运行,所以它提供了 REST API 去管理 connectors,默认的端口是 8083(我们也可以在启动 Kafka Connect 之前在配置文件中添加 rest.port 配置):GET /connectors:返回所有正在运行的 connector 名POST /connectors:新建一个 connector;请

#kafka#zookeeper#分布式
Flink Sql 定义watermark注意事项: java.time.format.DateTimeParseException

Flink版本: 1.12.0异常: java.time.format.DateTimeParseExceptionkafka数据源声明案例:CREATE TABLE user_actions_source (--`event_time` TIMESTAMP(3) METADATA FROM 'timestamp',--`partition` BIGINT METADATA VIRTUAL,--`

#flink
Hive如何实现 count(distinct ) over (partition by )?

使用 collect_set(字段) over(partition by ) 来实现:select * from(select o.*-- ,count(distinct package_id) over(partition by user_id) cnt报错,size(collect_set(package_id) over(partition by user_id)) cntfrom o) a

#hive#大数据
Flink SQL 数据sink到mysql时,非空列存在null值问题

flink sql 数据sink到mysql时,非空存在null值,插入mysql报错,配置下面的参数进行解决:table.exec.sink.not-null-enforcer对表的NOT NULL列约束强制执行不能将空值插入到表中。Flink支持“错误”(默认)和“删除”强制行为默认情况下,当将空值写入NOT NULL列时,Flink将检查值并引发运行时异常。用户可以将行为更改为“删除”,以在

#大数据#flink
FlinkSQL CDC实现同步oracle数据到mysql

环境准备1、flink 1.13.02、oracle 11g3、flink-connector-oracle-cdc 2.1.01、oracle环境配置首先需要安装oracle环境,参考 https://blog.csdn.net/qq_36039236/article/details/124224500?spm=1001.2014.3001.5502进入容器进行配置:docker exec -i

#flink#oracle
hive中实现group_concat

mysql中的group_concat分组连接功能相当强大,可以先分组再连接成字符串,还可以进行排序连接。但是hive中并没有这个函数,那么hive中怎么实现这个功能呢?这里要用到:concat_ws函数和collect_list、collect_set 函数。建立测试表(无分区表):create table if not exists db_name.test_tb(id string,cont

#大数据#hive
暂无文章信息