雾岛与鲸个人主页

@qq_36039236

雾岛与鲸

2022-09-16 17:38:06 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

spark3使用hive zstd压缩格式总结

ZSTD（全称为Zstandard）是一种开源的无损数据压缩算法，其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式，本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC，RCFile，TextFile，JsonFile，Parquet，Squence，CSV。ZSTD压缩格式的表和其他普通压缩表的SQL操作没有区别，可支持正常的增删查及聚合类S

#数据仓库 #大数据 #hive

Kafka Connect 的 REST API 接口

REST API由于 Kafka Connect 的意图是以服务的方式去运行，所以它提供了 REST API 去管理 connectors，默认的端口是 8083（我们也可以在启动 Kafka Connect 之前在配置文件中添加 rest.port 配置）：GET /connectors：返回所有正在运行的 connector 名POST /connectors：新建一个 connector；请

#kafka #zookeeper #分布式

hive中实现group_concat

mysql中的group_concat分组连接功能相当强大，可以先分组再连接成字符串，还可以进行排序连接。但是hive中并没有这个函数，那么hive中怎么实现这个功能呢？这里要用到：concat_ws函数和collect_list、collect_set 函数。建立测试表（无分区表）：create table if not exists db_name.test_tb(id string,cont

#大数据 #hive

使用kafka connect结合debezium的方式采集oracle数据，日期类型时区问题处理

环境配置:1、kafka 2.8.02、debezium 1.9.03、oracle 11g使用kafka connect结合debezium的方式采集oracle数据, 参考我的上篇文章 https://blog.csdn.net/qq_36039236/article/details/124236918?spm=1001.2014.3001.5501本篇主要解决使用 debezium 采集数据

#oracle #kafka

Kafka Connect 的 REST API 接口

#kafka #zookeeper #分布式

Flink Sql 定义watermark注意事项: java.time.format.DateTimeParseException

Flink版本: 1.12.0异常: java.time.format.DateTimeParseExceptionkafka数据源声明案例:CREATE TABLE user_actions_source (--`event_time` TIMESTAMP(3) METADATA FROM 'timestamp',--`partition` BIGINT METADATA VIRTUAL,--`

#flink

Hive如何实现 count(distinct ) over (partition by )？

使用 collect_set(字段) over(partition by ) 来实现:select * from(select o.*-- ,count(distinct package_id) over(partition by user_id) cnt报错,size(collect_set(package_id) over(partition by user_id)) cntfrom o) a

#hive #大数据

Flink SQL 数据sink到mysql时，非空列存在null值问题

flink sql 数据sink到mysql时，非空存在null值，插入mysql报错，配置下面的参数进行解决:table.exec.sink.not-null-enforcer对表的NOT NULL列约束强制执行不能将空值插入到表中。Flink支持“错误”（默认）和“删除”强制行为默认情况下，当将空值写入NOT NULL列时，Flink将检查值并引发运行时异常。用户可以将行为更改为“删除”，以在

#大数据 #flink

FlinkSQL CDC实现同步oracle数据到mysql

环境准备1、flink 1.13.02、oracle 11g3、flink-connector-oracle-cdc 2.1.01、oracle环境配置首先需要安装oracle环境，参考 https://blog.csdn.net/qq_36039236/article/details/124224500?spm=1001.2014.3001.5502进入容器进行配置:docker exec -i

#flink #oracle

hive中实现group_concat

#大数据 #hive

暂无文章信息