南风知我意丿个人主页

@Lzx116

南风知我意丿

2022-09-29 18:08:26 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Hbase之Rowkey设计原则

一、rowkey设计原则二、不同模式下rowkey设计1.写优化hashing散列salting加盐Reverse反转2.读优化三、rowkey设计案例1 设计订单状态表2 登录、下单等等统称事件(event)的临时存储

#hbase #大数据

Kafka Topic全局和单个过期时间

全局设置：1）需要修改server.properties配置如下：log.retention.hours=168 ( 168h(7天) 配置该参数即可)log.cleanup.policy=delete （默认，可不配置）2）修改配置后重启kafka服务生效，该种设置消息过期时间的优点是可以对所有topic全部生效，缺点是需要重启kafka服务，造成服务短暂的不可用！特定Topic设置：可以不停

#kafka #分布式

Spark读取Hbase (scala版)

spark 读取 Hbase数据（put、scan）

#hbase #spark #scala

Hbase TimeStamp的妙用

基本架构：实时写入时，需要考虑数据更新的顺序，要做到spark消费kafka里的数据是按照时间顺序消费的，不然可能5s的数据会被4s(迟到/不同分区)来的数据覆盖；实时写入的顺序，大都由CDC（canal、debezium等）控制。针对每一条数据的更新，CDC都会对“表名+主键”进行Hash，路由到Kafka对应的分区。其实针对某个表某条记录的更新，消费时是有严格的顺序的。但如果后期更改kafka

#hbase #大数据 #kafka

kafka消息删除机制

kafka过期消息删除过程：有时候总觉得我的消息没到7天就被删除了，我还以为是我的kafka配置没有生效，了解到 kafka删除机制后才恍然大悟kafka消息首先由用户设定一个或多个partition，每个partition中kafka会根据消息量来逐步建立多个segment存储消息，每个segment的大小由配置项进行设定，比如这里log.segment.bytes=1073741824 【1G

#kafka #分布式

Spark/Hive 行列转换

explodedemoexplode(map)lateral view explode(map)explode(array)lateral viewdemolateral view explode统计id出现次数lateral view parse_url_tuple列转行单列转多行LATERAL VIEW explode多列转多行LATERAL VIEW posexplodesplit行转列单行

#hive #spark #大数据

Spark sql 常用时间函数

List functioncurrent_date()当前日期now() 或 current_timestamp() 当前时间datediff(endDate, startDate)日期相差天数months_between(endDate, startDate)日期相差月数date_add(startDate, numDays)日期加N天date_sub(startDate, numDays)日期

#sql #数据库

暂无文章信息