logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hbase之Rowkey设计原则

一、rowkey设计原则二、不同模式下rowkey设计1.写优化hashing散列salting加盐Reverse反转2.读优化三、rowkey设计案例1 设计订单状态表2 登录、下单等等统称事件(event)的临时存储

#hbase#大数据
Kafka Topic全局和单个过期时间

全局设置:1)需要修改server.properties配置如下:log.retention.hours=168 ( 168h(7天) 配置该参数即可)log.cleanup.policy=delete (默认,可不配置)2) 修改配置后重启kafka服务生效,该种设置消息过期时间的优点是可以对所有topic全部生效,缺点是需要重启kafka服务,造成服务短暂的不可用!特定Topic设置:可以不停

#kafka#分布式
Spark读取Hbase (scala版)

spark 读取 Hbase数据(put、scan)

#hbase#spark#scala
Hbase TimeStamp的妙用

基本架构:实时写入时,需要考虑数据更新的顺序,要做到spark消费kafka里的数据是按照时间顺序消费的,不然可能5s的数据会被4s(迟到/不同分区)来的数据覆盖;实时写入的顺序,大都由CDC(canal、debezium等)控制。针对每一条数据的更新,CDC都会对“表名+主键”进行Hash,路由到Kafka对应的分区。其实针对某个表某条记录的更新,消费时是有严格的顺序的。但如果后期更改kafka

#hbase#大数据#kafka
kafka消息删除机制

kafka过期消息删除过程:有时候总觉得我的消息没到7天就被删除了,我还以为是我的kafka配置没有生效,了解到 kafka删除机制后才恍然大悟kafka消息首先由用户设定一个或多个partition,每个partition中kafka会根据消息量来逐步建立多个segment存储消息,每个segment的大小由配置项进行设定,比如这里log.segment.bytes=1073741824 【1G

#kafka#分布式
Spark/Hive 行列转换

explodedemoexplode(map)lateral view explode(map)explode(array)lateral viewdemolateral view explode统计id出现次数lateral view parse_url_tuple列转行单列转多行LATERAL VIEW explode多列转多行LATERAL VIEW posexplodesplit行转列单行

#hive#spark#大数据
Spark sql 常用时间函数

List functioncurrent_date()当前日期now() 或 current_timestamp() 当前时间datediff(endDate, startDate)日期相差天数months_between(endDate, startDate)日期相差月数date_add(startDate, numDays)日期加N天date_sub(startDate, numDays)日期

#sql#数据库
暂无文章信息