logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark离线批处理写入kafka调优

采用老版本spark(1.6)在离线批处理环境下,将DataFrame快速写入kafka,通常可以查到的大部分都是针对Spark-Streaming进行Kafka写入的说明,但是在离线批处理环境下,也希望将批量计算的DataFrame中的数据直接写入到某个topic中,在spark2.0以上,可以直接采用spark-streaming的写入方式,只要用read 代替 resdStream 和用 w

#spark#kafka#mapreduce +2
用ZK UI解决storm 读取Kafka时的Fetch offset *** is out of range for topic , resetting offset

可以用ZK UI 读取ToPology信息,然后更新offset值,如果为Null,可建一个假的,但是要保证kafka里有这个offset的数据。然后重启topology即可。

Spark SQL 日期和时间戳函数

Spark SQL 提供了内置的标准 Date 和 Timestamp函数,定义在 DataFrame API 中,所有函数都接受输入日期类型、时间戳类型或字符串。如果是String,是可以转换成日期格式,比如 或 ,分别返回date和timestamp;如果输入数据是无法转换为日期和时间戳的字符串,也返回 null。尽可能尝试利用标准库,因为与Spark UDF相比,它们在编译时更安全、可以处理

#spark#sql#大数据
到底了