风翔个人主页

@sequoia00

风翔

2022-09-29 17:16:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

spark离线批处理写入kafka调优

采用老版本spark(1.6)在离线批处理环境下，将DataFrame快速写入kafka，通常可以查到的大部分都是针对Spark-Streaming进行Kafka写入的说明，但是在离线批处理环境下，也希望将批量计算的DataFrame中的数据直接写入到某个topic中，在spark2.0以上，可以直接采用spark-streaming的写入方式，只要用read 代替 resdStream 和用 w

#spark #kafka #mapreduce +2

用ZK UI解决storm 读取Kafka时的Fetch offset *** is out of range for topic , resetting offset

可以用ZK UI 读取ToPology信息，然后更新offset值，如果为Null，可建一个假的，但是要保证kafka里有这个offset的数据。然后重启topology即可。

Spark SQL 日期和时间戳函数

Spark SQL 提供了内置的标准 Date 和 Timestamp函数，定义在 DataFrame API 中，所有函数都接受输入日期类型、时间戳类型或字符串。如果是String，是可以转换成日期格式，比如或，分别返回date和timestamp；如果输入数据是无法转换为日期和时间戳的字符串，也返回 null。尽可能尝试利用标准库，因为与Spark UDF相比，它们在编译时更安全、可以处理

#spark #sql #大数据

到底了