logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

37、org.apache.hadoop.hive.serde2.JsonSerDe的源码修改

在spark-measure源码修改用于数据质量笔记中,说到了使用hive外部表读取spark-measure的监测结果json数据。hive外部表ddl使用了 ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.JsonSerDe’。但是在spark离线项目中因为hive版本的原因导致spark无法通过hive表读取数据。

文章图片
#hadoop#apache#hive +1
5、spark.sql.codegen.wholeStage: ‘false‘ 关闭spark sql 语句长度校验

如题,当在Spark 任务中,通过一些例如递归等方式 去构建dataframe或者dataframe的过滤条件等,可能会出现spark sql 长度超过限制的报错,可以通过设置 spark.sql.codegen.wholeStage: ‘false’ 来关闭长度校验。

文章图片
#spark#sql#大数据
16、SparkMl的简单使用

SparkMl使用的不多,一两年前业务上需要就用了一下,之后就没再使用了,最近又有需求了,使用SparkMl做了一下时序预测,先在这一篇笔记里记录一下之前使用SparkMl的简单应用。这个案例使用的是随机森林模型。

文章图片
#spark-ml#机器学习
到底了