
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
37、org.apache.hadoop.hive.serde2.JsonSerDe的源码修改
在spark-measure源码修改用于数据质量笔记中,说到了使用hive外部表读取spark-measure的监测结果json数据。hive外部表ddl使用了 ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.JsonSerDe’。但是在spark离线项目中因为hive版本的原因导致spark无法通过hive表读取数据。

5、spark.sql.codegen.wholeStage: ‘false‘ 关闭spark sql 语句长度校验
如题,当在Spark 任务中,通过一些例如递归等方式 去构建dataframe或者dataframe的过滤条件等,可能会出现spark sql 长度超过限制的报错,可以通过设置 spark.sql.codegen.wholeStage: ‘false’ 来关闭长度校验。

16、SparkMl的简单使用
SparkMl使用的不多,一两年前业务上需要就用了一下,之后就没再使用了,最近又有需求了,使用SparkMl做了一下时序预测,先在这一篇笔记里记录一下之前使用SparkMl的简单应用。这个案例使用的是随机森林模型。

到底了







