梦想养猫开书店个人主页

@weixin_42960808

梦想养猫开书店

2023-01-28 13:40:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

17、使用SparkTs进行时序预测

之前也做过时序预测的业务，只不过使用的是pyspark+fbprophet（下次记录一下pyspark+fbprophet的使用笔记），这次使用sparkts里的holtWinters模型批量对多个商户的营业额进行预测。

#spark #机器学习

37、org.apache.hadoop.hive.serde2.JsonSerDe的源码修改

在spark-measure源码修改用于数据质量笔记中，说到了使用hive外部表读取spark-measure的监测结果json数据。hive外部表ddl使用了 ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.JsonSerDe’。但是在spark离线项目中因为hive版本的原因导致spark无法通过hive表读取数据。

#hadoop #apache #hive +1

5、spark.sql.codegen.wholeStage: ‘false‘ 关闭spark sql 语句长度校验

如题，当在Spark 任务中，通过一些例如递归等方式去构建dataframe或者dataframe的过滤条件等，可能会出现spark sql 长度超过限制的报错，可以通过设置 spark.sql.codegen.wholeStage: ‘false’ 来关闭长度校验。

#spark #sql #大数据

16、SparkMl的简单使用

SparkMl使用的不多，一两年前业务上需要就用了一下，之后就没再使用了，最近又有需求了，使用SparkMl做了一下时序预测，先在这一篇笔记里记录一下之前使用SparkMl的简单应用。这个案例使用的是随机森林模型。

#spark-ml #机器学习

到底了