logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark常用三种运行模式

概述Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上),Mesos以及K8s等常用模式,本文介绍前三种模式。Spark-shell 参数Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上,也可以通过Spark-submit提交指定运用程序,Spark-shel...

#spark
Spark DataFrame 写入MySQL性能调优

最近在做公司运营报表时需要将百万数据一次性写入MySQL简单指定必须参数url,user,password,driver(也为必须参数,如果不指定会报错),dbtable后,发现写入数据时非常的慢,甚至只写入一部分后直接报错,为解决此问题,在网上搜索可以做以下调优spark jdbc参数介绍:在spark官网spark sql jdbc部分提供了以下参数:url:要连接的JDBC...

Sqoop增量导入导出总结

Sqoop做为关系型数据库RDBMS和大数据平台(HDFS,Hive,Hbase等)导入导出工具,如果不熟悉其参数作用,使用起来各种问题,本文作为博主对Sqoop的实践作出一定的总结,如有错误,仅供参考。Sqoop JobSqoop job 的是给使用者提供一个封装sqoop job的功能,其作用是可以自动更新job 的meta信息,让增量导入时指定的last-value自动被更新记录,不用额外的

#大数据
到底了