logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark sql on yarn 启动失败 ERROR client.TransportClient: Failed to send RPC RPC

19/04/17 02:54:57 ERROR client.TransportClient: Failed to send RPC RPC 7651764253676103503 to /10.169.12.139:45996: java.nio.channels.ClosedChannelExceptionjava.nio.channels.ClosedChannelException...

#yarn
spark2.0原理源码解析(二) : spark submit 脚本解析

从上一篇文章中我们得知 spark-shell 实际上调用的是 spark-submit 脚本本篇来看下 spark submit 脚本实现。if [ -z "${SPARK_HOME}" ]; thensource "$(dirname "$0")"/find-spark-homefi# disable randomized hash

hadoop namenode启动过程

NameNode启动过程详细剖析1. FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(sec,由fs.checkpoint.p..

spark 大型项目实战(四十一):算子调优之使用repartition解决Spark SQL低并行度的性能问题

并行度:之前说过,并行度是自己可以调节,或者说是设置的。1、spark.default.parallelism2、textFile(),传入第二个参数,指定partition数量(比较少用)咱们的项目代码中,没有设置并行度,实际上,在生产环境中,是最好自己设置一下的。官网有推荐的设置方式,你的spark-submit脚本中,会指定你的application总共要启动多少个executo...

spark 大型项目实战(二十六): --性能调优之在实际项目中分配更多资源

分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的;基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上,如果说你的spark作业,能够分配的资源达到了你的能力范围的顶端之后,无法再分配更多的资源了,公司资源有限;那么才是考虑去做后面的这

#spark
spark 大型项目实战(九):用户访问session分析(九) --开发JDBC辅助组件(连接池)

项目源码:https://github.com/haha174/spark-session-project.git在第八篇文章中介绍到了单例模式首先我们使用单例模式创建一个连接池保存程序初始启动时获取的链接信息如下// 为什么要实现代理化呢?因为它的内部要封装一个简单的内部的数据库连接池// 为了保证数据库连接池有且仅有一份,所以就通过单例的方式// 保证JDB...

#spark
spark 集群安装

文章地址:http://www.haha174.top/article/details/253943首先需要安装jdk不会可以参考这里(http://www.haha174.top/article/details/259178)安装scala(懒得写了 不会的话自行百度)安装 hadoop(http://www.haha174.top/article/details/258

#spark#hadoop#scala +1
Java 中的几种基本数据类型是什么?各自占用多少字节?

Java中有八种基本数据类型1、boolen—>1bit2、byte----->1字节3、short---->2字节4、char----->2字节5、int------>4字节6、float---->4字节7、long----->8字节8、double—>8字节但是其实boolean 这个一块是比较有争议得 详情可以看下这个https://blog.

并行计算框架MapReduce编程模型

一. 简介MapReduce计算框架是Google提出的一种并行计算框架,是Google云计算模型MapReduce的java开源实现,用于大规模数据集(通常1TB级以上)的并行计算。但其实,MR不仅是一种分布式的运算技术,也是简化的分布式编程模式,是用于解决问题的程序开发模型。二.MapReduce基本编程模型和框架一种分布式计算模型,解决海量数据的计算问题MapReduce 将整个并...

spark从入门到放弃四十一:Spark Streaming(1) 简介

文章地址:http://www.haha174.top/article/details/2519951.大数据实时计算介绍1.Spark Streaming其实就是一种spark提供的对于大数据进行实时计算的一种框架,他的底层其实也是之前提到的sparkcore基本的计算模型,还是基于内存的大数据实时计算模型。而且他的底层的组件或者叫做概念其实最核心的还是RDD.只不过,针...

#spark#大数据
    共 22 条
  • 1
  • 2
  • 3
  • 请选择