
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
spark源码学习:sparkContext的初始化分析(四) 上次我们对于stage的划分没有详细的划分,这里就来看看这些stage到底是通过什么流程来实现的。稍微的说一下,这次的程序进入的接口是从上次的Onreceive方法进入的。由里面的JobSubmitted模式来匹配。进入这个方法来分析具体的流程操作。首先进入JobSubmitted方法:
spark源码学习:sparkContext的初始化分析 spark可以运行在本地模式local下,可以运行在yarn和standalone模式下,但是本地程序是通过什么渠道和这些集群交互的呢?那就是sparkContext,他在spark生态系统中的作用不言而喻,绝对是最重要的,整体架构如图所示: 这里我们简单的来剖析一下,sparkContext在初始化
hadoop源码编译:支持snappy压缩 在大数据的情况下,数据量都是特别的大,有时候呢,我们想把数据进行压缩之后在进行处理,这样呢可以大幅度的减少磁盘的IO而且还可以减少网络传输的压力,具体来讲对于本地的数据任务来讲,例如在map任务下,适当的对数据进行压缩,可以减少磁盘的IO,在涉及到reduce任务的时候呢,reduce就会从远程的磁盘进行数据拷贝,那么压缩数据就会减缓
hadoop是企业中是运行在yarn模式上的,他也有自己的本地运行模式,也就是只有一个JVM进程。除了yarn之外,还提供了Mesos 集群资源管理。但是spark还提供了standalone模式,可以手动的在该模式集群下启动master和work节点,还可以仅仅在单节点的环境下运行这些进程,该模式又分为两种方式,cluster模式和client模式。spark-shell是不支持cluster模
spark机器学习: spark现如今在大数据领域有着很重的地位,lz最喜欢的是基于spark之上的机器学习,也就是MlIB,这是基于分布式环境下的机器学习的开发库,简单的来说就是开发及机器学习的API。稍微的提及一下,分布式环境下的机器学习算法的开发,算法核心原理并不会发生变化,但是由于是大量的数据,我们需要的是注意如何减小系统IO流的压力。举个例子来说,我们知道随机森林下面会涉
深度学习入门:Aggregating Deep Convolutional Features for Image Retrieval 在原来的基于CNN的图像检索方法中使用的都是最后的全连接层的特征作为feature去进行相似度检索,但是这篇论文使用的是卷积层的特征。有一个区别需要注意的是卷积层的特征features map是N*W*H,但是fc层的特征却是一个vector
空间金字塔池化 空间金字塔池化层简介: 在对图片进行卷积操作的时候,卷积核的大小是不会发生变化的额,反向调节的权重仅仅是数值会发生变化。但是,但是,但是,输入的图片的大小你是否可以控制呢?哈哈,我们的输入图片大小是会发生变化的,这里图片大小的变化并不会在卷积操作和polling操作产生影响,但是会对全连接层的链接产生影响。这篇文章的核心就是解决如何
Fully Convolutional Networks
空间金字塔池化 空间金字塔池化层简介: 在对图片进行卷积操作的时候,卷积核的大小是不会发生变化的额,反向调节的权重仅仅是数值会发生变化。但是,但是,但是,输入的图片的大小你是否可以控制呢?哈哈,我们的输入图片大小是会发生变化的,这里图片大小的变化并不会在卷积操作和polling操作产生影响,但是会对全连接层的链接产生影响。这篇文章的核心就是解决如何
深度学习入门:Aggregating Deep Convolutional Features for Image Retrieval 在原来的基于CNN的图像检索方法中使用的都是最后的全连接层的特征作为feature去进行相似度检索,但是这篇论文使用的是卷积层的特征。有一个区别需要注意的是卷积层的特征features map是N*W*H,但是fc层的特征却是一个vector







