
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Spark代表着下一代大数据处理技术,并且,借着开源算法和计算节点集群分布式处理,Spark和Hadoop在执行的方式和速度已经远远的超过传统单节点的技术架构。但Spark利用内存进行数据处理,这让Spark的处理速度超过基于磁盘的Hadoop 100x 倍。 但Spark和内存数据库Redi...
用Spark来替代Hadoop的观点在很早以前笔者就有耳闻,其实提出这种观点的原因还是在于Spark和Hadoop两者之间存在的差异。首先,两者都是开源的,这使得他们能够大规模应用在大数据分析领域,也能够在其基础上进行多样性的开发;其次,Spark立足与Scala,使得Scala拥有了高性能的...
大数据Spark有怎样的缓存机制?首先Spark是开源的,所以翻看一下Spark的代码也能够多少了解一下Spark的缓存机制。在Spark较早的版本中,CacheManager的主要功能就是缓存,假设用户将一个分区的RDD 数据 cache了,当再次需要使用这份数据的时候是可以从缓存中进行提取...
随着大数据应用得日益广泛,与大数据相关的话题也越来越被大家所热议。在IT界,大数据同样是热门。作为学生党的我,最近也在研究关于大数据的内容。作为一个技术迷,总是会想尝试一些新鲜的东西。前一段时间学习了Hadoop之后,又想开始体验Spark。那么现在就讨论一下关于Spark的话题。 Spark...
说起MapReduce,可以从思想、模型和运算及应用过程等几个方面来进行理解。首先,来简单说说它的思想。MapReduce可以说是凝结了人类对数据处理工作的基本思想,即分类与汇总。我们都知道,MapReduce其实分为两个阶段,即map阶段和reduce阶段。map阶段即映射阶段,该阶段主要负...
Class对象是存放在堆区的,不是方法区,这点很多人容易犯错。类的元数据(元数据并不是类的Class对象。Class对象是加载的最终产品,类的方法代码,变量名,方法名,访问权限,返回值等等都是在方法区的)才是存在方法区的。 方法区 在一个JVM实例的内部,类型信息被存储在一个称为方法区的内存...
“一次编译、到处运行”说的是Java语言跨平台的特性,简单地来讲,Java的跨平台特性与Java虚拟机的存在密不可分,可在不同的环境中运行。比如说Windows平台和Linux平台都有相应的JDK,安装好JDK后也就有了Java语言的运行环境。其实Java语言本身与其他的编程语言没有特别大的差...