
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
性能优化:使用高性能的库fastutilfastutil介绍:fastutil是扩展了Java标准集合框架(Map、List、Set;HashMap、ArrayList、HashSet)的类库,提供了特殊类型的map、set、list和queue;fastutil能够提供更小的内存占用,更快的存取速度;我们使用fastutil提供的集合类,来
先看源码注释中的内容CallSite represents a place in user code. It can have a short and a long form./* CallSite表示用户代码中的一个位置。它可以有短的和长的形式。 */实际去debug一个案例 查看,callsite中存储了哪些内容。下边两张图为自己的代码。下边一张图为stage的内容。正如注释写的一样 ,cal
1.spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Resilient:表示弹性的,弹性表示1.RDD中的数据可以存储在内存或者磁盘中;2
1 涉及到的API12BaseRelation: In a simple way, we can say it represents the collection of tuples with known schemaTableScan: provides a way to scan the data and generates the RDD[Row] from the data<br&g
使用json格式化工具格式化,将特殊 空格 换行 符号替换。sublime打开ipynb,将文件改为 utf8格式。







