logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

性能优化-使用高性能的库fastutil

性能优化:使用高性能的库fastutilfastutil介绍:fastutil是扩展了Java标准集合框架(Map、List、Set;HashMap、ArrayList、HashSet)的类库,提供了特殊类型的map、set、list和queue;fastutil能够提供更小的内存占用,更快的存取速度;我们使用fastutil提供的集合类,来

#spark
spark stage 中的CallSite

先看源码注释中的内容CallSite represents a place in user code. It can have a short and a long form./* CallSite表示用户代码中的一个位置。它可以有短的和长的形式。 */实际去debug一个案例 查看,callsite中存储了哪些内容。下边两张图为自己的代码。下边一张图为stage的内容。正如注释写的一样 ,cal

spark 面试

1.spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集群计算Resilient:表示弹性的,弹性表示1.RDD中的数据可以存储在内存或者磁盘中;2

#spark
Spark SQL自定义外部数据源

1 涉及到的API12BaseRelation: In a simple way, we can say it represents the collection of tuples with known schemaTableScan: provides a way to scan the data and generates the RDD[Row] from the data<br&g

python notebook 在加载ipynb文件 报错NotJSONError(‘Notebook does not appear to be JSON: \‘\\ufeff{“nbformat“

使用json格式化工具格式化,将特殊 空格 换行 符号替换。sublime打开ipynb,将文件改为 utf8格式。

到底了