
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
ping -l 65500 -t node1
在 Kubernetes 中,若要让部署的 Docker 容器使用外部 DNS 服务器,可以通过以下步骤配置。具体方法取决于是想还是修改 Pod 的 YAML 配置,直接指定 DNS 服务器地址。
启动namenode报错:Journal Storage Directory /var/bigdata/hadoop/full/dfs/jn/dmgeo not formatted在测试flink的HA时,把某个节点(部署了jobmanager和namenode)的节点reboot了,然后启动时发现namenode没有起来,报错大概如下:org.apache.hadoop.hdfs.qjourna
什么是Spark?Spark是处理大数据常用的计算引擎。Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。和MapReduce相比,spark支持内存计算,一般比MapReduce更高效。一般我们在提交spark任务的时候,都会去其UI界面查看任务运行状况。其中就有job、stage、task的一些
title: ‘模板’date: 2021-01-01 00:00:00tags: [scala]published: truehideInList: false#feature: /post-images/hello-gridea.pngisTop: falseGeospark空间查询Geospark空间查询GeoSpark空间索引GeoSpark提供两种空间索引:Quad-Tree和R-Tre
深入理解spark-两种调度模式FIFO,FAIR模式前面我们应知道了一个任务提交会由DAG拆分为job,stage,task,最后提交给TaskScheduler,在提交taskscheduler中会根据master初始化taskscheduler和schedulerbackend两个类,并且初始化一个调度池;1.调度池比较根据mode初始化调度池pooldef initialize(backe
请注意,Spark2.x是用Scala2.11预构建的,但2.4.2版本除外,它是用Scala2.12预构建的。Smark3.0+是用Scala2.12预构建的。spark-env.sh中配置:export SPARK_DIST_CLASSPATH=$(/opt/bigdata/hadoop-2.9.2/bin/hadoop classpath)有了SPARK_DIST_CLASSPATH配置信息
reduceByKey➢ 函数签名def reduceByKey(func: (V, V) => V): RDD[(K, V)]def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]➢ 函数说明可以将数据按照相同的 Key 对 Value 进行聚合val dataRDD1 = sparkContext.ma