
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
数据倾斜原因及处理
数据倾斜原因和处理?1原因1)、key分布不均匀2)、业务数据本身的特性3)、建表时考虑不周4)、某些SQL语句本身就有数据倾斜操作情形group bygroup by 维度过小,某值的数量过多Count Distinct某特殊值过多Join大表join小表,其中小表key集中,分发到某一个或几个reduce上的数据远高于平均值2数据倾斜的解决方案2.1参数调节:set hive.map.aggr
Spark API
Spark APISparkContext1、连接Driver与Spark Cluster(Workers)2、Spark的主入口3、每个JVM仅能有一个活跃的SparkContextimport org.apache.spark.{SparkConf, SparkContext}创建SparkContext对象val conf=new SparkConf().setMaster("local[2
到底了







