logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark 数据倾斜处理

六大代码优化:避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化尽量避免使用shuffle类算子使用map-side预聚合的shuffle操作使用高性能的算子广播大变量使用Kryo优化序列化性能优化数据结构使用高性能的库fastutil如何选择一种最合适的持久化策略 1默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个

文章图片
#spark#java
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现

目前的Hdfs版本来讲,其文件系统中的文件是不能做改变的,也就是说Hive的表只能进行删除和添加操作,而不能进行update。而且我们要确定拉链表的时间粒度,比如说拉链表每天只取一个状态,也就是说如果一天有3个状态变更,我们只取最后一个状态,这种天粒度的表其实已经能解决大部分的问题了。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。缺点就是存储空间占用量太大太大了,如果对这边表每天都

文章图片
#hive#数据仓库#大数据
数据仓库架构以及数据模型的设计

总的来说,数据中台距离业务更近,数据复用能力更强,能为业务提供速度更快的服务,数据中台在数据仓库和数据平台的基础上,将数据生产为一个个数据API服务,以更高效的方式提供给业务。2)逻辑模型LDM:逻辑模型反映的是系统分析人员对数据存储的观点,是对概念模型的进一步分解和细化,逻辑模型是根据业务规则确定的,关于业务对象,业务对象的数据项以及业务对象之间关系的基本蓝图。面向主题的数据组织方式,就是在较高

文章图片
#数据仓库#架构#数据库
大数据面试题2

1)基本介绍金山云2.21号下午4点:电话面试部门主要是做数据平台,二次开发改源代码面试时长:1小时2)技术部分:(1)HashMap,HashTable,ConcurrentHashMap区别,HashMap扩容;注解的使用和内部原理(2)Spark 任务划分,Job提交流程;(3)根据进程名杀死进程;查看端口号占用情况;(4)Flume如何保证数据不丢;TailDir如何保证数据完整性;记不清

文章图片
#大数据#java#开发语言
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现

目前的Hdfs版本来讲,其文件系统中的文件是不能做改变的,也就是说Hive的表只能进行删除和添加操作,而不能进行update。而且我们要确定拉链表的时间粒度,比如说拉链表每天只取一个状态,也就是说如果一天有3个状态变更,我们只取最后一个状态,这种天粒度的表其实已经能解决大部分的问题了。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。缺点就是存储空间占用量太大太大了,如果对这边表每天都

文章图片
#hive#数据仓库#大数据
sqoop 详解

Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。导出数据:从hadoop的文件系统中导出数据到关系型数据库中。

文章图片
#sqoop
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现

目前的Hdfs版本来讲,其文件系统中的文件是不能做改变的,也就是说Hive的表只能进行删除和添加操作,而不能进行update。而且我们要确定拉链表的时间粒度,比如说拉链表每天只取一个状态,也就是说如果一天有3个状态变更,我们只取最后一个状态,这种天粒度的表其实已经能解决大部分的问题了。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。缺点就是存储空间占用量太大太大了,如果对这边表每天都

文章图片
#hive#数据仓库#大数据
银行十大主题域

它可以记录的范围非常广泛,可以记录各种与银行相关的活动的详细情况,包括交易数据,比如存款、提款、付款、收取信用卡年费、计算利息和费用、投诉、查询产品、查询地址、查询余额、网上交易等。银行是一个企业,同时也是一个机构,涉及企业机构就会有资产,财务的存在,银行有自己的产品(信用卡,黄金,期货等)有产品就需要有人进行买卖,买卖的人这就是当事人,进行的买卖就是销售,有销售就得有渠道(不管是线上还是线下),

文章图片
#大数据
数据仓库架构以及数据模型的设计

总的来说,数据中台距离业务更近,数据复用能力更强,能为业务提供速度更快的服务,数据中台在数据仓库和数据平台的基础上,将数据生产为一个个数据API服务,以更高效的方式提供给业务。2)逻辑模型LDM:逻辑模型反映的是系统分析人员对数据存储的观点,是对概念模型的进一步分解和细化,逻辑模型是根据业务规则确定的,关于业务对象,业务对象的数据项以及业务对象之间关系的基本蓝图。面向主题的数据组织方式,就是在较高

文章图片
#数据仓库#架构#数据库
到底了