logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

客快物流大数据项目(四十):ETL实现方案

目录ETL实现方案一、ETL处理流程图二、为什么使用Kudu作为存储介质ETL实现方案一、​​​​​​​ETL处理流程图数据来源:来自于ogg同步到kafka的物流运输数据来自于canal同步到kafka的客户关系数据二、为什么使用Kudu作为存储介质数据库数据上的快速分析目前很多业务使用事务型数据库(MySQL、Oracle)做数据分析,把数据写入数据库...

文章图片
#大数据#etl#数据仓库
客快物流大数据项目(一百):ClickHouse的使用 spark操作ClickHouse代码

ClickHouse的使用一、使用Java操作ClickHouse1、构建maven工程2、​​​​​​​导入依赖<!-- Clickhouse --><dependency><groupId>ru.yandex.clickhouse</groupId><artifactId>clickhous...

文章图片
#大数据#clickhouse#spark +1
大数据之flink教程

第一章 Flink简介1.1 初识FlinkFlink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为...

#大数据#flink#kafka +2
尚大数据技术之高频面试题9.0.5

尚硅谷大数据技术之高频面试题版本:V9.0.5目录第 1 章 核心技术...........................................................................................................................101.1 Linux&Shell...................

#大数据
大数据实时项目(交易额)

第一章·采集数据1 框架流程2 canal 入门2.1 什么是 canal阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。canal是用java开发的基于数据库增量日志解析...

#数据库#中间件
04. 《大数据架构师5期》—企业级Hadoop源码二次开发(4)_ev

hdfs写数据流程契约部分hdfs文件最小单位创建socket请求发送给dataXceiverserver两个datanode之间通过blockReceiver建立管道将数据发送到下游管道内的所有数据写成功才移除ackqueue中的数据...

#hadoop#大数据#hdfs +2
大数据技术之Scala

第1章Scala入门1.1 概述1.1.1为什么学习Scala1.1.2 Scala发展历史1.1.3 Scala和Java关系一般来说,学Scala的人,都会Java,而Scala是基于Java的,因此我们需要将Scala和Java以及JVM之间的关系搞清楚,否则学习Scala你会蒙圈。1.1.4 Scala语言特点1.2Scala环境搭建1)安装步骤(...

#scala#大数据#java +2
大数据面试题4 ---一般有用太多

第1部分选择题1.1Hadoop选择题1.1.1Hdfs1.下面哪个程序负责 HDFS 数据存储?a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2.HDfS 中的 block 默认保存几份?a)3份b)2份c)1份...

#大数据#hadoop#mapreduce +2
数据治理--数据盘点 盘点流程 表,字段调研 政府三清单 政府共享平台

第二步比较重要:对现有的数据做抽象,做主题分类最后一步分析字段比较麻烦,因为有时候数据库字段并没有注释,需要从前台系统插入数据一步步了解流程图viso自己画,业务系统调研-系统业务人员填写业务系统调研模板不需要录入系统的表调研表的模板调研字段模板政府案例政府三清单模板政府部门共享交换平台...

文章图片
每天千万级订单的生成背后痛点及技术突破 了解随订单量的提升,数据库系统经历了哪些变化,这些变化带来哪些痛点 一般有用 看1...

千万级订单的生成了解随订单量的提升,数据库系统经历了哪些变化,这些变化带来哪些痛点分库分表环境下,订单的id生成有哪些办法雪花算法的原理及实现支付环境下,对订单系统的架构设计带来哪些影响1. 架构体系深入剖析1.1 演进与背景随着数据量的增长,一般db的架构,经历如下演进:1)单库主从业务请求并发量大到一定量级后,单一主库无法承受,将读写剥离,从库诞生。挑战:开发层框架支持,...

#数据库
    共 22 条
  • 1
  • 2
  • 3
  • 请选择