
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一.flume组成和事务flume组成为source channel sink 事务包含put事务 take事务常用的source channeltaildir source:断点续传,多目录. flume1.6以前需要自己自定义source记录每次读取文件位置,实现断点续传file channel: 数据存储在磁盘,宕机数据可以保存.但是传输速率慢.适合对数据传输可靠性要求高的场景,比如金融行业
一.创建DataSet的几种方式
数据库概念:长期存放在计算机内,有组织、可共享的大量数据的集合,是一个数据“仓库”作用:保存、管理数据关系型数据库(SQL)MySQL、Oracle、SQL Server、SQLite、DB2,Hive非关系型数据库(NOSQL)Redis、MongoDB,Hbase数据库管理系统(Database Management System)DBMS–>服务数据管理软件,科学组织和存储数据、高效地
文章目录一、业务库1.1 数据模型1.2生成数据二、数据仓库2.1 模型搭建2.1.1 选择业务流程2.1.2 粒度2.1.3 确认维度2.1.4 确认事实2.1.4.1 建立物理模型2.1.4.2 建库、装载数据三.编写脚本配合 crontab 命令实现 ETL 自动化一、业务库1.1 数据模型源系统是 mysql 库,数据模型如下1.2生成数据-- 建库CREATE DATABASE IF N
文章目录一、业务库1.1 数据模型1.2生成数据二、数据仓库2.1 模型搭建2.1.1 选择业务流程2.1.2 粒度2.1.3 确认维度2.1.4 确认事实2.1.4.1 建立物理模型2.1.4.2 建库、装载数据三.编写脚本配合 crontab 命令实现 ETL 自动化一、业务库1.1 数据模型源系统是 mysql 库,数据模型如下1.2生成数据-- 建库CREATE DATABASE IF N
文章目录一.描述一下Hive动态分区和分桶使用场景和使用方法1.分区2.分桶二.Hive是怎么集成HBase三.Hive join查询的时候on和where有什么区别四.Hive里面的left join是怎么执行的?五.Hive内部表,外部表,分区表六.Hive和mysql有什么区别,大数据为什么不用MySQL做存储和数据处理?七.Hive如何调优八.Hive数据倾斜原因和处理?九.Hive的自定
一hdfs.写数据流程1.客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2.NameNode返回是否可以上传。不能上传会返回异常。3.确定可以上传,客户端请求第一个block上传到哪几个datanode服务器上。4.NameNode返回3个datanode节点,假定分别为dn1,dn2,dn3。5.
一.数仓中是如何划分主题的主题(subject)是在较高层次上将企业信息系统中的数据进行综合,归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域.在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象.例如销售分析就是一个分析领域,因此这个数据仓库应用的主题就是销售分析主题是根据分析的要求来确定的.这与按照数据处理或应用的要求来组织数据是不同的.如在生产企业中,同样是材料供应
文章目录一.数据仓库1.什么是数据仓库1)面向主题2)集成3)非易失4)随时间变化二.数据仓库和数据库的区别三.数据仓库的架构四.数据仓库的建模1.选择业务流程2.声明粒度3.确认维度4.确认事实5.星型模型特点6.雪花模型特点一.数据仓库1.什么是数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合1)面向主题主题(Subject)是在较高层次上将企业信息系统中的数据进行综合
为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图(Graph)的基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构通常表示为二元组:Gragh=(V,E)可以对事物之间的关系建模应用场景在地图应用中寻找最短路径社交网络关系网页间超链接关系图的术语-1顶点(Verte