
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1.spark和Mapreduce的简单介绍MapReduce:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,
1、数据存储位置。Hive是建立在Hadoop之上的,所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。2、数据格式。Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。数据库中,存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。3、数据更新。Hive的内容是读多写少的,因此,不支持对数
1.Flume介绍Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。Flume可以采集文件,socket数据包(网络端口)、文件夹、kafka、mysql数据库等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集、传输需求,通过对flume的简单配置即可实现;不用开发一行代码!Flume针对特殊场
1. kafka是什么,做什么用?kafka 是一个存储系统、消息队列、实时流式处理系统,用来在生产者和消费者之间产生一个缓冲区存放数据,来避免出现过多数据无法处理从而导致堵塞的状况 。2. topic是什么,partition是什么?partition的多与少会影响什么?topic:主题,是kafka中的基本存储结构。partition:分区,每一个topic都有多个分区。partition的多
1.Flume介绍Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。Flume可以采集文件,socket数据包(网络端口)、文件夹、kafka、mysql数据库等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集、传输需求,通过对flume的简单配置即可实现;不用开发一行代码!Flume针对特殊场
1.看你用了Flink,简单介绍一下Flink?Flink是一个实时计算框架,他和spark都是流批一体计算框架,flink提供了有界流和无界流的计算,有界流其实就是flink认为数据是流式的为大多数情况,批量的为小部分情况,也就是说数据有边界叫有界流,数据没有边界叫无界流,也就是无限实时生成的数据。flink主要对外的API有 DataSet API、DataStream API、Table A