小白熊wzb 个人主页

@weixin_45216482

小白熊wzb

2022-09-29 17:40:10 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

hive和传统数据库的区别

1、数据存储位置。Hive是建立在Hadoop之上的，所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。2、数据格式。Hive中没有定义专门的数据格式，由用户指定，需要指定三个属性：列分隔符，行分隔符，以及读取文件数据的方法。数据库中，存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。3、数据更新。Hive的内容是读多写少的，因此，不支持对数

#hive

spark和Mapreduce的对比

1.spark和Mapreduce的简单介绍MapReduce：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，

1.Flume介绍Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。Flume可以采集文件，socket数据包（网络端口）、文件夹、kafka、mysql数据库等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集、传输需求，通过对flume的简单配置即可实现；不用开发一行代码！Flume针对特殊场

#flume #hdfs #大数据

Kafka常见问题汇总

1. kafka是什么，做什么用？kafka 是一个存储系统、消息队列、实时流式处理系统，用来在生产者和消费者之间产生一个缓冲区存放数据，来避免出现过多数据无法处理从而导致堵塞的状况。2. topic是什么，partition是什么？partition的多与少会影响什么？topic：主题，是kafka中的基本存储结构。partition：分区，每一个topic都有多个分区。partition的多

#kafka #分布式 #big data

Flume数据采集工具之agent

#flume #hdfs #大数据

flink相关问题汇总

1.看你用了Flink，简单介绍一下Flink？Flink是一个实时计算框架，他和spark都是流批一体计算框架，flink提供了有界流和无界流的计算，有界流其实就是flink认为数据是流式的为大多数情况，批量的为小部分情况，也就是说数据有边界叫有界流，数据没有边界叫无界流，也就是无限实时生成的数据。flink主要对外的API有 DataSet API、DataStream API、Table A

#big data #spark #hadoop

到底了