logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

029 大数据之即席查询Presto&Kylin

正常解压安装包[atguigu@hadoop102 software]$ tar -zxvf presto-server-0.196.tar.gz -C /opt/module/# 创建存储数据文件夹[atguigu@hadoop102 presto-server-0.196]$ mkdir data# 编写配置内存管理的文件夹[atguigu@hadoop102 presto-server-0.

014 大数据之HIVE实战

1、HIVE的计算引擎hive的引擎mapreduce、tez和spark三者比较hive sql执行方式对比(tez,mapreduce,spark,storm)TEZ和MapReduce区别Flink on Hive构建流批一体数仓MR引擎在HIVE 2中将被弃用,官方推荐使用TEZ或SPARK等引擎,在实际应用中如果使用TEZ或者SPARK计算时出现内存溢出的问题(TEZ和SPARK都是内存

#hive#big data#hadoop
003 Hadoop集群搭建

前提: 准备好三台可以互相通信的虚拟机,虚拟机创建教程可以参考我的上一篇博客1、编写集群分发脚本rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。# scp-r$pdir/$fname$user@hadoop$host:$pdir/$fname# 命令递归要拷贝的文件路径/名称目的用户@主机:目的路径/名称scp -r

#hadoop#linux#大数据
001 物理机、虚拟机、有线网卡、无线网卡组局域网

设置对象:物理机A、物理机B、虚拟机A、虚拟机B物理机A:虚拟机A:

#linux#windows
015 大数据之Flume

1、Apache Flume初识【Flume】Flume 简单理解及使用实例Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume-og采用了多Master的方式。为了保证配置数据的一致性,Flume引入了Z

#big data#flume#hadoop
024 大数据之Flink

1、Spark与Flink对比1232、Spark Streaming保证Exactly-Once语义3、Kafka auto.offset.reset值详解4、从Lambda架构到Kappa架构再到?浅谈未来数仓架构设计~5、详解数仓中的数据分层:ODS、DWD、DWM、DWS、ADS

#flink#大数据
018 The Scala Programming Language

1、Scala介绍Scala(百度百科)学习Scala的几个原因:1)大数据主要的批处理计算引擎框架Spark是基于Scala语言开发的2)大数据主要的流式计算引擎框架Flink也提供了Scala相应的API3)大数据领域中函数式编程的开发效率更高,更直观,更容易理解.............................................

#scala#spark#big data
到底了