logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

分布式资源调度管理框架:YARN的架构及工作原理

Hadoop2.x引入了一个新的组件:YARN,它作为hadoop集群中的资源管理模块,为各类计算框架提供资源的管理和调度。负责管理集群中的资源:CPU,内存,磁盘,网络IO等等(v3.1.1版本之后新增了对GPU资源的管理)以及调度运行在YARN之上的各种计算任务。

#yarn#大数据#hadoop
HDFS查看namenode状态

我使用的是CDH6版本,开源版类似。/etc/hadoop/conf/hdfs-site.xmlhdfs-site.xml中配置了HA通过以下命令查看两个namenode的状态:hdfs haadmin -getServiceState namenode202hdfs haadmin -getServiceState namenode177例子:判断nameno...

#hdfs#hadoop
使用Python操作InfluxDB时序数据库

上一篇介绍了如何安装InfluxDB以及开启Web操作页面,本篇介绍一下如何使用python操作influxdb。InfluxDB1.1.0和1.8.0版本安装并开启web界面----------------------------------------------------------------------------安装python包influxdb,这里我安装的是5.3.0版本pip

#python#时序数据库#运维
ELK系列(七)、Filebeat+Logstash采集多个日志文件并写入不同的ES索引中

Logstash依赖于JVM,在启动的时候大家也很容易就能发现它的启动速度很慢很慢,但logstash的好处是支持很多类型的插件,支持对数据做预处理。而filebeat很轻量,前身叫logstash-forward,是使用Golang开发的,所以不需要有java依赖,也很轻量,占用资源很小,但功能也很少,不支持对数据做预处理。因此一般都是将filebeat+logstash组合使用,在每个节点部署

#elk#nginx
分布式文件系统:HDFS 核心原理

HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据, 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。作为大数据生态最重要的组件之一,HDFS充当着大数据时代的数据管理者的角色,为各个分布式计

#大数据
hive的数据导入导出,备份恢复

加载HDFS文件数据到表:LOAD DATA INPATH "hdfs_source_path" OVERWRITE INTO TABLE tbl_nm;加载本地文件数据到表:LOAD DATA LOACL INPATH "loacl_source_path" OVERWRITE INTO TABLE tbl_nm;将数据导出至本地路径下:insert overwrite...

#hive#迁移
Hive/MaxCompute SQL性能优化(二):如何定位数据倾斜

前面的文章我们简单介绍了什么是数据倾斜,今天我们来讲一下如何定位是否出现了数据倾斜,以及是在什么阶段出现的数据倾斜。

文章图片
#性能优化#大数据
Hive/MaxCompute SQL性能优化(一):什么是数据倾斜

数据倾斜是指在并行计算模式下(map-reduce框架,数据被切分为N个片段,分发到不同的计算节点上,单独计算),部分节点处理的数据量远大于其他节点,造成该节点计算压力过大,从而导致少数节点的运行时长远远超过其他节点的平均运行时长,进而影响整体任务产出时效,造成任务延迟,这个现象就是数据倾斜。...

#hive#odps#性能优化
impala&hive大数据平台数据血缘与数据地图(一)-解析impala与hive的血缘日志

impala数据血缘与数据地图系列:----------------------------------------------------------------------------------------------Impala血缘:CDH官方文档impala数据血缘:https://docs.cloudera.com/documentation/enterprise...

#hive
impala&hive大数据平台数据血缘与数据地图(四)-impala血缘架构图及功能介绍

最近在内部做了个分享,顺便画了一下这次impala数据血缘的架构图:架构图:如果想了解如何实现请参照前面几篇文章:impala数据血缘与数据地图系列:1. 解析impala与hive的血缘日志2. 实时采集impala血缘日志推送到kafka3. 实时消费血缘记录写入neo4j并验证---------------------------------Impala血缘 架构图-------------

文章图片
#hive
    共 23 条
  • 1
  • 2
  • 3
  • 请选择