logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据常见面试题之HBase

一.为什么使用HBase存储HBase(Hadoop Database) 是一个靠可靠性,高性能,可伸缩,面向列的分布式数据库HBase与Hadoop的关系非常紧密,Hadoop的hdfs提供了高可靠性的底层存储支持,Hadoop MapReduce 为 HBase提供了高性能的计算能力,zookeeper为Hbase提供了稳定性及failover机制的保障. 同时其他周边产品诸如Hive可以与H

#hbase#大数据
分布式应用协调服务ZooKeeper

一.ZooKeeper简介Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目Zookeeper=文件系统+通知机制Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册一旦数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现

#java#分布式#zookeeper +1
使用Java API 访问HDFS上的数据

文章目录一.概述二.搭建环境一.概述除了可以用HDFS shell的方式 来访问HDFS上的数据,Hadoop还提供了以Java API的方式来操作HDFS上的数据.由于我们实际开发的大数据应用都是以代码的方式提交的,所以在代码中使用API的方式来操作HDFS数据必须掌握二.搭建环境1.我们使用Maven来构建Java程序,所以需要添加maven的依赖包,在pom.xml文件中的<depen

#java#hadoop#hdfs
flink get_json

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.

Hive函数及性能优化

一.Hive函数分类从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行从实现方式分类内置函数自定义函数1)UDF:自定义标准函数2)UDAF:自定义聚合函数3)UDTF:自定义表生成函数内置函数Hive提供大量内置函数供开发者使用标准函数1)字符函数2)类型转换函数3)数学函数4)日期函数

#hive#hadoop
大数据常见面试题之flume

一.flume组成和事务flume组成为source channel sink 事务包含put事务 take事务常用的source channeltaildir source:断点续传,多目录. flume1.6以前需要自己自定义source记录每次读取文件位置,实现断点续传file channel: 数据存储在磁盘,宕机数据可以保存.但是传输速率慢.适合对数据传输可靠性要求高的场景,比如金融行业

数据仓库经典销售案例

文章目录一、业务库1.1 数据模型1.2生成数据二、数据仓库2.1 模型搭建2.1.1 选择业务流程2.1.2 粒度2.1.3 确认维度2.1.4 确认事实2.1.4.1 建立物理模型2.1.4.2 建库、装载数据三.编写脚本配合 crontab 命令实现 ETL 自动化一、业务库1.1 数据模型源系统是 mysql 库,数据模型如下1.2生成数据-- 建库CREATE DATABASE IF N

#数据仓库#mysql#hive
hadoop组件之hbase环境搭建

文章目录一.安装HBase之前,需要具备如下三个前置条件二.安装HBase与配置环境变量一.安装HBase之前,需要具备如下三个前置条件1.HBASE的运行需要JDKjdk安装2.HBase的底层存储依赖于HDFS,需要安装hadoop环境Hadoop与集群环境搭建3.HBase依赖于ZooKeeper来做分布式协调工作,所以需要安装Zookeeper的环境本文使用自己搭建的环境zookeeper

#hbase#hadoop#linux +1
    共 27 条
  • 1
  • 2
  • 3
  • 请选择