logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据架构体系(数据仓库)

1、传统大数据架构优点缺点使用场景简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件1、没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活...

#数据仓库#大数据
airflow安装部署(python)

在线安装Airflow组件版本:Python 3.7.2Apache airflow 1.10.1Mysql 5.7.24CentOs7.8Python安装Centos7中,Python默认是安装的,输入python 直接可以查看版本号,入下图注意: 如果本机安装了python2,尽量不要管它,使用python3运行python脚本就好,因为可能有程序依赖目前的python2环境,比如yum!不要

#python#开发语言#linux
hadoop2.6.0搭建(简洁明了10分钟完全搞定)

hadoop2.6环境搭建1,准备环境:虚拟机hadoop01,修改ip地址master (192.168.111.10)slaves1(192.168.111.11)  slave2192.168.111.12) 2,修改主机名字sudo gedit /etc/hostname(三个主机都要该)一、安装jdk(1.7)   注意:jdk版本必须要和系统

#hdfs#hadoop#虚拟机 +1
filebeat接入数据kafka

官方最新下载filebeat  https://www.elastic.co/products/beatstar -zxvf  filebeat-5.5.2-linux-x86_64.tar.gzcd  filebeat-5.5.2-linux-x86_64filebeat主要是对配置文件filebeat.yml  进行修改#==============

logstash使用webhdfs插件指定输出字段存储数据到hdfs时间分层(还能保留原来数据)

基于项目新搭建环境-->部分工具版本hadoop 2.6.5 ;hive-1.2.1logstash 2.4.0; impala-2.8; elasticsesarch-5.4.1; spark-2.1.1; scala 2.12.2jdk1.8;kafka 2.10;redis-3.0.7;zookeeper-3.4正文:一个简单需求,就是通过

#hdfs#hive#大数据
winlogbeat监听windows日志到kafka、hdfs,不同层级取数据

winlogbeat监听windows日志到kafka,查询kafka里面的topic数据,以及从kafka中接入数据到hdfs、logstash不同层级取数据,过滤message.

#大数据#hdfs#windows
到底了