简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
首先创建5台虚拟机(最少三台),并且做好部署规划ip地址主机名安装软件进程 192.168.xx.120masterjdk,hadoop,zookeepernamenode,ZKFC,Resourcemanager 192.168.xx.121master2jdk,hadoop,zookeepernamenode,ZKFC,Resourcemanager 192...
由于没有网络日志,我们这里用之前写的python脚本爬取新浪微博热搜模拟产生日志文件,通过kafka和flume整合 将日志定时抽取到 spark上进行处理,微博热搜是十分钟更新一次,我们这里也设置十分钟的定时任务,具体步骤如下第一步编写python脚本获取微博热搜 实时排名,主题和url,然后运行测试,代码如下#!python2# -*- coding:utf-8 -*-import url..
DataX是阿里开源的一个异构数据源离线同步工具,底层源码使用java开发,编译完成后用python执行,首先我们先来分析datax.py的执行文件#!/usr/bin/env python# -*- coding:utf-8 -*-import sysimport osimport signalimport subprocessimport timeimport reim...
DataX是阿里开源的一个异构数据源离线同步工具,底层源码使用java开发,编译完成后用python执行,首先我们先来分析datax.py的执行文件#!/usr/bin/env python# -*- coding:utf-8 -*-import sysimport osimport signalimport subprocessimport timeimport reim...