简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
安装VmwareWorkStation下载CentOS6.5 iso 镜像文件点击创建新的虚拟机,选择典型,点下一步选择稍后安装操作系统选择Linux CentOS64为选择安装路径和虚拟机名称分配50G磁盘空间, 选择将虚拟磁盘拆分多个文件选择自定义硬件安装过程先分配4G内存,网络适配器选择NAT模式(这样IP地址不会应为外网IP改变而改变)选择CentOS6.5镜像文件,并勾选启动时连接,然后
首先创建5台虚拟机(最少三台),并且做好部署规划ip地址主机名安装软件进程 192.168.xx.120masterjdk,hadoop,zookeepernamenode,ZKFC,Resourcemanager 192.168.xx.121master2jdk,hadoop,zookeepernamenode,ZKFC,Resourcemanager 192...
首先创建5台虚拟机(最少三台),并且做好部署规划ip地址主机名安装软件进程 192.168.xx.120masterjdk,hadoop,zookeepernamenode,ZKFC,Resourcemanager 192.168.xx.121master2jdk,hadoop,zookeepernamenode,ZKFC,Resourcemanager 192...
由于没有网络日志,我们这里用之前写的python脚本爬取新浪微博热搜模拟产生日志文件,通过kafka和flume整合 将日志定时抽取到 spark上进行处理,微博热搜是十分钟更新一次,我们这里也设置十分钟的定时任务,具体步骤如下第一步编写python脚本获取微博热搜 实时排名,主题和url,然后运行测试,代码如下#!python2# -*- coding:utf-8 -*-import url..
DataX是阿里开源的一个异构数据源离线同步工具,底层源码使用java开发,编译完成后用python执行,首先我们先来分析datax.py的执行文件#!/usr/bin/env python# -*- coding:utf-8 -*-import sysimport osimport signalimport subprocessimport timeimport reim...
DataX是阿里开源的一个异构数据源离线同步工具,底层源码使用java开发,编译完成后用python执行,首先我们先来分析datax.py的执行文件#!/usr/bin/env python# -*- coding:utf-8 -*-import sysimport osimport signalimport subprocessimport timeimport reim...