logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

linux下多节点之间,免密钥访问实现

说明:目前安装了4个Redhat linux操作系统,主机名分别为hadoop01,hadoop02,hadoop03,hadoop04其中hadoop01为主节点,hadoop02,hadoop03,hadoop04为从节点四个节点ip地址为192.168.10.61~64.如果不修改hosts文件,从第二部开始可将hadoop01~04改为所对应的ip地址,如第4步中的scp ~/.s

#spark#大数据
Maven配置和打包以及使用Eclipse构建Maven项目

Maven这个个项目管理和构建自动化工具,越来越多的开发人员使用它来管理项目中的jar包。本文仅对Eclipse中如何安装、配置和使用Maven进行了介绍。完全step by step。如果觉得本文对你有用,请移步到:http://download.csdn.net/detail/qjyong/5582071 下载PDF版,http://download.csdn.net/de

#spark
第99讲:使用sparkStreaming实战对论坛网站动态行为的多维度分析下

/** 第99讲,消费者消费SparkStreamingDataManuallyProducerForKafka类中逻辑级别产生的数据,这里pv,uv,注册人数,跳出率的方式*/package com.dt.streaming;import java.util.HashMap;import java.util.HashSet;import java.ut

#spark#大数据
第89讲:Spark Streaming on Kafka解析和安装实战

本课分2部分讲解:第一部分,讲解Kafka的概念、架构和用例场景;第二部分,讲解Kafka的安装和实战。由于时间关系,今天的课程只讲到如何用官网的例子验证Kafka的安装是否成功。后续课程会接着讲解如何集成Spark Streaming和Kafka。一、Kafka的概念、架构和用例场景http://kafka.apache.org/documentation

#spark
第90讲,Spark streaming基于kafka 以Receiver方式获取数据 原理和案例实战

1:SparkSteaming基于kafka的方式,主要有俩种,即Receiver和Derict,基于Receiver的方式,是sparkStreaming给我们提供了kafka访问的高层api的封装,而基于Direct的方式,就是直接访问,在sparkSteaming中直接去操作kafka中的数据,不需要前面的高层api的封装。而Direct的方式,可以进行更好的控制!2:实际上做kafka

#spark#kafka
第91讲:sparkStreaming基于kafka的Direct详解

1:Direct方式特点:1)Direct的方式是会直接操作kafka底层的元数据信息,这样如果计算失败了,可以把数据重新读一下,重新处理。即数据一定会被处理2)由于直接操作的是kafka,kafka就相当于你底层的文件系统。这个时候能保证严格的事务一致性,即一定会被处理,而且只会被处理一次。而Receiver的方式则不能保证,因为Receiver和ZK中的数据可能不同步,spark St

#kafka#spark
到底了