logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据5_02_Flume入门案例

3 Flume入门3.1 监控端口数据(官方案例)使用Flume监听一个端口,收集该端口数据,并打印到控制台。首先可以确定的是source用netcat;channel用memory;sink用logger步骤1:安装netcat工具sudo yum install -y nc步骤2:判断44444端口是否被占用sudo netstat -lnp | grep 44444步骤3:创建job文件夹,

#大数据#hadoop#flume
大数据8_04_Scala运算符

5 运算符5.1 ==equal()eq()object Test {def main(args: Array[String]): Unit = {var a1 = "abc"var a2 = "abc"println(a1 == a2) // trueval a3 = new String("abc")val a4 = new String("abc")println(a3 == a4) //

#scala
大数据4_01_hive实战操作大全

1 Hive基本概念hive是什么?hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并且提供类SQL的查询功能。其本质是将HQL转化成MapReduce程序。hive处理的数据存储在HDFS,hive的底层数据分析实现是MapReduce,程序运行在Yarn上。2 Hive安装部署2.1 安装mysql步骤1:centos7卸载mariadbrpm -qa | g

文章图片
#数据仓库#hive
大数据9_04_Spark内核源码详细解析

1 Spark内核概述Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理。1.1 Spark核心组件(1)Yarn(RM & NM)(2)Spark(AM & Driver & Executor)①DriverSparK驱动器节点,用于执行Spark任务中的main方法,

#大数据#spark
hadoop群起脚本

hadoop群起脚本#!/bin/bashif [ $# -lt 1 ]thenecho "No Args Input..."exit ;ficase $1 in"start")echo " =================== 启动 hadoop集群 ==================="echo " --------------- 启动 hdfs ---------------"ssh h

#hadoop#大数据
Python数据处理(学习笔记)

Python数据处理1 numpy数组操作numpy库概述是高性能科学计算和数据分析的基础包,支持维度数组、矩阵计算等ndarray概述N维数组对象ndarray,用来存放同类型元素的多维数组数组与矩阵的区别是:数组内的元素可以是字符等,而矩阵只能是数。创建数组import numpy as npa = [1, 2, 3, 4]b = np.array(a)print(a) #列表,元素间用逗号隔

#python
Python数据可视化(学习笔记)

Python数据可视化1 柱状图普通柱状图基本语法plt.bar(x, data, tick_label= , label= , bottom= , color= , width= )# x:所有柱子的下标列表,可以是list(range(5)),也可以是numpy.arange(5)数组# data:数据列表# tick_label:每个柱子标签列表,['G1', 'G2', 'G3', 'G4

#python
大数据9_04_Spark内核源码详细解析

1 Spark内核概述Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理。1.1 Spark核心组件(1)Yarn(RM & NM)(2)Spark(AM & Driver & Executor)①DriverSparK驱动器节点,用于执行Spark任务中的main方法,

#大数据#spark
DataX下载安装及操作

1.1 DataX下载地址http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz1.2 安装DataX步骤1:使用wget命令,采用阿里云地址下载[root@hadoop201 software]# wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/data

#大数据
大数据8_08_Scala集合&常用方法

9 集合Scala的集合有三大类:序列Seq、集Set、映射Map,所有集合都扩展自Iterable特质。对于所有的集合类,Scala都同时提供了可变和不可变的版本。可变集合和不可变集合使用包名区分:scala.collection.immutablescala.collection.mutable可变不可变数组ArrayArrayBuffer序列(List)Seq、ListListBuffer集

#大数据#scala
    共 18 条
  • 1
  • 2
  • 请选择