logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据之spark_spark的深入理解

Spark执行流程提交任务spark-submit --master spark://node-1.51doit.cn:7070 --executor-memory 1g --total-executor-cores 4 --class cn.51doit.spark.WordCount /root/wc.jar hdfs://node-1.51doit.cn:9000/wc hdfs://nod

#spark
大数据之scala_scala对比java的Lambda表达式和流式编程

在scala中有非常方便的map,filter,reduce等对集合进行一系列操作的方法那么我们想在java中实现这些方法该怎么编写程序呢?首先我们想想到,要对java中的集合进行功能扩展,有两种方式:1.装饰者模式2.继承使用装饰者模式时,可以编写一个包装类,在包装类里写上我们想要实现的方法模型然后在方法的参数列表中要求传入一个接口,在接口中定义一个类似于函数的标准,具体要实现的功能,由测试类n

#scala
大数据之hbase_hbase的原理加强读写数据流程

写数据流程1.客户端请求写入一条数据,会先向ZK发起请求,并给到ZK表名,行键,列族,属性,值等信息2.ZK接收到请求,返回给客户端META表的位置信息,(META表中记录了region的个数,及每个region的大小和数据的起始位置等信息)3.客户端拿到META表的位置信息,就会去到对应的regionserver请求META表数据,(假如META表的元数据中没有row_key的范围信息,就会去请

#hbase
大数据之hive_hive中集合类型的使用

集合数据类型数据类型描述语法示例STRUCT(结构体)对象和c语言中的struct类似,都可以通过“点”符号访问元素内容。例如,如果某个列的数据类型是STRUCT{first STRING, last STRING},那么第1个元素可以通过字段.first来引用。struct()MAP 映射MAP是一组键-值对元组集合,使用数组表示法可以访问数据。例如,如果某个列的数据类型是MAP,其中键-&gt

#hive
大数据之spark_spark的入门程序编写

Scala编写Spark的WorkCount创建一个Maven项目在pom.xml中添加依赖和插件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"x

#spark
大数据之hive_hive中常用函数解析及自定义函数_jdbc的使用

常用函数nvl(sal,0)如果字段sal的值为null就返回0concat(str1,str2,str3)将三个字符串拼接起来concat_ws("-",str1,str2,str3)将三个字符串用"-“符号拼接起来concat_ws(”-",arr1,arr2,arr3)将数组内的元素用"-“符号拼接起来split(“abc bcd def”,” “)将字符串用空格切割开,并放入数组中cast

#hive
大数据之hbase_Phoenix教程

1简介Apache Phoneix是运行在HBase之上的高性能关系型数据库,通过Phoneix可以像使用jdbc访问关系型数据库一样访问HBase。Phoneix操作的表以及数据存储在HBase上,phoneix只需要和HBase进行表关联。然后在用工具进行一些读写操作。可以把Phoneix只看成一种代替HBase语法的工具(put get scan 过滤器 ,delete)。可以使用java的

#大数据
大数据之Hadoop_Yarn的调度策略及Yarn的基本运行流程

Yarn的调度策略资源调度分三种:1.FIFO : 队列的形式调度,即这个节点中只有这一个队列,当这个队列中有个大文件在处理,处理的时间较长,这时其他的小文件就需要等待它执行完成后,其他文件文件才能执行,这种调度策略已经被淘汰.2.资源调度 : 设置多个节点并行执行不同的任务,不会造成队列的堵塞,但是即使是一个小文件也会占用一个节点,会造成资源的浪费3.公平调度 : 在一个节点中设两个队列,当只有

#hadoop
大数据之Hadoop01-安装Hadoop及基础使用

Hadoop的简介:HDFS(Hadoop Distribute File System)分布式存储:解决海量数据存储问题MapReduce:Hadoop分布式运算编程框架Yarm:分布式资源调度平台Commons:Hadoop底层技术支持Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提

#hadoop
大数据之hive_hive的排序方式

全局排序 Order ByOrder By:全局排序,一个Reducer1.使用 ORDER BY 子句排序ASC(ascend): 升序(默认)DESC(descend): 降序2.ORDER BY 子句在SELECT语句的结尾3.案例实操(1)查询员工信息按工资升序排列hive (default)> select * from emp order by sal;(2)查询员工信息按工资降

#hive
    共 19 条
  • 1
  • 2
  • 请选择