logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark框架

Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上。【Spark Core】:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spark运行的基础。Spark Core以RDD为数据抽象,提供Python、Java、Scala、R语

#spark#大数据#分布式
数据仓库构建流程

常用的构建数据仓库的流程【数据调研】数据调研重点要做两项工作,分别是业务调研和需求分析。这两项工作做的是否充分,直接影响着数据仓库的质量。1、业务调研业务调研的主要目标是熟悉业务流程、熟悉业务数据。熟悉业务流程要求做到,明确每个业务的具体流程,需要将该业务所包含的每个业务过程一一列举出来熟悉业务数据要求做到,将数据(包括埋点日志和业务数据表)与业务过程对应起来,明确每个业务过程会对哪些表的数据产生

#数据仓库
Hbase集群安装

1、根据hadoop的版本选择合适的hbase版本,可参照下图本机安装的hadoop3.1.3所以选择HBASE版本为2.0.52、将hbase上传到/opt/software/文件目录,使用tart -zxvf命令解压到opt/module/中[xiong@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/3、为了

#hbase#big data#hadoop
zookeeper启动失败

报错[xiong@hadoop104 zookeeper-3.5.7]$ bin/zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /opt/module/zookeeper-3.5.7/bin/../conf/zoo.cfgStarting zookeeper ... FAILED TO START具体原因可能是以下5个

#zookeeper#bash#linux
分布式唯一ID几种生成方案

分布式环境下唯一ID生成的集中方案

#分布式#redis#数据库
MySQL索引的分类

索引的分类 MySQL的索引包括普通索引、唯一性索引、全文索引、单列索引、多列索引和空间索引等。从 功能逻辑 上说,索引主要有 4 种,分别是普通索引、唯一索引、主键索引、全文索引按照 物理实现方式 ,索引可以分为 2 种:聚簇索引和非聚簇索引。按照 作用字段个数 进行划分,分成单列索引和联合索引。【1普通索引】在创建普通索引时,不附加任何限制条件,只是用于提高查询效率,这类索引可以创建在任何数据

#mysql#全文检索#数据库
Hive和Spark

1. Hive简介hive的定位是数据仓库,其提供了通过 sql 读写和管理分布式存储中的大规模的数据,即 hive即负责数据的存储和管理(其实依赖的是底层的hdfs文件系统或s3等对象存储系统),也负责通过 sql来处理和分析数据。所以说,hive只用来处理结构化数据,且只提供了sql的方式来进行分析处理。而且一般来说,hive只能对数据进行批处理。(当使用hive 的hbase映射表时,有一定

#hive
暂无文章信息