
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
默认已经做好安装前准备。本次安装使用源码包进行安装1.环境介绍三台服务器:node01,node02,node03三台服务器IP:192.168.14.44,192.168.14.46,192.168.14.48CDH版本:5.14.0Linux版本:CentOS7.52.下载Hadoop下载地址:http://archive.cloudera.com/cdh5/cdh/5/3.安装Hadoop将
1.创建命令测试例子:echo "# coral-dev" >> README.mdgit init# 需要输用户名和邮箱git config --global user.email "thoseBoysBlastTech@gmail.com"git config --global user.name thoseBoysBlastTechgit add README.mdgit com
1.Vertica架构Vertica是一款基于列存储的MPP(大规模并行处理)架构的数据库,它可以支持存放PB级别的结构化数据。(1)MPP架构该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。在这种结构中,每一个处理节点就是一个小型的数据库系统
1.pandas模块pandas是基于numpy模块构建的。pandas的主要功能:具备对其功能的数据结构DataFrame、Series集成时间序列功能提供丰富的数学运算和操作灵活处理缺失数据2.pandas数据结构Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values分别规定索引和值。如果
1.概述Spark是一种快速而通用的集群计算的平台,Spark 的一个主要特点就是能够在内存中进行计算,因而更快。2.特点与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、
Hive on Tez的引擎调优 基于Map数和Reduce数的调优
来源网址:https://github.com/digoal/blog/blob/master/201704/20170412_02.md1.执行无结果调用语法PERFORM query;通常被用来判断是否有记录,如下:CREATE OR REPLACE FUNCTION public.test_perform()RETURNS void AS $BODY$DECLAREBEGINPERFORM
1.常用命令下列的hdfs命令,都是在实际工作中经常会用到的,如果要看全部的命令可以直接使用hdfs dfs,会显示所有的命令。使用hdfs dfs -help能够查看每个命令的使用方法(1)help hdfs命令帮助hdfs dfs -help(2)ls 查看hdfs目录下内容命令格式:hdfs dfs -ls [文件目录]hdfs dfs -ls /结果:drwxr-xr-x - hdfs h
1.常用内存参数1.1 shared_buffersshared_buffers是PostgreSQL用于共享缓冲区的内存,是由8kb大小的块所形成的数组。PostgreSQL在进行更新、查询等操作时,首先从磁盘把数据读取到内存,之后进行更新,最后将数据写回磁盘。shared_buffers可以暂时存放从磁盘读取的数据,能够让用户下次访问不需要去磁盘直接从里面读取出来,增加查询效率。shared_
1.创建topic命令格式:注意空格./kafka-topics.sh --create --topic topic名称--partitions分区数--replication-factor备份数--zookeeperZooKeeper的任意一个节点或者全部的IP:Port/kafka示例:./kafka-topics.sh --zookeeper 192.168.61.102:24002,192







