
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
修改查看当前默认文件存储格式set hive.default.fileformat;set hive.default.fileformat=Orc;1.数据存储格式(1)textText是最简单最常见的存储格式,它是纯文本记录,也是Hive的默认格式。# 存储方式行存储# 特点空间利用率低有序列化和反序列话的开销建表语句:create table inventory(inv_date_sk int
1.pandas模块pandas是基于numpy模块构建的。pandas的主要功能:具备对其功能的数据结构DataFrame、Series集成时间序列功能提供丰富的数学运算和操作灵活处理缺失数据2.pandas数据结构Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values分别规定索引和值。如果
目的:修改CentOS默认的yum源为mirrors.aliyun.com的镜像源1.备份自带的yum源配置文件CentOS-Base.repomv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo_bak2.下载ailiyun的yum源配置文件两种方法:(1)通过ftp工具(xftp,FileZilla,Mob
1.概述Spark是一种快速而通用的集群计算的平台,Spark 的一个主要特点就是能够在内存中进行计算,因而更快。2.特点与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、
Hive on Tez的引擎调优 基于Map数和Reduce数的调优
通用命令--提供HBase的状态,例如,服务器的数量。status--提供正在使用HBase版本。version--表引用命令提供帮助。table_help--提供有关用户的信息。whoami1.创建表(1)语法create <table> , { NAME => <family> , VERSIONS => <VERSIONS> , ...},{
参考:https://blog.csdn.net/afafawfaf/article/details/802499741.分区表还可以创建二级分区:PARTITIONED BY (event_month string, step string)创建分区表:CREATE TABLE order_created_partition (order_number STRING, event_timeSTR
来源网址:https://github.com/digoal/blog/blob/master/201704/20170412_02.md1.执行无结果调用语法PERFORM query;通常被用来判断是否有记录,如下:CREATE OR REPLACE FUNCTION public.test_perform()RETURNS void AS $BODY$DECLAREBEGINPERFORM
1.常用命令下列的hdfs命令,都是在实际工作中经常会用到的,如果要看全部的命令可以直接使用hdfs dfs,会显示所有的命令。使用hdfs dfs -help能够查看每个命令的使用方法(1)help hdfs命令帮助hdfs dfs -help(2)ls 查看hdfs目录下内容命令格式:hdfs dfs -ls [文件目录]hdfs dfs -ls /结果:drwxr-xr-x - hdfs h
1.常用内存参数1.1 shared_buffersshared_buffers是PostgreSQL用于共享缓冲区的内存,是由8kb大小的块所形成的数组。PostgreSQL在进行更新、查询等操作时,首先从磁盘把数据读取到内存,之后进行更新,最后将数据写回磁盘。shared_buffers可以暂时存放从磁盘读取的数据,能够让用户下次访问不需要去磁盘直接从里面读取出来,增加查询效率。shared_