logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

orc和parquet数据存储格式

Parquet行组(Row Group):按照行将数据物理上划分为多个单元,每一个行组包含一定的行数。一个行组包含这个行组对应的区间内的所有列的列块官方建议更大的行组意味着更大的列块,使得能够做更大的序列IO。我们建议设置更大的行组(512MB-1GB)。因为一次可能需要读取整个行组,所以我们想让一个行组刚好在一个HDFS块中。因此,HDFS块的大小也需要被设得更大。一个最优的读设置是:1GB的行

kudu-impala分区表(hash和range分区)

1、分区表支持hash分区和range分区,根据主键列上的分区模式将table划分为 tablets 。每个 tablet 由至少一台 tablet server提供。理想情况下,一张table分成多个tablets分布在不同的tablet servers ,以最大化并行操作。2、Kudu目前没有在创建表之后拆分或合并 tablets 的机制。3、创建表时,必须为表提供分区模式。4、在

数据主题域划分

作用:对公司所有的业务过程进行归纳汇总后,总结出公司所有的主题域,并且也能清晰的知道公司的所有业务模块有助于建模人员和运营人员对了解公司业务情况有利于在进行模型设计时,根据主题域和业务过程设计表,做到看到一个表名就知道他真正的业务含义以下主题域仅供参考:...

cloudera manager整体介绍

体系架构Cloudera Manager的核心是Cloudera Manager Server。Server托管Admin Console Web Server和应用程序逻辑。它负责安装软件、配置、启动和停止服务以及管理运行服务的群集。解释:Agent:安装在每台主机上。它负责启动和停止进程,解压缩配置,触发安装和监控主机Management Service:执行各种监控、报...

cloudera manager的agent的ip地址改变解决方案

1、首先在安装cloudera-manager的主机上,启动所有的cloudera管理进程[root@node1 ~]# /etc/init.d/cloudera-scm-server-db status[root@node1 ~]# /etc/init.d/cloudera-scm-server status2、查看postgresql 的scm用户的密码grep pa...

spark版本详解解释

解释:Major version:API的改变和性能的大幅度的改变Minor version:增加了一些APIPatch version:修复补丁

#spark
到底了