
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Superset安装Superset是由python编写的,所以需要环境中安装了python3.7的环境,因为centos自带的是python2.7安装miniconda所以我们可以借助miniconda来创建python3.7的环境首先安装miniconda,准备python环境将miniconda的安装包上传到集群,是一个.sh文件执行此文件就可以进行交互式的安装操作bash Minicond

在hive中执行插入数据时出现错误注意:其实正常来说在hive中一般是不会插入数据的,这里测试原因使用了插入这个报错的主要原因就是namenode内存空间不够,JVM剩余内存空间不够新job运行所致这个错误把hive模式设置为本地模式运行即可可以通过命令查看hive是否本地运行set hive.exec.mode.local.auto;设置为本地模式将其改成true即可set hive.exec.

sqlparse 是一个 Python 库,是一个用于 Python 的非验证 SQL 解析器, 用于解析 SQL 语句并提供一个简单的 API 来访问解析后的 SQL 结构。可以帮助解析复杂的 SQL 查询,提取信息,或者对 SQL 语句进行一些基本的分析和操作。

hadoop目录安装在:/usr/local/hadoop-2.7.0/etc/hadoop。访问Hadoop102:9870,查看是否能够看到hdfs界面。访问hadoop103:8088,查看能够看到yarn界面。在yarn上可以看到执行情况。

Spark的三大数据结构-RDD并行度与分区默认情况下,Spark 可以将一个作业切分多个任务后,发送给 Executor 节点并行计算,而能够并行计算的任务数量我们称之为并行度。这个数量可以在构建 RDD 时指定。// TODO 准备环境val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark")val spa

PIL库全称为Python Imaging Library,即Python图像处理库,是一个在Python中用于处理图像的非常流行的库。

内容目录数仓的一些重要知识,数据域、业务过程、度量、指标、维度、命名规则一、规范定义二、指标体系基本原则命名规则数仓的一些重要知识,数据域、业务过程、度量、指标、维度、命名规则一、规范定义规范定义指以维度建模作为里理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量、原子指标、修饰类型、修饰词、时间周期、派生指标专有名词:数据域:指面向业务,讲业务过程或者维度进行抽象的集合。其中,业务过

目录内容数据仓库中的粒度一、占用空间估算二、确定双重粒度/单一粒度三、确定粒度的级别四、总结数据仓库中的粒度数仓粒度确定的是否合理,很大程度决定了在设计和实现的过程中所遇到问题的控制程度,如果没有确定合理的数据粒度,那么会在各种意想不到的环节出现问题。如何进行粒度确定?一、占用空间估算很容易考虑到的是,在数仓粒度的确定起始,需要符合自己的具体业务或者具体需求,作为确定的起点,我们需要实现估测一下数

本人是一个双非硕士在读地研二狗,非科班出身,最近也是参加了大数据开发地面试,已拿到了哔哩哔哩和顺丰的大数据开发岗实习offer,现在把自己的面试经历分拨记录下来,记录了面试各个公司的问题和心经,给正在面试的你做一些适当的参考字节跳动第一家面试的公司就是字节跳动面试时间:21.1.10面试时长:1h13min面试软件:飞书,字节自己开发的,在使用中发现了一些bug,面试官记录了下来反馈给了公司这个面

内容目录如何进行数据探察一、数据探察内容1. 模型信息:2. 字段分类:3. 字段名:4. 字段类型:5. 字段含义:6. 字段数值:7. 取值说明:8. 数据量:9. 去重后的数据量:10. 无数据统计:11. 非空值占比:12. sample1、sample2:13. 待确定问题:二、数据探察过程操作首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息第6点一般在建表中的表描述都有说明,若没
