logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据如何完整的进行数据探察

内容目录如何进行数据探察一、数据探察内容1. 模型信息:2. 字段分类:3. 字段名:4. 字段类型:5. 字段含义:6. 字段数值:7. 取值说明:8. 数据量:9. 去重后的数据量:10. 无数据统计:11. 非空值占比:12. sample1、sample2:13. 待确定问题:二、数据探察过程操作首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息第6点一般在建表中的表描述都有说明,若没

文章图片
#big data#大数据#数据库
Hive报错Error during job, obtaining debugging information...

在hive中执行插入数据时出现错误注意:其实正常来说在hive中一般是不会插入数据的,这里测试原因使用了插入这个报错的主要原因就是namenode内存空间不够,JVM剩余内存空间不够新job运行所致这个错误把hive模式设置为本地模式运行即可可以通过命令查看hive是否本地运行set hive.exec.mode.local.auto;设置为本地模式将其改成true即可set hive.exec.

文章图片
#hive#hadoop#数据仓库
python图像处理库-PIL(Pillow)

PIL库全称为Python Imaging Library,即Python图像处理库,是一个在Python中用于处理图像的非常流行的库。

文章图片
#python#图像处理#pillow
数据仓库中的粒度

目录内容数据仓库中的粒度一、占用空间估算二、确定双重粒度/单一粒度三、确定粒度的级别四、总结数据仓库中的粒度数仓粒度确定的是否合理,很大程度决定了在设计和实现的过程中所遇到问题的控制程度,如果没有确定合理的数据粒度,那么会在各种意想不到的环节出现问题。如何进行粒度确定?一、占用空间估算很容易考虑到的是,在数仓粒度的确定起始,需要符合自己的具体业务或者具体需求,作为确定的起点,我们需要实现估测一下数

文章图片
#数据仓库#big data#数据挖掘
大数据如何完整的进行数据探察

内容目录如何进行数据探察一、数据探察内容1. 模型信息:2. 字段分类:3. 字段名:4. 字段类型:5. 字段含义:6. 字段数值:7. 取值说明:8. 数据量:9. 去重后的数据量:10. 无数据统计:11. 非空值占比:12. sample1、sample2:13. 待确定问题:二、数据探察过程操作首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息第6点一般在建表中的表描述都有说明,若没

文章图片
#big data#大数据#数据库
python图像处理库-PIL(Pillow)

PIL库全称为Python Imaging Library,即Python图像处理库,是一个在Python中用于处理图像的非常流行的库。

文章图片
#python#图像处理#pillow
【StarRocks】StarRocks四种数据模型的使用

查询时,主键在聚合之前就能进行过滤,而指标列的过滤通常在多版本聚合之后,因此建议将频繁使用的过滤字段作为主键,在聚合前就能过滤数据,从而提升查询性能。建表时,不支持为指标列创建。在电商订单分析场景中,经常按照日期对订单状态进行统计分析,则可以将经常使用的过滤字段订单创建时间 create_time、订单编号 order_id 作为主键,其余列订单状态 order_state 和订单总价 total

文章图片
#java#开发语言
MySQL数据库迁移方案比较和使用

数据库迁移方案数据迁移(Data migration)是指在存储类型、格式和计算机系统之间的数据转换。1 常用的迁移方案介绍​项目使用的数据存储技术是MySQL,关于MySQL的迁移方案大致分为三类:1.1 mysqldump命令mysql提供了对数据迁移需求的支持手段,mysqldump是MySQL自带的逻辑备份工具,它的备份原理是通过协议连接到MySQL数据库,根据参数转换,将需要操作的数据查

#数据库#mysql
Ubuntu使用内网穿透实现外网ssh远程登录

Ubuntu使用内网穿透实现外网ssh远程登录想要远程Ubuntu可以使用ssh网络协议进行远程登录那什么时ssh呢?SSH 为 Secure Shell的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。SSH 是较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露

超详解Hadoop集群环境配置,步步附有截图,一篇讲解清楚

Hadoop集群配置1)集群部署规划注意:①NameNode和SecondaryNameNode不要安装在同一台服务器上。NN和2NN的关系就好像是NN的补充是2NN,如果安装在同一个机器上,机器一挂,NN和2NN全挂,完全不需要2NN对NN的补充②ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上所以安装规划如下hadoop1

#hadoop#big data
    共 25 条
  • 1
  • 2
  • 3
  • 请选择