牧码文个人主页

@weixin_46429290

牧码文

2022-09-16 18:03:43 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大数据如何完整的进行数据探察

内容目录如何进行数据探察一、数据探察内容1. 模型信息：2. 字段分类：3. 字段名：4. 字段类型：5. 字段含义：6. 字段数值：7. 取值说明：8. 数据量：9. 去重后的数据量：10. 无数据统计：11. 非空值占比：12. sample1、sample2:13. 待确定问题：二、数据探察过程操作首先1、2、3、4、5点是毋庸置疑的，数据表的基础信息第6点一般在建表中的表描述都有说明，若没

#big data #大数据 #数据库

Hive报错Error during job, obtaining debugging information...

在hive中执行插入数据时出现错误注意：其实正常来说在hive中一般是不会插入数据的，这里测试原因使用了插入这个报错的主要原因就是namenode内存空间不够，JVM剩余内存空间不够新job运行所致这个错误把hive模式设置为本地模式运行即可可以通过命令查看hive是否本地运行set hive.exec.mode.local.auto;设置为本地模式将其改成true即可set hive.exec.

#hive #hadoop #数据仓库

python图像处理库-PIL(Pillow)

PIL库全称为Python Imaging Library，即Python图像处理库，是一个在Python中用于处理图像的非常流行的库。

#python #图像处理 #pillow

数据仓库中的粒度

目录内容数据仓库中的粒度一、占用空间估算二、确定双重粒度/单一粒度三、确定粒度的级别四、总结数据仓库中的粒度数仓粒度确定的是否合理，很大程度决定了在设计和实现的过程中所遇到问题的控制程度，如果没有确定合理的数据粒度，那么会在各种意想不到的环节出现问题。如何进行粒度确定？一、占用空间估算很容易考虑到的是，在数仓粒度的确定起始，需要符合自己的具体业务或者具体需求，作为确定的起点，我们需要实现估测一下数

#数据仓库 #big data #数据挖掘

大数据如何完整的进行数据探察

#big data #大数据 #数据库

python图像处理库-PIL(Pillow)

PIL库全称为Python Imaging Library，即Python图像处理库，是一个在Python中用于处理图像的非常流行的库。

#python #图像处理 #pillow

【StarRocks】StarRocks四种数据模型的使用

查询时，主键在聚合之前就能进行过滤，而指标列的过滤通常在多版本聚合之后，因此建议将频繁使用的过滤字段作为主键，在聚合前就能过滤数据，从而提升查询性能。建表时，不支持为指标列创建。在电商订单分析场景中，经常按照日期对订单状态进行统计分析，则可以将经常使用的过滤字段订单创建时间 create_time、订单编号 order_id 作为主键，其余列订单状态 order_state 和订单总价 total

#java #开发语言

MySQL数据库迁移方案比较和使用

数据库迁移方案数据迁移（Data migration）是指在存储类型、格式和计算机系统之间的数据转换。1 常用的迁移方案介绍项目使用的数据存储技术是MySQL，关于MySQL的迁移方案大致分为三类：1.1 mysqldump命令mysql提供了对数据迁移需求的支持手段，mysqldump是MySQL自带的逻辑备份工具，它的备份原理是通过协议连接到MySQL数据库，根据参数转换，将需要操作的数据查

#数据库 #mysql

Ubuntu使用内网穿透实现外网ssh远程登录

Ubuntu使用内网穿透实现外网ssh远程登录想要远程Ubuntu可以使用ssh网络协议进行远程登录那什么时ssh呢？SSH 为 Secure Shell的缩写，由 IETF 的网络小组（Network Working Group）所制定；SSH 为建立在应用层基础上的安全协议。SSH 是较可靠，专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露

超详解Hadoop集群环境配置，步步附有截图，一篇讲解清楚

Hadoop集群配置1）集群部署规划注意：①NameNode和SecondaryNameNode不要安装在同一台服务器上。NN和2NN的关系就好像是NN的补充是2NN，如果安装在同一个机器上，机器一挂，NN和2NN全挂，完全不需要2NN对NN的补充②ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上所以安装规划如下hadoop1

#hadoop #big data

共 25 条

请选择