logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据 - Hadoop系列《三》- HDFS(分布式文件系统)概述

当HDFS系统的存储空间不够时,我们只需要添加一台新的机器到当前集群中即可完成扩容,这就是我们所说的横向扩容,而集群的存储能力,是按照整个集群中的所有的机器的存储能力来计算的,这也就是我们所说的高扩容性。,如果使用多台计算机进行存储,虽然解决了数据的存储问题,但是后期的管理和维护成本比较高,因为我们不能精准的知道哪台机器上存储了什么样的数据,所以我们。理论上是可以的,但是如果设置的块大小过小,会占

文章图片
#大数据#hadoop#hdfs
大数据-Hive练习-环比增长率、同比增长率、复合增长率

环比增长率是指两个相邻时段之间某种指标的增长率。通常来说,环比增长率是比较两个连续时间段内某项数据的增长量大小的。

文章图片
#大数据#hive#hadoop
大数据 - Doris系列《四》- Doris常用函数

本文主要介绍doris的常用函数

文章图片
#大数据
大数据 - Doris系列《二》- Doris安装(亲测成功版)

BE 的磁盘空间主要用于存放用户数据,总磁盘空间按用户总数据量* 3(3 副本)计算,然后再预留额外 40%的空间用作后台 compaction 以及一些中间数据的存放。不认识,所有linux02和linux03的fe及be节点也需要向linux01的fe节点报道,这样才能写进元数据。参数,你将该命令转为在后台以守护进程的形式运行,不再与当前终端关联,因此可以正常结束终端而不影响该进程的运行。原因

文章图片
#大数据
Windows本地如何添加域名映射?(修改hosts文件)

②在编辑器中,选择"文件" -> "打开",然后在打开文件对话框中选择下面的文件路径:C:\Windows\System32\drivers\etc(可复制这个路径到上面的搜索框中)hosts文件:由操作系统操作的IP和域名的本地映射文件,可以视为DNS server的重写,一旦查到了指定的域名,就不会继续查找DNS server, 所以可以节省时间。⑤保存文件并关闭编辑器。当我们在浏览器中访问一

文章图片
#linux#大数据#windows
大数据 - Doris系列《一》- Doris简介

Doris是一款开源的分布式OLAP(联机分析处理)数据库引擎,旨在支持高并发、大规模的数据查询和分析需求。本篇文章将深入介绍OLAP和OLTP的区别,明确它们在用户行为日志数据场景中的应用。我们将比较OLAP和OLTP在处理大规模数据时的性能和优势,并探讨开源OLAP引擎的选择。

MySQL - 创建表的三种方法详解及练习

CHARSET为utf8,ENGINE为INNODB。先往实例2创建的actor表中插入几条数据。创建一个actor表,包含如下列信息。创建一个actor表,包含如下列信息。

大数据 - Spark系列《七》- 分区器详解

本文将深入探讨Apache Spark 中的分区器。首先,我们将介绍什么是分区器以及它在Spark中的作用。然后,我们将讨论RDD之间的依赖关系,包括窄依赖和宽依赖,以帮助读者更好地理解数据的分布和计算模型。接着,我们将探讨在何种情况下需要使用分区器,并介绍内置的两种常用分区器:HashPartitioner(哈希分区器)和RangePartitioner(范围分区器)。最后,我们将深入研究如何自

文章图片
#大数据#spark#分布式
大数据 - Doris系列《四》- Doris常用函数

本文主要介绍doris的常用函数

文章图片
#大数据
大数据 - Spark系列《七》- 分区器详解

本文将深入探讨Apache Spark 中的分区器。首先,我们将介绍什么是分区器以及它在Spark中的作用。然后,我们将讨论RDD之间的依赖关系,包括窄依赖和宽依赖,以帮助读者更好地理解数据的分布和计算模型。接着,我们将探讨在何种情况下需要使用分区器,并介绍内置的两种常用分区器:HashPartitioner(哈希分区器)和RangePartitioner(范围分区器)。最后,我们将深入研究如何自

文章图片
#大数据#spark#分布式
    共 23 条
  • 1
  • 2
  • 3
  • 请选择