往事随风_h 个人主页

@Li_Jian_Hui_

往事随风_h

2022-09-29 17:00:26 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark Sql编程

第1章 Spark SQL概述1.1什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效...

#sql #spark

数据仓库是什么？

数据仓库是伴随着信息技术和决策支持系统（DSS，Decision Support System）的发展而产生的，利用历史的操作数据进行管理和决策。数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的，用于支持管理人员决策的数据集合，数据仓库包含粒度化的企业数据，在不同的粒度级别上对数据进行聚合，这样，数据仓库中就存在最细节的原始数据、轻度聚合数据、高度聚合数据。一，体系结构的变迁早期的数据分

#数据仓库 #大数据

最详细的Xshell连接Linux

systemctl stop firewalld.service命令关闭防火墙。关闭后防火墙后原点会变成黑色。使用systemctl status firewalld.service命令查看防火墙状态。关闭防火墙自启动命令systemctl disable firewalld.service。因为每次重启的时候防火墙会自启动，所以还要关闭自启动防火墙。(所有不说版本的都是耍流氓，博主使用版本如下)

#linux

一分钟了解Apache Kafka 2.4.0 新特性

Apache Kafka 2.4.0 已发布，此版本新增了不少新功能，其中包括：允许消费者从最近的副本进行获取为 Consumer Rebalance Protocol 增加对增量协同重新均衡（incremental cooperative rebalancing）的支持新增 MirrorMaker 2.0 (MM2)，新的多集群跨数据中心复制引擎引入新的 Java 授权程序接口支持 KTable

#kafka

Kafka终极面试题

1. Kafka 中的 ISR(InSyncRepli)、 OSR(OutSyncRepli)、 AR(AllRepli)代表什么？ISR：In-Sync Replicas 副本同步队列AR：Assigned Replicas 所有副本ISR是由leader维护，follower从leader同步数据有一些延迟（包括延迟时间replica.lag.time.max.ms和延迟条数replica.l

#kafka #大数据

到底了