logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Spark Sql编程

第1章 Spark SQL概述1.1什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效...

#sql#spark
数据仓库 是什么?

数据仓库是伴随着信息技术和决策支持系统(DSS,Decision Support System)的发展而产生的,利用历史的操作数据进行管理和决策。数据仓库是一个面向主题的、集成的、非易失的、随着时间变化的,用于支持管理人员决策的数据集合,数据仓库包含粒度化的企业数据,在不同的粒度级别上对数据进行聚合,这样,数据仓库中就存在最细节的原始数据、轻度聚合数据、高度聚合数据。一,体系结构的变迁早期的数据分

#数据仓库#大数据
最详细的Xshell连接Linux

systemctl stop firewalld.service命令关闭防火墙。关闭后防火墙后原点会变成黑色。使用systemctl status firewalld.service命令查看防火墙状态。关闭防火墙自启动命令systemctl disable firewalld.service。因为每次重启的时候防火墙会自启动,所以还要关闭自启动防火墙。(所有不说版本的都是耍流氓,博主使用版本如下)

文章图片
#linux
一分钟了解Apache Kafka 2.4.0 新特性

Apache Kafka 2.4.0 已发布,此版本新增了不少新功能,其中包括:允许消费者从最近的副本进行获取为 Consumer Rebalance Protocol 增加对增量协同重新均衡(incremental cooperative rebalancing)的支持新增 MirrorMaker 2.0 (MM2),新的多集群跨数据中心复制引擎引入新的 Java 授权程序接口支持 KTable

#kafka
Kafka终极面试题

1. Kafka 中的 ISR(InSyncRepli)、 OSR(OutSyncRepli)、 AR(AllRepli)代表什么?ISR:In-Sync Replicas 副本同步队列AR:Assigned Replicas 所有副本ISR是由leader维护,follower从leader同步数据有一些延迟(包括延迟时间replica.lag.time.max.ms和延迟条数replica.l

#kafka#大数据
到底了