
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
历时多年整理,每看到一本好书都会收藏下来,到现在一看竟然有100多本了这些书籍确实是大数据的宝藏,从大数据入门到实战,深入原理,大数据架构等全部都有从 hadoop,hive,spark,flink,kafka,hbase,kudu,clickhouse,数仓建模,大数据算法,机器学习,数据科学,jvm虚拟机,数学思维,5G时代等等全都有以下为书籍截图:书籍太多,所以先推荐几本必读书籍(我读过的认

2023年最新大数据面试宝典,目前已更新到第4版,广受好评!
风起云涌的大数据战场上,早已迎百花齐放繁荣盛景,各大企业加速跑向“大数据时代”。而我们作为大数据的践行者,在这个“多智时代”如何才能跟上大数据的潮流,把握住大数据的发展方向。前言大数据起源于2000年左右,也就是互联网高速发展阶段。经过几年的发展,到2008年 Hadoop 成为 Apache 顶级项目,迎来了大数据体系化的快速发展期,到如今 Hadoop 已不单单指一个软件,而成为了大数据生态体
当前业界呈现出一个显著的趋势,即大数据的处理正在从离线模式转向实时化。我们可以观察到,多个行业和应用场景都在进行实时化的演进。例如,互联网、车联网和金融等领域都正通过挖掘实时数据来提升业务价值。文章首发于公众号【五分钟学大数据】,在公众号后台发送:大数据面试,送你一份最牛X的大数据面试题在技术方面,大数据计算架构经历了显著的演变。从最初的 Hive 传统数据仓库,到引入 Lakehouse 湖仓架

Flink 基础Flink特性流式计算是大数据计算的痛点,第1代实时计算引擎Storm对Exactly Once 语义和窗口支持较弱,使用的场景有限且无法支持高吞吐计算;Spark Streaming 采用“微批处理”模拟流计算,在窗口设置很小的场景中有性能瓶颈,Spark 本身也在尝试连续执行模式(Continuous Processing),但进展缓慢。Flink是一个低延迟、高吞吐的实时计算

在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。本文首发于公众号【五分钟学大数据】Hive自带的json解析函数1. get_json_object语法:get_json_object(json_string, '$.key')
目录1. Flink SQL 常用算子2. Flink SQL 实战案例Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将最终代码开源,也就是我们熟知

今天给大家推荐一本大数据领域中必读的一本书,名字叫《大数据日知录-架构与算法》这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,既包罗万象,又深入浅出。这本书详细介绍了我们所使用的大数据组件的底层原理及实现算法。像Flink中非常重要的分布式一致性协议,使用的是两阶段提交协议,这本书中就详细介绍了两阶段提交协议的原理,如下为书中截图:还有像
本文最新版已发布至公众号【五分钟学大数据】获取此套面试题最新pdf版,请搜索公众号【五分钟学大数据】,对话框发送面试宝典扫码获取最新PDF版:版本时间描述V1.02020-02-18创建V1.22020-06-17新增 spark 、flink相关面试题V1.3...

本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦!注:以下参考答案都经过简单数据场景进行测试通过,但并未测试其他复杂情况。本文档的SQL主要使用Hive SQL。因内容较多,带目录的PDF查看是比较方便的:最强最全面的大数据SQL经典面试题完整PDF版一、行列转换描








