
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注,大数据开发领域最强公众号!大数据真好玩点击右侧关注,大数据真好玩!大数据性能测试的目的1.大数据组...
如今这个数字化时代,需求大薪资高的,依然非大数据工程师莫属。我跟不少行业大佬聊过,他们纷纷表示,大数据现在依然处在非常强的爆发期,依然是“黄金时代”!这里有两个关键趋势:一是实时化,从传统的T+1数仓到实时数仓,全面实时化是一个必然,数据洞察变得更快了。二是计算场景化,大家从热衷追逐某一两个引擎,逐渐转成,思考可以用哪些引擎解决哪些问题,更关注实际应用场景。这两个趋势,给...
数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前...
点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册!第一部分:Iceberg 核心功能原理剖析 :Apache Iceberg摘自官网:ApacheIcebergisanopentableformatforhugeanalyticdatasets.可以看到 Founders 对 Iceberg 的定位是面向海量数据分析...
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源先随便扯一扯2020年中期的时候,数据湖这个概念应该开始频繁的进入大家的视线了。很多兄弟都没有搞懂数据湖的概念的时候就开始吹了。...
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜8月份 FlinkCDC 发布2.0.0版本,相较于1.0版本,在全量读取阶段支持分布式读取、支持checkpoint,且在全量 ...
300万字!全网最全大数据学习面试社区等你来!背景数据质量是基于大数据衍生的应用有效与否的重要的前提和保障之一。B站现在高速发展的业务需求以及未来能够依靠大数据孵化出更有深度和竞争力应用的愿景,都要求我们数据平台能够提供实时的、准确的、可以被各个业务方所信赖的数据。可以说,可信赖的数据,是大数据平台核心竞争力的体现。因此,在B站的大数据平台的建设过程中,数据质量平台成为了不可或缺的一环,因为它的使
面试中关于数据模型设计是一个很常见的问题,这个问题很宽泛、看起来很简单,但是想回答好并不容易。这篇文章很短,我们就简单聊一下这个问题。问题本身模型设计本身是一个开放性的问题,什么意思呢?这个问题并没有100%对的标准答案。当然各种社区有很多关于模型设计的方法论、规范性质的文章可以参考,但是这些理论不足以支持你拿到一个面试官满意的评价。这个问题到底该怎么回答?下面这个思路供大家参考。先说核心基础内容
全网最全大数据面试提升手册!第1章 大数据领域建模综述1.1 为什么需要数据建模有结构地分类组织和存储是我们面临的一个挑战。数据模型强调从业务、数据存取和使用角度合理存储数据。数据模型方法,以便在性能、成本、效率之间取得最佳平衡成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用
导读本文将介绍腾讯欧拉数据血缘的建设及应用。主要内容包括以下几个部分:1.背景和目标2.项目架构3.模块化建设4.应用场景5.问答环节01背景和目标腾讯欧拉数据平台,是一款基于 DataOps 理念,实现生产即治理的一站式数据平台,主要包括三个子产品:首先是资产工厂,负责整体的数仓建设、数仓模型的开发;第二块是欧拉的治理引擎,负责全链路成本的数据治理;第三块是数据发现,负责元数据的管理...