logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

日均5亿,京东 Elasticsearch 架构演进之路

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注,大数据开发领域最强公众号!暴走大数据点击右侧关注,暴走大数据!来源:京东技术(ID: jingdo...

#数据库#分布式#java +2
只知道HDFS和GFS?你其实并不懂分布式文件系统

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注,大数据开发领域最强公众号!暴走大数据点击右侧关注,暴走大数据!一、概述分布式文件系统是分布式领域的...

#分布式#大数据#hadoop +2
【查询优化】Doris性能优化不要慌,再看看这里!

《Doris性能优化不要慌,再看看这里!- Join优化》《Doris性能优化不要慌,再看看这里!- 导入优化》这篇是第三部分查询优化。OLAP查询对于高并发查询,其核心在于如何平衡有限的系统资源消耗与并发执行带来的高负载。换而言之,需要最大化降低单个 SQL 执行时的 CPU、内存和 IO 开销,其关键在于减少底层数据的 Scan 以及随后的数据计算。Doris能够实现高并发查询的能力主要是通过

#性能优化
B站基于Iceberg的湖仓一体架构实践

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜八股文教给我,你们专心刷题和面试Hi,我是王知无,一个大数据领域的原创作者。放心关注我,获取更多行业的一手消息。背景在B站,每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需求,一直是我们重点的工作...

#分布式#数据仓库#大数据 +2
Apache Spark在海致大数据平台中的优化实践

本文来自由海致网络技术公司翟士丹分享。专注于大数据技术领域,Apache Spark Contributor,有丰富的Spark SQL引擎调优经验。海致全称海致网络技术公司,成立于2013年7月。作为一家技术驱动的创业型公司,海致的创始班底拥有丰富的技术经验。核心团队成员来自百度、微软、IBM、EMC、硅谷等知名企业的资深互联网专家。大数据数据平台的核心组成部分多数据整合自助式数据准备...

美团发offer了!大数据面经复盘来了

有不止一个大数据提高班的小伙伴面试了美团的数据开发岗位,面经我做了整了,今天分享的是其中的一些有水平的面试问题,如何能够给出超出期望的回答,拿到更好的面试评价。决策支持:能为企业领导提供准确、及时的数据支持,帮助做出正确的决策,同时能为日常运营和业务问题分析提供有效帮助,发现问题并提供解决方案或思路。元数据管理:表有中文别名和详细的字段描述,方便其他人员理解和使用,且具备完善的元数据管理系统,可追

#大数据
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler)

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜八股文交给我,你们专心刷题和面试Hi,我是王知无,一个大数据领域的原创作者。放心关注我,获取更多行业的一手消息。大数据调度系统,...

#分布式#大数据#python +2
八股文一文不值 | 云原生时代大数据的危与机

点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源周末的时候,在网上看了周志明老师关于《云原生时代的Java》公开课,感慨颇深。周志明老师就不多做介绍了。我可以很负责的说,如果你没...

#中间件#运维#java +2
阿里大数据之路:数据模型篇大总结

全网最全大数据面试提升手册!第1章 大数据领域建模综述1.1 为什么需要数据建模有结构地分类组织和存储是我们面临的一个挑战。数据模型强调从业务、数据存取和使用角度合理存储数据。数据模型方法,以便在性能、成本、效率之间取得最佳平衡成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用

#数据仓库#webgl
数据仓库实践-拉链表设计

1 写在开头的话拉链表,学名叫缓慢变化维(Slowly Changing Dimensions),简称渐变维(SCD),俗称拉链表,是为了记录关键字段的历史变化而设计出来的一种数据存储模型...

#大数据#java#人工智能 +2
    共 89 条
  • 1
  • 2
  • 3
  • 9
  • 请选择