Jiweilai1 个人主页

@Jiweilai1

Jiweilai1

2024-06-20 16:16:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据进击】如何设置spark.kryoserializer.buffer.max value

如何设置spark.kryoserializer.buffer.max value在运行Spark计算任务时，出现了Buffer Overflow错误，Kryo序列化在序列化对象时缓存爆了。反复设置了几次，终于发现了自己的错误，分享出来，希望大家能避坑。设置Kryo为序列化类//设置Kryo为序列化类（默认为Java序列类）sparkConf.set("spark.serialize...

【大数据面试题】26 解释一下数据湖（Data Lake）的概念，以及它与数据仓库的区别

数据湖（Data Lake）是一种集中存储企业所有原始数据的体系结构，它允许数据以原始、未经过加工的格式被收集并存储。这种存储方式通常不预先定义数据的结构，而是保留数据的原始形态，包括结构化数据（如关系数据库中的表格数据）、半结构化数据（如CSV、日志文件、XML、JSON）和非结构化数据（如文本文件、图像、音频、视频等）。数据湖的核心价值在于它提供了一个灵活的环境，让企业能够在需要时对数据进行分

#大数据 #数据仓库

【大数据面试题】013 Spark 与 Presto 区别与比较

对小型查询和交互式分析的性能可能不如专门的查询引擎；：Presto采用内存计算和并行执行机制，能够快速处理大规模数据查询，适合高性能的交互式查询。：支持多种数据源和 ANSI SQL 标准，可以进行跨源的复杂查询和分析操作。：采用分布式共享无状态计算模型，具备高可伸缩性和容错性，适合大规模数据处理。：具备动态优化器功能，能够根据查询特性选择最佳执行计划，提升查询性能。：由于内存计算和并行执行，可能

【大数据面试题】34 手写一个 Flink SQL 样例

一步一个脚印，一天一道大数据面试题祝你身体健康，事事顺心！我们来看看Flink SQL。

#大数据 #flink #sql

【大数据面试题】021 Spark 开发过程中遇到过那些报错？

1.看是否数据倾斜单独优化；2.调整到资源充裕的时间段 3.增加资源；时有些 excutor，网络等问题导致失败。一般数据倾斜的概率不高。日常遇到挺多，但没文字记录下来，临时就想到这些，欢迎留言补充。读取还不会报错，但如果用这张表里读的数据去进行下一步的。（程序）被外部应用干掉了，听起来挺奇葩的，但大多就是。这种是因为那个表的那个分区里有脏数据。报错也是一个不错的帮助，来总结一下吧。清理错误数据，

#大数据 #spark #分布式

到底了