logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据进击】如何设置spark.kryoserializer.buffer.max value

如何设置spark.kryoserializer.buffer.max value在运行Spark计算任务时,出现了Buffer Overflow错误,Kryo序列化在序列化对象时缓存爆了。反复设置了几次,终于发现了自己的错误,分享出来,希望大家能避坑。设置Kryo为序列化类//设置Kryo为序列化类(默认为Java序列类)sparkConf.set("spark.serialize...

【大数据面试题】26 解释一下数据湖(Data Lake)的概念,以及它与数据仓库的区别

数据湖(Data Lake)是一种集中存储企业所有原始数据的体系结构,它允许数据以原始、未经过加工的格式被收集并存储。这种存储方式通常不预先定义数据的结构,而是保留数据的原始形态,包括结构化数据(如关系数据库中的表格数据)、半结构化数据(如CSV、日志文件、XML、JSON)和非结构化数据(如文本文件、图像、音频、视频等)。数据湖的核心价值在于它提供了一个灵活的环境,让企业能够在需要时对数据进行分

文章图片
#大数据#数据仓库
【大数据面试题】013 Spark 与 Presto 区别与比较

对小型查询和交互式分析的性能可能不如专门的查询引擎;:Presto采用内存计算和并行执行机制,能够快速处理大规模数据查询,适合高性能的交互式查询。:支持多种数据源和 ANSI SQL 标准,可以进行跨源的复杂查询和分析操作。:采用分布式共享无状态计算模型,具备高可伸缩性和容错性,适合大规模数据处理。:具备动态优化器功能,能够根据查询特性选择最佳执行计划,提升查询性能。:由于内存计算和并行执行,可能

【大数据面试题】34 手写一个 Flink SQL 样例

一步一个脚印,一天一道大数据面试题祝你身体健康,事事顺心!我们来看看Flink SQL。

文章图片
#大数据#flink#sql
【大数据面试题】021 Spark 开发过程中遇到过那些报错?

1.看是否数据倾斜单独优化;2.调整到资源充裕的时间段 3.增加资源;时有些 excutor,网络等问题导致失败。一般数据倾斜的概率不高。日常遇到挺多,但没文字记录下来,临时就想到这些,欢迎留言补充。读取还不会报错,但如果用这张表里读的数据去进行下一步的。(程序)被外部应用干掉了,听起来挺奇葩的,但大多就是。这种是因为那个表的那个分区里有脏数据。报错也是一个不错的帮助,来总结一下吧。清理错误数据,

文章图片
#大数据#spark#分布式
【Linux】简单使用 iptables 限制端口访问

使用 iptables -L 查看当前环境的 iptables 规则插入禁止访问的规则对特定 IP 解除限制最后再来查看规则添加情况iptables 的规则是从上往下依次执行的,如上面的例子,先ACCEPT(接受)192.168.157.12对8443端口的访问;再拒绝所有的其它 IP 对8443端口的访问...

Zookeeper未授权访问【限定IP方式】

漏洞描述默认情况下,Zookeeper安装不会部署任何身份验证,这使得黑客很容易使用该漏洞收集信息,破坏集群。解决方案本次生产环境中,使用限定IP的方式解决该漏洞。限定集群内的机器拥有权限。解决步骤通过任意一台节点登录ZK Cli/usr/software/zookeeper/bin/zkCli.sh -server 192.168.157.101对集群内IP授予权限此操作...

到底了