logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

为什么分布式数据库主键自增不是连续的

分布式数据库的核心诉求是高可用、高并发、无冲突要保证连续,必须让所有节点共享一个“强一致计数器”,但会导致性能瓶颈(所有写入排队)和单点故障风险;要保证高可用和高并发,必须采用“预分配”“随机生成”等机制,而这些机制必然导致ID不连续。因此,在分布式场景中,“非连续自增ID”是技术权衡后的必然结果,实际业务中通常通过“业务字段补全排序”(如用创建时间排序)替代“ID连续排序”,而非强求ID本身连续

文章图片
#分布式#数据库
windows安装wsl、Ubuntu、docker desktop

Windows系统安装WSL、Ubuntu及Docker Desktop的完整流程整合

文章图片
#windows#ubuntu#docker
为什么现在用hive的越来越少,用spark的越来越多

Spark 替代 Hive 的本质是 ​​“磁盘计算 vs 内存计算”​​ 、 ​​“单一批处理 vs 批流融合”​​ 的代际差,其背后驱动力来自业务的实时化、智能化、云原生化需求。未来随着实时数仓与 AI 的结合加深,Spark 的优势将进一步扩大。

文章图片
#hive#spark#hadoop
从技术架构和生态考虑,不是单纯的配置优化,还有哪些方式可以提高spark的计算性能

从架构和生态层面提升Spark性能需打破传统计算范式,结合新型硬件、跨栈优化和生态融合。建议优先实施Catalyst优化器增强、Structured Streaming批流一体改造及GPU加速方案,可快速获得性能收益。

文章图片
#架构#spark#大数据
如何通过spark history页面查看gluten是否集成成功

如果在配置、日志、Metrics或执行计划中均发现Gluten相关的有效信息(如插件加载成功、Velox任务计数为正),则表明Gluten已成功集成。较高,需确认查询是否包含Gluten尚未支持的操作(如某些UDF或复杂数据类型)

文章图片
#spark
idea修改git提交到本地分支的代码的提交注释备注信息

打开 Git 的 Console找到本地分支提交记录右击需要修改的记录点击 Edit Commit Message修改

yarn集群优化和治理常见问题和答案

yarn集群治理和优化问题答案

文章图片
#yarn
成为一名大数据平台SRE需要具备哪些技能?

领域核心技能大数据平台Hadoop/HDFS/YARN、Spark/Flink、Hive/HBase、Kafka、数据湖SRE方法论SLO/SLA、自动化运维、混沌工程、故障排查、容量规划编程Python/Shell/Java、SQL、分布式计算框架开发系统基础Linux、网络协议、分布式系统理论软技能跨团队协作、文档编写、技术方案设计通过技术深度(如精通Flink原理)工程实践(如落地自动化监控

#大数据
Caused by: java.lang.ClassNotFoundException: com.ververica.cdc.debezium.DebeziumDeserializationSchem

该问题的核心是类路径缺失或版本不兼容,需依次排查依赖配置、构建环境、部署流程及版本匹配。

文章图片
#java#flink
    共 28 条
  • 1
  • 2
  • 3
  • 请选择