飞朋个人主页

@zpf_940810653842

飞朋

2022-11-10 11:56:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

为什么分布式数据库主键自增不是连续的

分布式数据库的核心诉求是高可用、高并发、无冲突要保证连续，必须让所有节点共享一个“强一致计数器”，但会导致性能瓶颈（所有写入排队）和单点故障风险；要保证高可用和高并发，必须采用“预分配”“随机生成”等机制，而这些机制必然导致ID不连续。因此，在分布式场景中，“非连续自增ID”是技术权衡后的必然结果，实际业务中通常通过“业务字段补全排序”（如用创建时间排序）替代“ID连续排序”，而非强求ID本身连续

#分布式 #数据库

windows安装wsl、Ubuntu、docker desktop

Windows系统安装WSL、Ubuntu及Docker Desktop的完整流程整合

#windows #ubuntu #docker

hadoop集群优化和治理常见的问题答案

hdfs常见问题和答案

#hadoop #大数据 #分布式

为什么现在用hive的越来越少，用spark的越来越多

Spark 替代 Hive 的本质是 “磁盘计算 vs 内存计算” 、 “单一批处理 vs 批流融合” 的代际差，其背后驱动力来自业务的实时化、智能化、云原生化需求。未来随着实时数仓与 AI 的结合加深，Spark 的优势将进一步扩大。

#hive #spark #hadoop

从技术架构和生态考虑，不是单纯的配置优化，还有哪些方式可以提高spark的计算性能

从架构和生态层面提升Spark性能需打破传统计算范式，结合新型硬件、跨栈优化和生态融合。建议优先实施Catalyst优化器增强、Structured Streaming批流一体改造及GPU加速方案，可快速获得性能收益。

#架构 #spark #大数据

如何通过spark history页面查看gluten是否集成成功

如果在配置、日志、Metrics或执行计划中均发现Gluten相关的有效信息（如插件加载成功、Velox任务计数为正），则表明Gluten已成功集成。较高，需确认查询是否包含Gluten尚未支持的操作（如某些UDF或复杂数据类型）

#spark

idea修改git提交到本地分支的代码的提交注释备注信息

打开 Git 的 Console找到本地分支提交记录右击需要修改的记录点击 Edit Commit Message修改

yarn集群优化和治理常见问题和答案

yarn集群治理和优化问题答案

#yarn

成为一名大数据平台SRE需要具备哪些技能？

领域核心技能大数据平台Hadoop/HDFS/YARN、Spark/Flink、Hive/HBase、Kafka、数据湖SRE方法论SLO/SLA、自动化运维、混沌工程、故障排查、容量规划编程Python/Shell/Java、SQL、分布式计算框架开发系统基础Linux、网络协议、分布式系统理论软技能跨团队协作、文档编写、技术方案设计通过技术深度（如精通Flink原理）工程实践（如落地自动化监控

#大数据

Caused by: java.lang.ClassNotFoundException: com.ververica.cdc.debezium.DebeziumDeserializationSchem

该问题的核心是类路径缺失或版本不兼容，需依次排查依赖配置、构建环境、部署流程及版本匹配。

#java #flink

共 28 条

请选择