logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

StarRocks各版本性能与兼容性对比测试-数据存储分析

在10000w数据规模下,StarRocks的空间占用介于CSV和Hive之间(股东表45.34GB,企业表72.54GB),但存储倍率优于CSV(0.84和0.798)。但3.4.3的INSERT INTO SELECT在企业表导入中速率最高(107874条/s),优化了大数据量场景。企业信息表因单条数据量更大,导入速率普遍低于股东表(如DataX中企业表速率11109条/s vs 股东表195

#hive#sql
StarRocks 4.0.2 (CDH 环境)与Paimon数据湖集成混合部署文档

JDK 版本报错现象:解决: StarRocks 4.0.2 强制要求JDK 17。必须在fe.conf和be.conf中显式配置。FE 启动失败 / 端口冲突现象:。原因: CDH 的 Zookeeper (zookeep) 占用了 9010。解决: 将fe.conf中的修改为19010。注意所有 FE 节点必须一致,且 helper 参数也要用新端口。YARN 端口冲突原因: StarRock

#硬件架构#linux
StarRocks 2.5.22 混合部署实战文档(CDH环境)

本次部署成功实现了在 CDH 集群上 StarRocks 2.5.22 与 Doris 2.1.10 的共存。端口管理:通过 "+10000" 策略及特殊处理 webserver 端口,完美避开了冲突。稳定性:解决了 JDK 版本告警及 FE 脑裂问题。局限性:确认 StarRocks 2.5 版本无法直接通过 External Catalog 支持 Paimon,后续计划升级至 StarRock

#apache
Apache Doris 4.0.1 集群部署与 Paimon 数据湖集成实战文档

高可用性 (HA):配置了nd1和nd3双 Metastore 节点,任意单点故障不影响 Doris 业务查询。性能优化 (CBO):Doris 可以从 HMS 获取表的行数、文件大小等统计信息,生成更优的 Join 执行计划。数据准确性:HMS 模式能正确识别 Paimon/Hive 的 ACID 事务状态,避免读取到未提交或已删除的脏数据。运维规范:统一通过 Metastore 管理元数据,符

#apache#flink
CDH 6.3.2 集群外挂 Spark 3.5.7 (Paimon) 集成 Hue 实战指南

由于 CDH 默认环境未变更,原有的hive命令依然指向旧版本。针对 .sql 脚本的调度,需采用以下替代方案。

#spark#大数据#分布式
CDH6.3.2集群Hive2Paimon的表迁移

- 1. 定义 Source Catalog (读取 Hive)'hive-conf-dir' = '/etc/hive/conf.cloudera.hive', -- CDH 标准配置路径'hadoop-conf-dir' = '/etc/hadoop/conf.cloudera.hdfs' -- CDH 标准配置路径​-- 2. 定义 Target Catalog (写入 Paimon)

#flink#hive
通过Flink 1.19 客户端实现Flink集群连接paimon基础测试

python版本:3.8.20该测试旨在描述如何通过 Python 自动化脚本远程连接 Flink 集群,并对 Paimon 数据湖格式进行基础的 CRUD(增删改查)及压力测试。描述了一套基于 Pythonparamiko库实现的自动化测试流程。该流程通过 SSH 连接到部署了 Flink 客户端的远程服务器,利用提交 SQL 任务到 Flink on YARN 集群,完成针对 Paimon 表

#flink#大数据
到底了