QXXDYL 个人主页

@QXXDYL

QXXDYL

2024-09-18 15:19:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

StarRocks各版本性能与兼容性对比测试-数据存储分析

在10000w数据规模下，StarRocks的空间占用介于CSV和Hive之间（股东表45.34GB，企业表72.54GB），但存储倍率优于CSV（0.84和0.798）。但3.4.3的INSERT INTO SELECT在企业表导入中速率最高（107874条/s），优化了大数据量场景。企业信息表因单条数据量更大，导入速率普遍低于股东表（如DataX中企业表速率11109条/s vs 股东表195

#hive #sql

StarRocks 4.0.2 (CDH 环境)与Paimon数据湖集成混合部署文档

JDK 版本报错现象:解决: StarRocks 4.0.2 强制要求JDK 17。必须在fe.conf和be.conf中显式配置。FE 启动失败 / 端口冲突现象:。原因: CDH 的 Zookeeper (zookeep) 占用了 9010。解决: 将fe.conf中的修改为19010。注意所有 FE 节点必须一致，且 helper 参数也要用新端口。YARN 端口冲突原因: StarRock

#硬件架构 #linux

StarRocks 2.5.22 混合部署实战文档（CDH环境）

本次部署成功实现了在 CDH 集群上 StarRocks 2.5.22 与 Doris 2.1.10 的共存。端口管理：通过 "+10000" 策略及特殊处理 webserver 端口，完美避开了冲突。稳定性：解决了 JDK 版本告警及 FE 脑裂问题。局限性：确认 StarRocks 2.5 版本无法直接通过 External Catalog 支持 Paimon，后续计划升级至 StarRock

#apache

Apache Doris 4.0.1 集群部署与 Paimon 数据湖集成实战文档

高可用性 (HA)：配置了nd1和nd3双 Metastore 节点，任意单点故障不影响 Doris 业务查询。性能优化 (CBO)：Doris 可以从 HMS 获取表的行数、文件大小等统计信息，生成更优的 Join 执行计划。数据准确性：HMS 模式能正确识别 Paimon/Hive 的 ACID 事务状态，避免读取到未提交或已删除的脏数据。运维规范：统一通过 Metastore 管理元数据，符

#apache #flink

CDH 6.3.2 集群外挂 Spark 3.5.7 (Paimon) 集成 Hue 实战指南

由于 CDH 默认环境未变更，原有的hive命令依然指向旧版本。针对 .sql 脚本的调度，需采用以下替代方案。

#spark #大数据 #分布式

CDH6.3.2集群Hive2Paimon的表迁移

- 1. 定义 Source Catalog (读取 Hive)'hive-conf-dir' = '/etc/hive/conf.cloudera.hive', -- CDH 标准配置路径'hadoop-conf-dir' = '/etc/hadoop/conf.cloudera.hdfs' -- CDH 标准配置路径-- 2. 定义 Target Catalog (写入 Paimon)

#flink #hive

通过Flink 1.19 客户端实现Flink集群连接paimon基础测试

python版本:3.8.20该测试旨在描述如何通过 Python 自动化脚本远程连接 Flink 集群，并对 Paimon 数据湖格式进行基础的 CRUD（增删改查）及压力测试。描述了一套基于 Pythonparamiko库实现的自动化测试流程。该流程通过 SSH 连接到部署了 Flink 客户端的远程服务器，利用提交 SQL 任务到 Flink on YARN 集群，完成针对 Paimon 表

#flink #大数据

到底了