logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Doris支持spark导入设计文档

Doris支持spark导入设计文档背景Doris现在支持Broker load/routine load/stream load/mini batch load等多种导入方式。 spark load主要用于解决初次迁移,大量数据迁移doris的场景,用于提升数据导入的速度。FE:Frontend,即 Palo 的前端节点。主要负责接收和返回客户端请求、元数据以及集群管理、查询计划生成等工作。BE

#spark#big data#hadoop
复制数据库(本地到阿里云)

复制数据库(本地到阿里云)

#数据库#mysql
Doris之DataX doriswriter

DataX doriswriterDataX (opens new window)doriswriter 插件,用于通过 DataX 同步其他数据源的数据到 Doris 中。这个插件是利用Doris的Stream Load 功能进行数据导入的。需要配合 DataX 服务一起使用。关于 DataXDataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工

#hbase#hive#big data
Doris之导入 Json 格式数据

Doris之导入 Json 格式数据

文章图片
#json#前端
集群之间数据拷贝distcp性能的调优

百PB级数据拷贝distcp性能调优背景配合集群迁移,需要迁移3PB数据拷贝方式全量数据约3PB,全量拷贝一次,耗时近两个星期(业务每日高峰期需要停止拷贝作业)这里主要测试每天的增量同步速度(6PB全量基础上的增量,每天数量在120TB左右,不含副本数)拷贝方式,按照业务项目数仓路径单独作业。对于超大项目,子目录划分为独立作业速度问题拷贝数据过程中,发现distcp存在以下比较慢的问题,包含不限于

文件或数据源不一致出问题‘REFRESH TABLE tableName‘ command in SQL or by recreating the Dataset/DataFrame involved

此外,为了确保缓存的有效性和一致性,Spark 还提供了一些管理缓存的方法,例如 unpersist() 可用于清除缓存,cache() 可用于重新缓存,以及 isCached() 可用于检查数据是否已缓存。当你创建这些对象的新实例时,Spark 将重新从数据源加载数据,因此你将使用最新的数据。缓存可以减少磁盘读写开销,加快数据访问速度,并提高整体的数据处理性能。如果你怀疑底层数据已经被外部更新,

文章图片
#sql#数据库#大数据 +1
doris挂了一个be报错ERRCODE = 2, DETAILMESSAGE = 678910 HAVE NO QUERYABLE REPLICAS. ERR: 678911‘S BACKEND 1

这个错误表明在执行SQL查询时,出现了无法查询的副本错误。最后,如果出现了集群ID无效的错误,通常是因为Master FE发送的心跳信息中的集群ID与本地存储的集群ID不一致,导致拒绝响应心跳。你需要确保所有节点都在正确的集群中,然后尝试修改FE节点中metadata目录下的image/VERSION文件中的集群ID值,并重启FE节点。另外,你还可以尝试执行show backends/fronte

#hive#sql
doris的单节点安装部署(详细)

官网网址:https://doris.apache.org/zh-CN/docs/dev/get-starting/quick-start。这个参数我们在安装的时候是必须要配置的,特别是当一台机器拥有多个IP地址的时候,我们要为 FE 指定唯一的IP地址。进入doris下的fe目录,修改其中conf目录下的fe.conf文件。进入doris下的be目录,修改其中conf目录下的be.conf文件。

文章图片
#大数据#集群
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择