
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
最近公司采用Hbase scan 的方式,经常性会遇到任务跑不出来region 读取超时,由于scan 全量数据,合计行数10个亿,列数接近500。利用chatGPT查询hbase locality的含义,能发现其实就是数据本地性,而我们实际任务中是不需要计算这个本地性占比,因为只需要能拉到数据即可,无论是从本地还是远端。能看到程序一直卡在这个地方,一直计算block 信息,找到对应的Hbase

网上经常盛传 大数据=sql boy,后端开发=crud boy,算法工程师=调参boy在大数据领域也工作了好几年了,确实大数据开发,很多工作就是写sql,hive sql、spark sql、flink sql等等sql。
前文介绍了开源大数据比对平台设计和实践,最近将整体业务流程进行了完善和开发。(2)数据指针探测----枚举值探测、范围探测、数值探测、主键取模探测。数据库配置信息页面(目前已经实现了MySQL、Hive)job配置信息页面(选择数据源和表以及主键和对比字段)(1)低代码简单配置完成数据比对核心功能。对比结果页面展示(量级对比、一致性对比)(2)数据量级比对、数据一致性比对。系统主页(系统功能和技术

通过jdk自带工具,jvisualvm.exe(在安装jdk8/bin目录下)添加JMX连接,即可看到如下界面。
前文介绍了开源大数据比对平台设计和实践,最近将整体业务流程进行了完善和开发。(2)数据指针探测----枚举值探测、范围探测、数值探测、主键取模探测。数据库配置信息页面(目前已经实现了MySQL、Hive)job配置信息页面(选择数据源和表以及主键和对比字段)(1)低代码简单配置完成数据比对核心功能。对比结果页面展示(量级对比、一致性对比)(2)数据量级比对、数据一致性比对。系统主页(系统功能和技术

前文介绍了开源大数据比对平台设计和实践,最近将整体业务流程进行了完善和开发。(2)数据指针探测----枚举值探测、范围探测、数值探测、主键取模探测。数据库配置信息页面(目前已经实现了MySQL、Hive)job配置信息页面(选择数据源和表以及主键和对比字段)(1)低代码简单配置完成数据比对核心功能。对比结果页面展示(量级对比、一致性对比)(2)数据量级比对、数据一致性比对。系统主页(系统功能和技术

在大数据领域也已经工作了多年,无论所待过的大公司还是小公司,都会遇到集群升级迁移过程中据搬迁等相关工作,经常会碰到搬迁之后,搬迁的数据是不是能对的上呢?两边数据究竟是不是一致的呢?如果不一致,那又有哪些差异呢?能不能更快地找到差异解决问题呢?
1.Mapreduce 调优根据maps/reduces个数、对应的avg time调整mapreduce.job.maps、mapreduce.job.reduces,控制平均时间在30分钟左右(比如maps调小一半,avg time增加一倍)因为设置太多maps/reduces了,每个map/reduce都得去抢资源,都浪费在排队上了2.spark 任务调优3.Flink 任务调优反压(Bac
因此,能够非常明显的看到目前大数据对比平台功能只适用于数据迁移中的对比,而不适用于数据架构升级,比如说:本来Hive 存储的数据由于架构升级需要迁移到Iceberg 或者Doris 等等数据存储中。比如说:由于数据架构升级,之前的Hive(user_info_hive) 数据 升级到用Doris(user_info_doris) 进行存储(要求:表结构不变,只是数据存储升级)(1)最简单的方案,把

1.mysql explain