简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
#!/bin/bash#yum install -y sendEmailyum install -y bcItem=测试环境Host=`/usr/bin/hostname`Ip=`ip a | grep 'inet'|awk -F '[ ]' '{print $6}' | grep 24`Cpu=`top -n1 | fgrep "Cpu(s)" | tail -1 | awk -...
首先确保本地hadoop环境正常运行环境:spark 3.0.2| hdfs 3.1.1 | kafka 2.0.0问题描述:执行idea sss读取kafka报错如下Exception in thread "main" java.lang.IllegalArgumentException: Pathname /C:/Users/LZX/AppData/Local/Temp/temporary-e
场景描述:由于业务要求想要使用Hudi,而hudi需要spark2.4.5+版本,canal+kafka+sss+hudi当前版本:hdp3.1.4hadoop 3.1.0hive 3.1.0spark 2.3.0scala 2.11.8原计划升级ambari,但发现ambari2.7.5spark版本为2.3.3(好像)不满足要求后决定在现有基础上升级spark1. 升级scala官网下载 sc
问题描述:sparkstructedstreaming 将kafka数据写入hudi 并与hive同步执行报错如下:Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.adapter.Spark3Adapter解决办法:问题显示没有发现适配器这个包?spark也没这个包啊?查看启动脚本,忘记添加hudi --jars了
本人使用canal + kafka + sparkstructedstreaming 将mysql数据同步至hudi,并将hudi与hive集成。想利用hive查询hudi数据。hudi 在hive中有两张表:xxx_ro:历史xxx_rt:实时查询ro表发现更新数据未与历史数据合并查询rt表为实时数据,但是无法使用count()hudi在 hdfs以 log+parquet格式保存,更新数据存储
1 配置canal 读取mysql日志正则将数据分发(动态分区)至对应kafka topic2 sparkstructedstreaming获取kafka数据 并将数据存储至hudi本人有大量表名为 document_xxx(document_1,document_2,document_3…)通过canal将数据存储kafka topic (document)object SSSHudiETL {
需求描述:有两类表tbl_ec_document_xxx(tbl_ec_document_11 tbl_ec_document_12 tbl_ec_document_xbk…)tbl_ec_document_item_xxx(tbl_ec_document_item_11 tbl_ec_document_item_12 tbl_ec_document_item_xbk…)普通perl正则可使用如下
canal/conf/example/instance.properties文件中配置正则匹配多个库表。#table regexcanal.instance.filter.regex =155_155\\..*,cms.measurementvaluescanal.mq.partition=0canal.mq.topic= SKFcanal.mq.partitionHash=155_1...
Failed to update metadata after 60000 mscom.alibaba.fastsql.sql.parser.ParserException: syntax error, error in : 'cur ;UNKNOWN_TOPIC_OR_PARTITIONINVALID_TOPIC_EXCE
记一个python原始sql建表文件.sql,经过用notepad++标记 +正则处理后文件test.txt为以下格式#CREATE TABLE `sajt_auth``ID``ROLE_ID``PAGE_ID``BUTTON_ID`#CREATE TABLE `sajt_auth_dc``ID``ROLE_ID``PAGE_ID``BUTTON_ID`#CREATE TABLE `sajt_bu