logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Shell脚本监控Linux资源(CPU、内存、磁盘)超过阈值邮件告警

#!/bin/bash#yum install -y sendEmailyum install -y bcItem=测试环境Host=`/usr/bin/hostname`Ip=`ip a | grep 'inet'|awk -F '[ ]' '{print $6}' | grep 24`Cpu=`top -n1 | fgrep "Cpu(s)" | tail -1 | awk -...

IDEA执行hadoop相关报错xxx from xxx is not a valid DFS filename.

首先确保本地hadoop环境正常运行环境:spark 3.0.2| hdfs 3.1.1 | kafka 2.0.0问题描述:执行idea sss读取kafka报错如下Exception in thread "main" java.lang.IllegalArgumentException: Pathname /C:/Users/LZX/AppData/Local/Temp/temporary-e

#kafka#intellij-idea#深度优先
升级ambari spark至spark3.0.2 bad substitution 和scala.MatchError: x.x (of class java.lang.String)错误解决

场景描述:由于业务要求想要使用Hudi,而hudi需要spark2.4.5+版本,canal+kafka+sss+hudi当前版本:hdp3.1.4hadoop 3.1.0hive 3.1.0spark 2.3.0scala 2.11.8原计划升级ambari,但发现ambari2.7.5spark版本为2.3.3(好像)不满足要求后决定在现有基础上升级spark1. 升级scala官网下载 sc

#spark#kafka#big data
org.apache.spark.sql.adapter.Spark3Adapter 问题以及spark-hudi提交yarn脚本

问题描述:sparkstructedstreaming 将kafka数据写入hudi 并与hive同步执行报错如下:Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.adapter.Spark3Adapter解决办法:问题显示没有发现适配器这个包?spark也没这个包啊?查看启动脚本,忘记添加hudi --jars了

#spark#apache#sql
hudi mor表数据ro和rt表问题 rt更新数据表无法使用count

本人使用canal + kafka + sparkstructedstreaming 将mysql数据同步至hudi,并将hudi与hive集成。想利用hive查询hudi数据。hudi 在hive中有两张表:xxx_ro:历史xxx_rt:实时查询ro表发现更新数据未与历史数据合并查询rt表为实时数据,但是无法使用count()hudi在 hdfs以 log+parquet格式保存,更新数据存储

#hive#apache
将mysql数据通过canal+kafka+sparkstructedstreaming写入hudi并同步hive

1 配置canal 读取mysql日志正则将数据分发(动态分区)至对应kafka topic2 sparkstructedstreaming获取kafka数据 并将数据存储至hudi本人有大量表名为 document_xxx(document_1,document_2,document_3…)通过canal将数据存储kafka topic (document)object SSSHudiETL {

#scala#spark
canal匹配两类前缀相同表放入不同kafka topic中

需求描述:有两类表tbl_ec_document_xxx(tbl_ec_document_11 tbl_ec_document_12 tbl_ec_document_xbk…)tbl_ec_document_item_xxx(tbl_ec_document_item_11 tbl_ec_document_item_12 tbl_ec_document_item_xbk…)普通perl正则可使用如下

#分布式
canal正则配置读取多个库表

canal/conf/example/instance.properties文件中配置正则匹配多个库表。#table regexcanal.instance.filter.regex =155_155\\..*,cms.measurementvaluescanal.mq.partition=0canal.mq.topic= SKFcanal.mq.partitionHash=155_1...

canal Failed to update metadata after 60000 ms 等问题解决

Failed to update metadata after 60000 mscom.alibaba.fastsql.sql.parser.ParserException: syntax error, error in : 'cur ;UNKNOWN_TOPIC_OR_PARTITIONINVALID_TOPIC_EXCE

#kafka#mysql#分布式
python读取匹配行并追加到新文件中

记一个python原始sql建表文件.sql,经过用notepad++标记 +正则处理后文件test.txt为以下格式#CREATE TABLE `sajt_auth``ID``ROLE_ID``PAGE_ID``BUTTON_ID`#CREATE TABLE `sajt_auth_dc``ID``ROLE_ID``PAGE_ID``BUTTON_ID`#CREATE TABLE `sajt_bu

    共 12 条
  • 1
  • 2
  • 请选择