logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Kettle初学者教程

Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比字段,若目标表不存在该字段,则新插入该条记录。若存在,则更新。Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然.

#数据库#java#python +2
Apache Doris : 一个开源 MPP 数据库的架构与实践

分享提纲:Doris 背景介绍适用场景 & 案例介绍Doris 整体架构Doris 关键技术Doris 背景介绍介绍 Doris 的整体架构,以及 Doris 的一些特性。一、DorisDoris 是分布式、面向交互式查询的分布式数据库,主要部分是 SQL,内部用到 MPP 技术。什么是 MPP?MPP ( Massively Parallel Processing...

#数据库#大数据#分布式 +1
Java8中的LocalDateTime和时间戳timestamp互相转换

将timestamp转为LocalDateTimepublic LocalDateTime timestamToDatetime(long timestamp){Instant instant = Instant.ofEpochMilli(timestamp);return LocalDateTime.ofInstant(instant, ZoneId.sys...

#java#python#大数据 +1
Apache Flink学习笔记一之基于数据流的有状态计算

图解Flink流场景使用案例数据驱动的应用批流数据分析数据通道和ETL 更多正确性保证Exactly-once状态一致性保证事件时间处理复杂的late date处理 更多API分层体系统一SQL支持Stream和Batch数据处理DataStream API & DataSet APIProcessFunction (Time & ...

#大数据#java#人工智能 +2
python脚本JMX获取JVM状态

主要原理:主要通过python库jmxquery,jmxquery是通过python脚本调用它里面的JAR包的JAVA方法连接JMX端口,以获取JVM的状态。jmxquery github:https://github.com/dgildeh/JMXQuery/tree/master/python安装jmxquery:$ pip install jmxqueryCollecting j...

#python#java#docker +1
代码中如何取消正在运行的Flink Streaming作业

1可以通过 StreamExecutionEnvironment#executeAsync 提交作业,返回 JobClient [1], 通过JobClient 可以 cancel 作业,获取 job status。[1] https://cwiki.apache.org/confluence/display/FLINK/FLIP-74%3A+Flink+JobClient+API2如果是想做一个

canal的配置详解

一、canal的配置加载方式介绍配置之前,先了解下canal的配置加载方式:canal配置方式有两种:ManagerCanalInstanceGenerator: 基于manager管理的配置方式,目前alibaba内部配置使用这种方式。大家可以实现CanalConfigClient,连接各自的管理系统,即可完成接入。SpringCanalInstanceGenerator:基于本地spring

Linux环境 tinyproxy安装配置及使用教程【超详细】

安装# centossudo yum install tinyproxy# ubuntusudo apt install tinyproxy配置vim /etc/tinyproxy/tinyproxy.conf需要修改的是:# 注释掉这一行# Allow 127.0.0.1# 修改端口号Port 8787Allow是允许访问的主机IP,不写就是允许所有主机访问Port 是代理访问端口号启动/停止/

#linux
SQL 的 WITH ROLLUP 用法

MySQL中有个 with rollup 语法,用法是跟在group by 字段之后 ,可以在分组字段的基础上做一个汇总统计。例如以下SQL:就是在company的基础上又做了一个汇总,这个对于数据分析很有帮助。

hive分区表插入/导入数据

数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区.1. hive建立分区表create external table if not exists tablename(a string,b string)partit

暂无文章信息