logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

kettle8调度监控平台(kettle-scheduler)开源

背景Kettle作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。Pentaho官方都建议采用crontab(Unix平台)和计划任务(Windows平台)来完成调度功能。所以大家在实施kettle作业调度功能的时候,通常采用以下几种...

大数据平台可视化BI工具,通幽洞微,呕血总结

BI唤醒沉睡的数据大数据时代商业智能(BI)和数据可视化诉求更为强烈,淘宝大屏更是风靡全球!数据可视化是大数据『最后一公里』,BI唤醒沉睡的数据。百家争鸣,百花齐放传统型BI力求大而全的统一综合型报表和分析平台,侧重传统式报表开发,俨然一把屠龙刀。现互联网公司快速迭代的业务发展,需要的却是倚天剑,促使自助式BI和敏捷BI得以迅速发展。时代召唤,传统BI巨头也逐渐向自助式BI和云BI转型。一时间,数

Kettle — 安装和部署

前提Kettle是纯Java编写的ETL开源工具,目前Kettle7和Kettle8都需要Java8或者以上才能正常运行。所以开运行Kettle前先检查Java环境是否正确配置,Java版本...

Kettle批量操作流程使用(一)---单个数据源多表批量操作

    最近在工作上用到了kettle,目前这个开源的ETl工具相对来说比较火,用做数据抽取清洗工作很方便也很快捷。当然也还有不少的问题,比如使用过程中会发生闪退(测试了几个版本都存在),还有建好的Job和Transfer保存文件,然后再次打开的时候都是空白。抛开这些问题暂时不说,试...

Python:从数据处理到人工智能

数据表示——数据清洗——数据统计——数据可视化——数据挖掘——人工智能数据表示:采用合适方式用程序表达数据数据清洗:数据归一化、数据转换、异常值处理数据统计:数据的概要理解、数量、分布、中位数等数据可视化:直观展示数据内涵的方式数据挖掘:从数据分析获得知识,产生数据外的价值人工智能:数据/语言/图像/视觉等方面深度分析与决策python库之数据分析Numpy:表达n维数据的最基础库python数据

工作流任务调度系统:Apache DolphinScheduler

目录1 概述1.1 背景1.2 特点2 系统架构2.1 名词解释2.2 架构3 部署3.1 后端部署3.1.1 基础软件安装3.1.2 创建部署用户3.1.3 下载并解压3.1.4 针对escheduler用户ssh免密配置3.1.5 数据库初始化3.1.6 修改部署目录权限及运行参数3.1.7 执行脚本一键部署3.1.8 后端服务进程的说明3.1.9 dolphinscheduler后端服务启停

采用Kettle分页处理大数据量抽取任务

需求:将Oracle数据库中某张表历史数据导入MySQL的一张表里面。源表(Oracle):table1目标表(MySQL):table2数据量:20,000,000       思路:由于服务器内存资源有限,所以,无法使用Kettle一次性从源表导入目标表千万级别的数据,考虑采用分页导入的方式来进行数据传输,即:根据实际情况设置一个每次处理的数据量,比如:

到底了