ETL数据仓库工具Kettle(PDI)轻量级Web应用服务器环境搭建
一、Kettle工具简介最近做的项目用到了ETL工具Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据。正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器。本教程主要介绍kettle轻量级服务器 Carte的部署与应用,主要记录研究过程中踩的坑。二、Kettle组件说明Kettle里有不同的工具,用于ETL的不同阶段。主要工具如下:Spoo
一、Kettle工具简介
最近做的项目用到了ETL工具Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据。正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器。
本教程主要介绍kettle轻量级服务器 Carte的部署与应用,主要记录研究过程中踩的坑。
二、Kettle组件说明
Kettle里有不同的工具,用于ETL的不同阶段。主要工具如下:
- Spoon:图形化工具,用于快速设计和维护复杂的ETL工作流。
- Kitchen:运行作业的命令行工具。
- Pan:运行转换的命令行工具。
- Carte:轻量级的(大概1MB)Web服务器,用来远程执行转换或作业,一个运行有Carte进程的机器可以作为从服务器,从服务器是Kettle集群的一部分。
三、Linux环境Kettle Carte部署搭建
1、首先基于Centos7环境安装Java环境(略),查看java环境安装版本
java -version
2、Kettle为绿色安装包,下载后解压即可,Linux通windows解压即可。
3、修改Carte 轻量级服务配置文件,kettle安装目录,例如\data-integration\pwd。
修改carte-config-master-8080.xml.
4、启动Carte 服务,启动命令如下。看到日志创建Web监听服务器打印日志,服务启动成功。
./carte.sh ./pwd/carte-config-master-8080.xml
5、webAPI调用接口启动Kettle脚本,使用PostMan调用接口
HTTP请求,支持POST、GET方式
127.0.0.1:7000/kettle/executeJob/?rep=KettleFileRepository&job=/testjob
rep=KettleFileRepository : rep kettle资源仓库,KettleFileRepository 为资源仓库ID
job=/testjob :job 为需要运行的工作脚本名称,特别注意,此处任务名称是job,任务名称后缀是kjb.
服务器端日志显示执行成功
如果提示 Error 401 Unauthorized错误,是Carte服务默认启用了Base Auth。默认用户名密码为 cluster
四、特别注意要点,Kettle资源仓库的配置
资源仓库为xml配置文件,windows系统默认在当前用户目录C:\Users\abc\.kettle;centos用户目录 /root/.kettle
资源库名称KettleFileRepository,就是http请求的资源库名称
base_directory 资源库物理路径,存放Kettle脚本的路径
资源库配置文件 repositories.xml
<?xml version="1.0" encoding="UTF-8"?>
<repositories>
<repository> <id>KettleFileRepository</id>
<name>kettleFileRepository</name>
<description>File repository</description>
<is_default>false</is_default>
<base_directory>/JFS/files/kettle/job</base_directory>
<read_only>N</read_only>
<hides_hidden_files>N</hides_hidden_files>
</repository> </repositories>
脚本物理地址:
更多推荐
所有评论(0)