• 环境

开发环境:win10,JDK1.8,python3.6,mysql5.7,maven3.6

工具:pycharm2019.2,idea2019.3

代码:https://github.com/WeiYe-Jing/datax-web

  • 测试部署及使用

注意:部署可视化程序前需要部署datax

克隆或者下载源码至自定义的javaWorkSpace,使用idea导入项目

勾选maven然后finsh

Ctry+alt+s打开settings,修改maven的配置为自己的路径(maven安装配置参考:https://blog.csdn.net/m0_37167369/article/details/81628305

等待maven下载依赖包,下载完成后将项目所需sql文件导入数据库,db文件在项目根路径的doc下,导入后会有如下这几张表

配置项目datax-admin下的application.yml中的数据库链接,如下图所示:

配置datax-executor(从节点)要连接datax-admin(主节点)的ip+端口(备注:单机部署,主节点ip为本地),日志存储路径和调用datax的python文件路径

配置完成后,启动项目先启动datax-admin在启动datax-executor,启动完成后在浏览器输入http://localhost:8080/#/login进入登陆界面(账号:admin 密码:123456)登陆后界面如下图所示:

配置一个mysql-mysql的任务。点击json构建数据源,点击Add,填写配置的数据源信息,然后点击Test,测试链接成功后点击Confirm

数据源配置完成后点击dataxjson构建,第一步配置reader数据源

 

第二步配置writer数据源

 

第三步配置字段映射

第四步构建json

复制构建好的json,点击任务管理,添加任务,配置任务(任务设置了5秒执行一次,corn表达式参考:http://cron.qqe2.com/),如下图所示

备注:

- 任务类型:目前支持DataX任务、Shell任务、Python任务、PowerShell任务;

- 阻塞处理策略:调度过于密集执行器来不及处理时的处理策略;

    - 单机串行:调度请求进入单机执行器后,调度请求进入FIFO队列并以串行方式运行;

    - 丢弃后续调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,本次请求将会被丢弃并标记为失败;

    - 覆盖之前调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,将会终止运行中的调度任务并清空队列,然后运行本地调度任务;

- 增量跟新建议将阻塞策略设置为丢弃后续调度或者单机串行

    - 设置单机串行时应该注意合理设置重试次数(失败重试的次数*每次执行时间<任务的调度周期),重试的次数如果设置的过多会导致数据重复,例如任务30秒执行一次,每次执行时间需要20秒,设置重试三次,如果任务失败了,第一个重试的时间段为1577755680-1577756680,重试任务没结束,新任务又开启,那新任务的时间段会是1577755680-1577758680

配置完成后,点击启动任务

任务完成后可以查看日志,可以点击执行日志查看,如下图

 

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐