【测试入门序列】如何用 DataX 导数据

测试中有这样一种需求：为了测试更有针对性，需要拿业务数据来测试。所以需要把业务的数据复制一份出来，加载到自己本地的测试库中。对于小数据量的情况，直接用 mysqldump 把数据表全部转换成 SQL 语句，然后导入到新库即可。对于大数据量的情况， mysqldump 搞不定（？仅直观感觉，数据膨胀太大了，文件会超级大，导出过程中任何异常都可能导致导出中断），需要用新工具，例如阿里巴巴的 [Data

maray

10235人浏览 · 2016-07-05 10:57:40

maray · 2016-07-05 10:57:40 发布

测试中有这样一种需求：为了测试更有针对性，需要拿业务数据来测试。所以需要把业务的数据复制一份出来，加载到自己本地的测试库中。

对于小数据量的情况，直接用 mysqldump 把数据表全部转换成 SQL 语句，然后导入到新库即可。

对于大数据量的情况， mysqldump 搞不定（？仅直观感觉，数据膨胀太大了，文件会超级大，导出过程中任何异常都可能导致导出中断），需要用新工具，例如阿里巴巴的 DataX

DataX 的使用非常简单，基本按照教程操作即可：

安装

tar zxvf datax.tar.gz
chmod -R 755 datax

运行

cd datax/bin
python datax.py ../job/job.json

其中，job.json是自带的一个例子配置文件，没什么具体用途。如果希望将一个库的数据复制到另外一个库，可以用下面的配置文件 db2db.json

运行方法不变

python datax.py ../job/db2db.json

db2db.json 只是一个例子，更多详细的配置参见 DataX 的文档

重点关注channel， splitPk，column 这几个参数。

注意

需要注意的是，并发复制模式下，DataX 并不保证源和目的数据的严格一致。

针对多线程的一致性快照需求，在技术上目前无法实现，只能从工程角度解决，工程化的方式存在取舍，我们提供几个解决思路给用户，用户可以自行选择：

使用单线程同步，即不再进行数据切片。缺点是速度比较慢，但是能够很好保证一致性。

关闭其他数据写入方，保证当前数据为静态数据，例如，锁表、关闭备库同步等等。缺点是可能影响在线业务。

附：db2db.json

{
  "job": {
    "content": [
    {
      "reader": {
        "name": "mysqlreader",
          "parameter": {
            "column": ['*'],
            "connection": [ { "jdbcUrl": ["jdbc:mysql://127.0.0.1:20833/blue?user=test1&password=test1"], "table": ['t6'] } ],
              "username": "test1",
              "password": "test1",
              "where": "" }
      },
        "writer": {
          "name": "mysqlwriter",
          "parameter": {
            "writeMode": "insert",
            "username": "test1",
            "password": "test1",
            "column": ['*'],
            "splitPk": "c2",
            "session": [ ],
            "preSql": [ "delete from t6" ],
            "connection": [ { "jdbcUrl": "jdbc:mysql://127.0.0.1:20833/test?user=test1&password=test1", "table": ['t6'] } ] }
        }
    }
    ],
      "setting": {
        "speed": {
          "channel": "1"
        }
      }
  }
}

一门面向 Data 和 AI 的低代码、云原生的开源编程语言

无需安装部署，在线快速体验 Byzer

更多推荐

编译时权限控制

前言权限控制，对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问，比如 MySQL, Oracle,HDFS，Hive，Kafka，Sorl，ElasticSearch，Redis，API，Web等等，不同用户对这些数据源（以及表，列）的权限是不一样的。传统模式是，每个用户都需要有个 proxy user，然后到每个数据源里面给这个 proxy user

Byzer 白泽

Byzer 支持 JDBC 聚合下推

聚合下推PR链接聚合下推我们知道 Byzer 支持多数据源和联邦查询，可以方便分析师在一个平台上快速的分析来自多种数据源的数据，从而进行灵活的探索式分析。使用场景和优势当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算，对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最

Byzer 白泽

Byzer 术语表

Byzer-lang Byzer ，又称为 Byzer-lang，一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言，其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持，能帮助数据工作者们高效打通数据链路，完成数据的清洗转换，并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎，就能覆盖整

Byzer 白泽

所有评论(0)

查看更多评论

maray

@maray

已为社区贡献1条内容