Flink JDBCSink使用及源码解析

以下所有都是基于Flink 1.12.0版本Flink JDBCSink的使用flink提供了JDBCSink方便我们写入数据库，以下是使用案例：pom依赖需要引入flink-connector-jdbc的依赖。另外，我这里是写入mysql，所以还引入了mysql的驱动包<dependency><groupId>org.apache.flink</groupId&gt

upupfeng

10295人浏览 · 2021-02-28 19:45:41

upupfeng · 2021-02-28 19:45:41 发布

以下所有都是基于Flink 1.12.0版本

Flink JDBCSink的使用

flink提供了JDBCSink方便我们写入数据库，以下是使用案例：

pom依赖

需要引入flink-connector-jdbc的依赖。另外，我这里是写入mysql，所以还引入了mysql的驱动包

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-jdbc_2.12</artifactId>
    <version>1.12.0</version>
</dependency>

<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>5.1.45</version>
</dependency>

案例代码

package com.upupfeng.sink;

import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple4;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.connector.jdbc.JdbcConnectionOptions;
import org.apache.flink.connector.jdbc.JdbcSink;
import org.apache.flink.streaming.api.environment.LocalStreamEnvironment;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

/**
 * https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/connectors/jdbc.html
 *
 * @author mawf
 */
public class JDBCSinkDemo {

    public static void main(String[] args) throws Exception {

        LocalStreamEnvironment env = StreamExecutionEnvironment.createLocalEnvironment();
	
        // 从配置文件中读取配置信息
        ParameterTool parameterTool = ParameterTool.fromPropertiesFile("D:\\upupfeng\\my_code\\flink-learning\\resources\\application.properties");
        String url = parameterTool.get("url");
        String driver = parameterTool.get("driver");
        String user = parameterTool.get("user");
        String password = parameterTool.get("password");
		
        // sql语句，用问号做占位符
        String sql = "insert into tb_traffic_statistic_min(starttime, city_name, distinct_user_count, total_traffic) values(?, ?, ?, ?)";
        // 伪造数据
        Tuple4<String, String, Integer, Double> bjTp = Tuple4.of("2020-12-01 00:00:00", "北京", 10, 2.3d);

        env
                .fromElements(bjTp)
                .returns(Types.TUPLE(Types.STRING, Types.STRING, Types.INT, Types.DOUBLE))
                // 添加JDBCSink
            	.addSink(
                        JdbcSink.sink(
                                sql, // sql语句
                            	// 设置占位符对应的字段值
                                (ps, tp) -> {
                                    ps.setString(1, tp.f0);
                                    ps.setString(2, tp.f1);
                                    ps.setInt(3, tp.f2);
                                    ps.setDouble(4, tp.f3);
                                },
                            	// 传递jdbc的连接属性
                                new JdbcConnectionOptions.JdbcConnectionOptionsBuilder()
                                        .withDriverName(driver)
                                        .withUrl(url)
                                        .withUsername(user)
                                        .withPassword(password)
                                        .build()
                        )
                );
		
        // 执行
        env.execute();
    }
}

JDBCSink源码解析

先从JdbcSink.sink来看，

JdbcSink

这是一个类，提供了静态方法供我们创建JDBC的SinkFunction。

提供了两个重载的sink方法。

public static <T> SinkFunction<T> sink(String sql, JdbcStatementBuilder<T> statementBuilder, JdbcConnectionOptions connectionOptions);

public static <T> SinkFunction<T> sink(
		String sql,
		JdbcStatementBuilder<T> statementBuilder,
		JdbcExecutionOptions executionOptions,
		JdbcConnectionOptions connectionOptions);

其中一个方法是对另一个方法的executionOptions参数提供了默认实现。

我们就看一下参数最全的sink方法：

	/**
	 * 创建JDBC Sink
	 * @param sql              任意DML查询（例如插入，update，upsert）
	 * @param statementBuilder  根据每一个查询在java.sql.PreparedStatement上设置参数
	 * @param <T>               数据类型
	 * @param executionOptions  执行时配置的参数，如批大小、重试等
	 * @param connectionOptions 连接参数，如jdbc url等
	 */
	public static <T> SinkFunction<T> sink(
		String sql,
		JdbcStatementBuilder<T> statementBuilder,
		JdbcExecutionOptions executionOptions,
		JdbcConnectionOptions connectionOptions) {
        // 创建了一个GenericJdbcSinkFunction对象，这个类就是JDBC对应的SinkFunction实现类
        // JdbcBatchingOutputFormat类是批处理OutputFormat的一个实现，封装了攒批处理的逻辑
		return new GenericJdbcSinkFunction<>(new JdbcBatchingOutputFormat<>(
			// 简单的JDBC连接提供者，可以创建JDBC连接
            new SimpleJdbcConnectionProvider(connectionOptions),
			// 执行参数
            executionOptions,
            // 执行PreparedStatement的方式
			context -> {
				Preconditions.checkState(!context.getExecutionConfig().isObjectReuseEnabled(),
					"objects can not be reused with JDBC sink function");
				// 使用一个静态方法，创建了简单的JdbcBatchStatementExecutor类：SimpleBatchStatementExecutor
                return JdbcBatchStatementExecutor.simple(sql, statementBuilder, Function.identity());
			},
            // 记录的提取方式
			JdbcBatchingOutputFormat.RecordExtractor.identity()
		));
	}

看下GenericJdbcSinkFunction类

GenericJdbcSinkFunction

JDBC的通用SinkFunction。

继承了RichSinkFunction接口，是一个标准的sink实现类。

// outputFormat内部封装了真正的处理逻辑
private final AbstractJdbcOutputFormat<T > outputFormat;

// 构造器只有AbstractJdbcOutputFormat一个参数
public GenericJdbcSinkFunction(@Nonnull AbstractJdbcOutputFormat<T> outputFormat) {
    this.outputFormat = Preconditions.checkNotNull(outputFormat);
}

// open方法
public void open(Configuration parameters) throws Exception {
    super.open(parameters);
    RuntimeContext ctx = getRuntimeContext();
    // 将context传递给outputFormat
    outputFormat.setRuntimeContext(ctx);
    // 调用outputFormat的open方法
    outputFormat.open(ctx.getIndexOfThisSubtask(), ctx.getNumberOfParallelSubtasks());
}

// 每条记录进来的时候调用outputFormat的writeRecord方法
@Override
public void invoke(T value, Context context) throws IOException {
    outputFormat.writeRecord(value);
}

// 状态相关的
@Override
public void initializeState(FunctionInitializationContext context) {
}

@Override
public void snapshotState(FunctionSnapshotContext context) throws Exception {
    outputFormat.flush();
}

// clost方法中调用了outputFormat的close方法
public void close() {
    outputFormat.close();
}

从以上代码可以看出，基本上处理逻辑都封装了AbstractJdbcOutputFormat类中。

AbstractJdbcOutputFormat / JdbcBatchingOutputFormat

AbstractJdbcOutputFormat 是OutputFormat基础的抽象类，提供了一些方法的默认实现。

我们这里用到的是批提交对应的实现类JdbcBatchingOutputFormat，就直接看JdbcBatchingOutputFormat类了

JdbcBatchingOutputFormat源码：

// JDBC outputFormat支持在将记录写入数据库之前批处理记录
// JdbcBatchingOutputFormat继承了AbstractJdbcOutputFormat类。
public class JdbcBatchingOutputFormat<In, JdbcIn, JdbcExec extends JdbcBatchStatementExecutor<JdbcIn>> extends AbstractJdbcOutputFormat<In> {
    
    // 从给定参数中提取值的接口。
    public interface RecordExtractor<F, T> extends Function<F, T>, Serializable {
        // 直接原样返回
		static <T> RecordExtractor<T, T> identity() {
			return x -> x;
		}
	}
    
    // 创建Statement执行类的工厂
    public interface StatementExecutorFactory<T extends JdbcBatchStatementExecutor<?>> extends Function<RuntimeContext, T>, Serializable {
	}
    
    // 执行参数
    private final JdbcExecutionOptions executionOptions;
	// 创建执行类的工厂
    private final StatementExecutorFactory<JdbcExec> statementExecutorFactory;
    // 记录提取
	private final RecordExtractor<In, JdbcIn> jdbcRecordExtractor;
	// 执行statement的类
	private transient JdbcExec jdbcStatementExecutor;
    // 批大小
	private transient int batchCount = 0;
	private transient volatile boolean closed = false;
	// 用于定时提交的定时器
	private transient ScheduledExecutorService scheduler;
	private transient ScheduledFuture<?> scheduledFuture;
	private transient volatile Exception flushException;
    
    // 构造函数
    public JdbcBatchingOutputFormat(
        	// JDBC连接提供者
			@Nonnull JdbcConnectionProvider connectionProvider,
			// 执行参数
        	@Nonnull JdbcExecutionOptions executionOptions,
			// 创建statement执行类的工厂
        	@Nonnull StatementExecutorFactory<JdbcExec> statementExecutorFactory,
        	// 记录提取
			@Nonnull RecordExtractor<In, JdbcIn> recordExtractor) {
		super(connectionProvider);
		this.executionOptions = checkNotNull(executionOptions);
		this.statementExecutorFactory = checkNotNull(statementExecutorFactory);
		this.jdbcRecordExtractor = checkNotNull(recordExtractor);
	}
    
	/**
	 * 连接到目标数据库，并初始化准备好的语句
	 *
	 * @param taskNumber 并行实例数
	 */
	@Override
	public void open(int taskNumber, int numTasks) throws IOException {
		super.open(taskNumber, numTasks);
        // 根据给定的statement执行类工厂来创建 statement执行类
		jdbcStatementExecutor = createAndOpenStatementExecutor(statementExecutorFactory);
        // 设置一个定时器，来定时提交数据到数据库。
        // 相当于就是有两种方式可以触发提交：一种是到达批大小，一种是到了定时的时间。
		if (executionOptions.getBatchIntervalMs() != 0 && executionOptions.getBatchSize() != 1) {
            // 创建一个调度线程池
			this.scheduler = Executors.newScheduledThreadPool(1, new ExecutorThreadFactory("jdbc-upsert-output-format"));
            // 注册定时调度
			this.scheduledFuture = this.scheduler.scheduleWithFixedDelay(() -> {
				synchronized (JdbcBatchingOutputFormat.this) {
					if (!closed) {
						try {
                            // 调用flush方法，将数据刷入数据库
							flush();
						} catch (Exception e) {
							flushException = e;
						}
					}
				}
			}, executionOptions.getBatchIntervalMs(), executionOptions.getBatchIntervalMs(), TimeUnit.MILLISECONDS);
		}
	}    
    
	// 根据给定的工厂类创建对应的statement执行类
	private JdbcExec createAndOpenStatementExecutor(StatementExecutorFactory<JdbcExec> statementExecutorFactory) throws IOException {
        // 创建一个执行类
        // 对于batch output format来说是创建了一个SimpleBatchStatementExecutor类，我们稍后看
		JdbcExec exec = statementExecutorFactory.apply(getRuntimeContext());
		try {
            // 从连接中创建一个statement
			exec.prepareStatements(connection);
		} catch (SQLException e) {
			throw new IOException("unable to open JDBC writer", e);
		}
		return exec;
	}    
    
    // 写每条记录。这个方法就是在GenericJdbcSinkFunction的invoke方法中被调用，处理每一条记录
	@Override
	public final synchronized void writeRecord(In record) throws IOException {
		checkFlushException();

		try {
            // 将数据添加到batch中
			addToBatch(record, jdbcRecordExtractor.apply(record));
			// batch数量增加
            batchCount++;
            // 如果批大小够了，触发flush方法提交数据
			if (executionOptions.getBatchSize() > 0 && batchCount >= executionOptions.getBatchSize()) {
				flush();
			}
		} catch (Exception e) {
			throw new IOException("Writing records to JDBC failed.", e);
		}
	}    
    
    // 添加记录到batch中
	protected void addToBatch(In original, JdbcIn extracted) throws SQLException {
        // 调用了statement执行类的addToBatch方法，我们稍后看
		jdbcStatementExecutor.addToBatch(extracted);
	}    
    
    // 提交方法
	@Override
	public synchronized void flush() throws IOException {
		checkFlushException();

        // 根据重试次数循环。如果失败，会重试。如果成功，就直接break了
		for (int i = 0; i <= executionOptions.getMaxRetries(); i++) {
			try {
                // 执行提交
				attemptFlush();
                // batch count置为0 
				batchCount = 0;
				break;
			} catch (SQLException e) {
				LOG.error("JDBC executeBatch error, retry times = {}", i, e);
				if (i >= executionOptions.getMaxRetries()) {
					throw new IOException(e);
				}
				try {
                    // 如果是因为连接失效导致的。则重新获取连接
					if (!connection.isValid(CONNECTION_CHECK_TIMEOUT_SECONDS)) {
						// 重新获取连接
                        connection = connectionProvider.reestablishConnection();
                        // 关闭执行器的statement
						jdbcStatementExecutor.closeStatements();
						// 根据连接创建statement
                        jdbcStatementExecutor.prepareStatements(connection);
					}
				} catch (Exception excpetion) {
					LOG.error("JDBC connection is not valid, and reestablish connection failed.", excpetion);
					throw new IOException("Reestablish JDBC connection failed", excpetion);
				}
				try {
					Thread.sleep(1000 * i);
				} catch (InterruptedException ex) {
					Thread.currentThread().interrupt();
					throw new IOException("unable to flush; interrupted while doing another attempt", e);
				}
			}
		}
	}

    // 执行提交
    protected void attemptFlush() throws SQLException {
		jdbcStatementExecutor.executeBatch();
	}

    
    // close方法
    public synchronized void close() {
		if (!closed) {
			closed = true;

			if (this.scheduledFuture != null) {
                // 关闭定时器
				scheduledFuture.cancel(false);
				this.scheduler.shutdown();
			}
			// 如果batch中还有数据，则提交
			if (batchCount > 0) {
				try {
					flush();
				} catch (Exception e) {
					LOG.warn("Writing records to JDBC failed.", e);
					throw new RuntimeException("Writing records to JDBC failed.", e);
				}
			}
			//	关闭statement
			try {
				if (jdbcStatementExecutor != null) {
					jdbcStatementExecutor.closeStatements();
				}
			} catch (SQLException e) {
				LOG.warn("Close JDBC writer failed.", e);
			}
		}
		super.close();
		checkFlushException();
	}
    
    ......
}

以上就是outputFormat的代码，提供了攒批、按批提交、定时提交的方法。

内部真正执行statement，还是调用JdbcBatchStatementExecutor来实现的。接下来看看JdbcBatchStatementExecutor

JdbcBatchStatementExecutor

这个接口是用于批量执行给定的JDBC语句以获取累积的记录。就是按批提交。

我们看下他的实现类SimpleBatchStatementExecutor。

SimpleBatchStatementExecutor的源码：

class SimpleBatchStatementExecutor<T, V> implements JdbcBatchStatementExecutor<T> {
	
    // sql
    private final String sql;
	// statement的build，用于将参数设置到占位符上
    private final JdbcStatementBuilder<V> parameterSetter;
    // 值转换
	private final Function<T, V> valueTransformer;
	// 使用List来存储批
    private final List<V> batch;
    
    // 构造器
    SimpleBatchStatementExecutor(String sql, JdbcStatementBuilder<V> statementBuilder, Function<T, V> valueTransformer) {
		this.sql = sql;
		this.parameterSetter = statementBuilder;
		this.valueTransformer = valueTransformer;
		this.batch = new ArrayList<>();
	}
    
    // 调用prepareStatement预编译sql
	@Override
	public void prepareStatements(Connection connection) throws SQLException {
		this.st = connection.prepareStatement(sql);
	}
    
    // 将记录添加到批中。在outputFormat中调用这个方法攒批
    @Override
	public void addToBatch(T record) {
		batch.add(valueTransformer.apply(record));
	}

    // 执行批、在outputFormat中调用，执行批提交
	@Override
	public void executeBatch() throws SQLException {
		if (!batch.isEmpty()) {
            // 遍历批
			for (V r : batch) {
                // 这里是用statement的引用，将值赋到statment上
				parameterSetter.accept(st, r);
				// 调用statament的addBatch方法
                st.addBatch();
			}
            // 执行提交
			st.executeBatch();
			// 清空批
            batch.clear();
		}
	}

    // 关闭statement
    @Override
	public void closeStatements() throws SQLException {
		if (st != null) {
			st.close();
			st = null;
		}
	}
}

从上面的所有代码，就可以了解JdbcSink的提交原理了。

接下来在看下两个配置的类：JdbcExecutionOptions和JdbcConnectionOptions。一个是执行的配置，一个是连接的配置。

JdbcConnectionOptions

有url、driverName、username、password四个配置

内部提供了builder类用于创建JdbcConnectionOptions

public class JdbcConnectionOptions implements Serializable {
	
    protected final String url;
	protected final String driverName;
	@Nullable
	protected final String username;
	@Nullable
	protected final String password;

    public static class JdbcConnectionOptionsBuilder {
        public JdbcConnectionOptions build() {
			return new JdbcConnectionOptions(url, driverName, username, password);
		}

    }
}

JdbcExecutionOptions

执行配置。有batchIntervalMs、batchSize、maxRetries三个配置。

内部也提供了builder来创建JdbcExecutionOptions

public class JdbcExecutionOptions implements Serializable {
	public static final int DEFAULT_MAX_RETRY_TIMES = 3;
	private static final int DEFAULT_INTERVAL_MILLIS = 0;
	public static final int DEFAULT_SIZE = 5000;

	// 自动提交批的时间间隔。毫秒值。默认是0，默认不会定时提交
	private final long batchIntervalMs;
	// 批大小。默认的批大小为5000
	private final int batchSize;
	// 重试次数。默认为3
	private final int maxRetries;
	
	public static final class Builder {
		public JdbcExecutionOptions build() {
			return new JdbcExecutionOptions(intervalMs, size, maxRetries);
		}
	}
}

总结

以上就是JdbcSink的在Stream API中的使用和部分JdbcSink的源码。

这个JdbcSink写的很好，可以覆盖一部分场景。

但是有时候并不是很满足我们的要求，我们可以参考这个JdbcSink进行改造、二次开发。

参考

官方JDBC Connector文档https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/connectors/jdbc.html

flink-connector-jdbc_2.12-1.12.0.jar源代码

一门面向 Data 和 AI 的低代码、云原生的开源编程语言

无需安装部署，在线快速体验 Byzer

更多推荐

编译时权限控制

前言权限控制，对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问，比如 MySQL, Oracle,HDFS，Hive，Kafka，Sorl，ElasticSearch，Redis，API，Web等等，不同用户对这些数据源（以及表，列）的权限是不一样的。传统模式是，每个用户都需要有个 proxy user，然后到每个数据源里面给这个 proxy user

Byzer 白泽

Byzer 支持 JDBC 聚合下推

聚合下推PR链接聚合下推我们知道 Byzer 支持多数据源和联邦查询，可以方便分析师在一个平台上快速的分析来自多种数据源的数据，从而进行灵活的探索式分析。使用场景和优势当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算，对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最

Byzer 白泽

Byzer 术语表

Byzer-lang Byzer ，又称为 Byzer-lang，一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言，其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持，能帮助数据工作者们高效打通数据链路，完成数据的清洗转换，并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎，就能覆盖整

Byzer 白泽

所有评论(0)

查看更多评论

upupfeng

@ifenggege

已为社区贡献1条内容