MyBatis MySQL流式传输实战：解决大数据量查询的内存溢出问题

SSSSSStacker

0人浏览 · 2026-06-05 02:48:57

SSSSSStacker · 2026-06-05 02:48:57 发布

背景痛点

最近在做一个数据分析项目时，遇到了一个典型的大数据量查询问题：当查询结果集超过50万条时，应用服务器的内存直接飙升到90%以上，频繁触发Full GC。这让我开始反思传统的JDBC全量加载机制——它像是一次性把整个仓库的货物全搬进内存，显然不适合海量数据处理场景。

内存溢出示意图

尝试过常规的分页查询（limit offset），但发现两个致命缺陷：

深度分页性能极差（比如第100万页的offset计算）
无法保证数据一致性（分页期间数据变更会导致重复或遗漏）

技术方案

流式传输三剑客

通过调研发现了黄金组合：

MyBatis的ResultHandler：像流水线工人一样逐条处理数据
fetchSize参数：控制每次从网络缓冲区读取的批量大小
MySQL游标：服务端维持结果集指针

关键配置示例：

<select id="streamQuery" fetchSize="1000" resultSetType="FORWARD_ONLY" >
  SELECT * FROM large_table WHERE create_time > #{startTime}
</select>

Spring事务特别处理

发现一个坑：流式读取需要保持连接存活，但Spring默认会在方法结束后关闭连接。解决方案：

@Transactional(readOnly = true)
public void processLargeData() {
    // 必须加这个配置！！！
    TransactionSynchronizationManager.setActualTransactionActive(true);
    sqlSession.select("streamQuery", paramMap, new MyResultHandler());
}

代码实战

完整处理器实现（含阿里规范建议）：

public class UserStreamHandler implements ResultHandler<User> {
    private static final Logger log = LoggerFactory.getLogger(UserStreamHandler.class);
    private final Consumer<User> consumer;

    public UserStreamHandler(Consumer<User> consumer) {
        this.consumer = consumer;
    }

    @Override
    public void handleResult(ResultContext<? extends User> context) {
        try {
            User user = context.getResultObject();
            // 业务处理（建议控制单条处理时间<100ms）
            consumer.accept(user);

            // 每1000条日志打印
            if(context.getResultCount() % 1000 == 0) {
                log.info("Processing count: {}", context.getResultCount());
            }
        } catch (Exception e) {
            context.stop(); // 遇到异常终止流
            throw new RuntimeException("Process failed at count: " + context.getResultCount(), e);
        }
    }
}

性能对比

用JMH做的压测数据（单位：MB）：

| 数据量 | 传统方式 | 流式传输 | |--------|----------|----------| | 10万 | 285 | 32 | | 50万 | 内存溢出 | 45 | | 100万 | - | 58 |

性能对比图

避坑指南

连接泄漏防护：
务必使用try-with-resources包裹SqlSession
监控连接池：select * from information_schema.processlist where time > 300
超时陷阱：
设置合理的transactionTimeout（建议>30分钟）
对于特别耗时的流：@Transactional(timeout = 3600)
线程安全：
ResultHandler本身非线程安全
推荐方案：每个线程独立处理器实例 + ThreadLocal变量

延伸思考

最近在探索与Flink的集成方案——将MyBatis流作为Flink的SourceFunction实现。一个伪代码示例：

public class MyBatisSource implements SourceFunction<User> {
    @Override
    public void run(SourceContext<User> ctx) {
        sqlSession.select("streamQuery", params, resultContext -> {
            ctx.collect(resultContext.getResultObject());
        });
    }
    //...
}

对于千万级数据，下一步准备尝试：

结合MySQL的并行查询（8.0.14+）
分区键预计算优化
结果集直接写入OSS等外部存储

思考题：当流式处理遇到网络闪断，如何实现断点续传？欢迎在评论区分享你的方案。

音视频领域的无限可能，等你我来创造！

音视频技术社区，一个全球开发者共同探讨、分享、学习音视频技术的平台，加入我们，与全球开发者一起创造更加优秀的音视频产品！

更多推荐

MyBatis与达梦数据库(DM)整合实战：从配置到性能调优

国产数据库替代趋势与DM特性近年来，在信创政策推动下，国产数据库逐步替代国外商业数据库已成趋势。达梦数据库(DM)作为老牌国产关系型数据库，具备以下核心特性：高度兼容Oracle语法，降低迁移成本支持行列混合存储引擎，TPC-C性能达百万级tpmC提供完善的分布式解决方案和容灾机制基础配置差异对比 1. 驱动配置差异 # MySQL配置示例 spring: datasource: driv

音视频技术专区

MyBatis与达梦数据库深度整合：性能优化与避坑指南

背景痛点在实际项目中，MyBatis连接达梦数据库时常见以下问题：方言兼容性：达梦的SQL语法与MySQL/Oracle存在差异，特别是分页查询（LIMIT语法不支持）连接泄漏：默认连接池配置不当导致连接未及时释放性能瓶颈：批量插入场景下未启用达梦的BATCH模式类型映射：CLOB/BLOB等大字段处理异常执行计划不稳定：缺少达梦专属的统计信息收集配置技术选型对比主流连接池在达梦环境的表

音视频技术专区

MyBatis与达梦数据库深度整合实战：从配置优化到性能调优

国产化替代背景与语法差异达梦数据库作为国产数据库代表，在金融、政务领域逐步替代Oracle/MySQL。但与主流数据库相比存在明显差异：分页语法：DM使用LIMIT offset, size而非Oracle的ROWNUM事务隔离：默认READ_COMMITTED下可能产生不可重复读类型映射：CLOB/BLOB需特殊处理，VARCHAR2最大长度4000字节核心痛点解析 MyBatis默认方