Java 实战：如何优雅地同步几十万、上百万条数据到数据库？

北风toto

457人浏览 · 2026-06-03 08:46:00

北风toto · 2026-06-03 08:46:00 发布

文章目录

🚀 Java 实战：如何优雅地同步几十万、上百万条数据到数据库？

在后端开发中，我们经常需要调用第三方接口或从其他系统同步大量数据到本地数据库。面对几十万甚至上百万的数据量，如果处理不当，轻则程序跑得慢如蜗牛，重则直接导致内存溢出（OOM）或数据库超时崩溃。

今天就来系统梳理一套从“基础稳健”到“高阶极速”的数据同步最佳实践，帮你稳稳搞定海量数据落库！

💣 核心雷区：绝对不要把数据一次性全放内存！

无论数据是几十万还是几百万，绝对不能一次性拉取并全部塞进 JVM 堆内存中。这会导致内存迅速被占满，频繁触发 Full GC，最终引发 OutOfMemoryError 导致服务宕机。

正确的核心思路永远是：“少量多次、边拉边存、及时释放”。

🛡️ 基础稳健篇：分批拉取 + 真批量插入

面对几十万条数据，我们采用“流式处理”的策略，每次只拉取一小部分（比如 1000 条），入库后释放内存，再拉取下一批。

1. 循环分页拉取（伪代码思路）

int pageNum = 1;
int pageSize = 1000;
boolean hasMoreData = true;

while (hasMoreData) {
    // 1. 调用接口，仅获取当前页的少量数据
    List<UserDTO> currentPageData = fetchPageDataFromApi(pageNum, pageSize);
    
    if (currentPageData == null || currentPageData.isEmpty()) {
        hasMoreData = false; 
        break;
    }
    
    // 2. 将这1000条数据批量插入数据库
    batchInsertToDatabase(currentPageData);
    
    // 3. 循环结束，当前批次数据离开作用域，等待GC回收
    pageNum++;
}

2. 避开“伪批量插入”的陷阱
在循环中落库时，千万不要以为调用了框架的 saveBatch(list) 就万事大吉。很多 ORM 框架的批量方法，底层其实是循环执行单条 INSERT，性能极差。

要实现真批量插入，推荐以下两种方式：

MyBatis XML 动态 SQL（推荐）：使用 <foreach> 标签拼接 SQL，将 1000 条数据合并为一条 INSERT INTO ... VALUES (...), (...), (...)。
JDBC 原生 Batch：使用 PreparedStatement 的 addBatch() 和 executeBatch() 方法。

3. 必开的 MySQL 性能开关
在你的数据库连接 URL 后面，务必加上参数：rewriteBatchedStatements=true。开启后，MySQL 驱动会在底层自动将多条 INSERT 语句合并执行，批量插入性能可提升数倍甚至十几倍。

⚡ 高阶极速篇：百万级数据的并发与游标优化

当数据量飙升到几百万时，简单的 while 循环会暴露两个致命问题：

越跑越慢：传统的 LIMIT offset, size 分页，随着 offset 增大，数据库需要扫描并跳过前面的海量行，性能呈断崖式下跌。
耗时过长：单线程按顺序跑几百万条数据，可能需要数小时。

1. 采用“游标分页”代替传统分页
放弃 OFFSET，利用数据中连续且唯一的字段（如自增主键 id 或 创建时间）作为游标。

传统慢查询：SELECT * FROM table LIMIT 2000000, 1000
游标极快查询：SELECT * FROM table WHERE id > 上一批最后一条的id ORDER BY id LIMIT 1000

每次拉取完数据后，记录下最大的 id，下一批直接通过 WHERE id > last_id 定位。无论拉到第几百万条，数据库都能通过索引瞬间定位，速度始终如一。

2. 引入多线程并发处理
将几百万条数据拆分成多个“小包裹”，交给固定大小的线程池（如 10 个线程）并行处理。

控制线程数：线程不是越多越好，通常 5-20 个线程足矣，避免打满数据库连接池。
事务隔离：每个线程处理自己那一批数据时，使用独立的小事务。线程 A 失败了不要影响线程 B 的成果，避免长事务导致数据库锁表。

📌 总结：海量数据同步的四大黄金法则

拒绝全量加载：始终保持“拉取 -> 落库 -> 释放”的节奏，保护内存安全。
拒绝 OFFSET 分页：尽量要求接口支持按 ID 或时间戳拉取；查库务必使用 WHERE id > last_id 的游标分页。
拒绝伪批量插入：手写 <foreach> SQL 或使用 JDBC Batch，并开启 rewriteBatchedStatements=true。
拒绝大事务：每批次数据作为一个独立的小事务提交，适度引入多线程并发，将单线程的“长途跋涉”变成多线程的“分头行动”。

亚马逊云科技技术品牌专区

更多推荐

可证伪性的范式陷阱与人工智能时代的真理重构——基于贾子理论（KTS）的批判性研究

亚马逊云科技技术品牌专区

2026最新8款AI编程工具企业级深度实测｜基础版免费全汇总

经过多行业、多场景的实测验证，TRAE凭借私有化部署、10万级文件索引、团队协作、Builder模式、基础版免费五大核心优势，成为企业级AI编程工具的首选。尤其在物联网平台场景中，TRAE能够深度适配设备管理、数据管道、自动化脚本开发等核心业务，兼顾安全、效率与成本，帮助企业快速落地AI辅助研发，提升整体研发效能。企业选型AI编程工具，核心是找到与自身业务场景、安全合规、团队协作需求高度匹配的工具

亚马逊云科技技术品牌专区

Fluentd：日志收集这件事，它想统一标准

Fluentd是一个开源的日志收集工具，旨在统一分散的日志管理。作为CNCF毕业项目，它支持从多种来源收集不同格式的日志，并能转发到各类存储系统。其轻量架构和丰富插件生态（超过500个）使其成为云原生环境（如Kubernetes）日志收集的主流方案，尤其适合运维、SRE和数据工程场景。虽然Ruby实现的性能可能弱于Go工具（如Fluent Bit），但其易用性和成熟度使其成为解决日志分散问题的实用