关于python pandas追加写入excel崩溃的问题

yantaozhou

476人浏览 · 2026-05-14 13:45:33

yantaozhou · 2026-05-14 13:45:33 发布

前几天在抓数据时，为了防止中途中断造成数据丢失将数据一次性写入excel改为了每一页写入一次。本来以为改动不大，结果发现每次到4000条时就会无法读写。于是就做了几个测试:

# -*- coding: utf-8 -*-

import pandas as pd
import os
import time

file = "append_test.xlsx"

# 初始化文件
if not os.path.exists(file):
    pd.DataFrame(columns=[
        "caseCode", "custNo", "custName",
        "overDuePay", "overDuePayPrin",
        "channelCustNo", "overDueDays", "contacts"
    ]).to_excel(file, index=False)

total_start = time.time()

for i in range(6000):

    # 每次生成1000行
    df = pd.DataFrame({
        "caseCode": range(i * 10, (i + 1) * 10),
        "custNo": "1234567890",
        "custName": "哈哈哈",
        "overDuePay": 35,
        "overDuePayPrin": 3456.78,
        "channelCustNo": "HZD0003",
        "overDueDays": 55,
        "contacts": "张三 13111223344 XX,李四 13111223344 XX,王五 13111223344 XX,"
    })

    write_start = time.time()

    # 追加写
    with pd.ExcelWriter(
            file,
            engine="openpyxl",
            mode="a",
            if_sheet_exists="overlay"
    ) as writer:

        sheet = writer.sheets["Sheet1"]

        df.to_excel(
            writer,
            index=False,
            header=False,
            startrow=sheet.max_row
        )

    write_cost = time.time() - write_start

    print(
        f"第{i + 1}次写入完成 | "
        f"写入行数: {len(df)} | "
        f"耗时: {write_cost:.4f}s"
    )

total_cost = time.time() - total_start

print(f"\n全部完成，总耗时: {total_cost:.2f}s")

读取整个工作表到内存（解析XML）
在内存中构建新的DataFrame
将整个工作表重新写入XML（即使只加1行）
替换原有 sheet1.xml

特点：效率低，数据量大时很慢

有没有替代方案呢，查了一番，发现用csv速度和效率更高，而且读写稳定：

# -*- coding: utf-8 -*-

import pandas as pd
import os
import time

file = "append_test.csv"

# 如果存在先删除
if os.path.exists(file):
    os.remove(file)


# 模拟 4000 次追加写
for i in range(4000):
    df = pd.DataFrame({
        "caseCode": range(i * 1000, (i + 1) * 1000),
        "custNo": "1234567890",
        "custName": "哈哈哈",
        "overDuePay": 35,
        "overDuePayPrin": 3456.78,
        "channelCustNo": "HZD0003",
        "overDueDays": 55,
        "contacts": "张三 13111223344 XX,李四 13111223344 XX,王五 13111223344 XX,",
    })

    start = time.time()

    # 追加写关键参数
    df.to_csv(
        file,
        mode="a",
        header=not os.path.exists(file),
        index=False,
        encoding="utf-8-sig"
    )

    print(f"第{i+1}次追加完成，耗时: {time.time() - start:.4f}s")

这个的运行结果：
第1次追加完成，耗时: 0.0371s
第2次追加完成，耗时: 0.0070s
第3次追加完成，耗时: 0.0040s
第4次追加完成，耗时: 0.0045s
第5次追加完成，耗时: 0.0040s

…

第3995次追加完成，耗时: 0.0069s
第3996次追加完成，耗时: 0.0076s
第3997次追加完成，耗时: 0.0072s
第3998次追加完成，耗时: 0.0101s
第3999次追加完成，耗时: 0.0112s
第4000次追加完成，耗时: 0.0099s

结论就是非必要不要使用excel!

亚马逊云科技技术品牌专区

更多推荐

Cursor + GitOps：自动化运维新姿势

Cursor 与 GitOps 的结合，标志着运维自动化从“脚本化”向“智能化”演进的关键一步。它并非要取代工程师，而是将其从重复劳动中解放出来，更专注于架构设计、复杂问题解决和流程优化。拥抱这一新姿势，意味着以更优雅、高效的方式驾驭云原生时代的运维复杂性。

亚马逊云科技技术品牌专区

主动推理-人工海马

2026年07月04日 00:21发言人00:00制造能够思考的机器是人类长久以来的梦想，但这到底意味着什么呢？智能的一个显著特性是能够泛化知识，并灵活地将其应用于新情况。这种泛化确实是现代机器学习的核心问题之一。在这段视频中，我们将探讨如何汲取海马体负责记忆和导航的大脑结构的生物学组织，来构建一个能够学习构建抽象和泛化的计算模型。我们将探索这个模型带给我们关于大脑自身及人工智能领域的启示。发言人

亚马逊云科技技术品牌专区

Java分布式架构设计方法

服务拆分后，服务间的通信成为关键。事件驱动架构是另一种有效解耦和数据同步的方式，服务通过发布/订阅领域事件进行通信，借助Apache Kafka或RabbitMQ等消息中间件，可以实现事件的可靠传递与异步处理，提升系统整体响应能力。从业务拆分出发，选择恰当的通信与治理模式，妥善处理数据一致性，并构建完善的运维支撑体系。随着云原生理念的深入，Serverless、Service Mesh等新技术也在