Excel 不可见字符一键清除（Python + Pandas）

qq_55510052

210人浏览 · 2026-06-12 13:39:41

qq_55510052 · 2026-06-12 13:39:41 发布

问题场景

从某些平台导出的 Excel 数据，单元格里藏着肉眼看不到的特殊字符，导致匹配、去重、统计全部翻车。

在这里插入图片描述

典型表现：

看着是"雨衣"，VLOOKUP 就是匹配不上
len() 发现比正常多 1~2 个字符
复制到记事本，光标前有个"幽灵占位"

罪魁祸首

这些不可见字符的 Unicode 码点集中在：

在这里插入图片描述

解决方案

核心就一行正则替换：
在这里插入图片描述

原理

df.replace(pattern, '', regex=True) 对整个 DataFrame 逐单元格执行正则替换，匹配到的不可见字符替换为空字符串。

正则 r'[-‏   ]' 字符类包含：

U+FFFC — 最常见，拷贝网页/富文本时带入
U+FEFF — 文件 BOM 标记，常黏在数据第一列开头
U+200B~U+200F — 零宽空格家族
U+2028/U+2029 — Unicode 换行/分段符
U+00A0 — HTML 不换行空格转义残留

完整脚本

由于特殊字符代码段展示不出来，可点击下载脚本：

脚本链接

常见问题

Q：会不会把正常文字也删了？

不会。正则只命中那几类零宽/控制字符，中文、英文、数字、标点都不受影响。

搞定。下次遇到 Excel 里匹配不上的"幽灵字符"，跑一遍就干净了。

亚马逊云科技技术品牌专区

更多推荐

虚拟化技术深度解析：从底层原理到产业实践，读懂云计算的核心基石

文章摘要虚拟化技术作为云计算的核心基础，经历了从大型机到云原生的演进历程。本文系统梳理了虚拟化的技术脉络：从解决物理机资源浪费的初衷出发，阐述了Hypervisor的资源隔离原理，对比了TypeI和TypeII两种架构特性，并深入分析了KVM、Docker等典型技术方案。虚拟化的本质是对计算资源的抽象，通过屏蔽硬件细节实现灵活调度。文章最后以OpenStack私有云搭建为例展示了虚拟化实践，并指

亚马逊云科技技术品牌专区

大数据相关专业，优先选城市还是学校？

亚马逊云科技技术品牌专区

从基础到应用架构系列-云计算的概念

云计算”这个词，我想大伙肯定听过不止一次了，但是可能我们经常会被同行的同事或者业界的朋友问道，什么是云计算，云计算是干什么的？可能让我们去跟他们解释的时候，我们并不是很容易的把这个词语解释的很清楚或者很形象，为什么，可能是因为我们对云计算本身的概念不是特别的清晰，或者，由于我们没有深入的了解和使用云计算的原因吧，或者还有其他方面的原因，本文是通过一些小的场景来说明云计算的概念，这个概念呢，其实也不