Python路径操作实战：巧用glob.glob()与os.path.join()实现高效文件定位与组装

三铜钱

285人浏览 · 2026-05-27 10:04:25

三铜钱 · 2026-05-27 10:04:25 发布

1. 为什么需要glob.glob()和os.path.join()组合？

在日常开发中，处理文件路径是个高频操作。比如你要批量处理某个文件夹下的所有图片，或者需要读取多个子目录中的日志文件。这时候如果手动一个个写路径，不仅效率低下，还容易出错。

我最近就遇到一个真实案例：需要处理一个包含上万张商品图片的文件夹，这些图片分散在几十个子目录中。如果手动拼接路径，估计要写到怀疑人生。幸好Python提供了两个神器：glob.glob()用于文件搜索，os.path.join()用于路径拼接，两者配合使用简直事半功倍。

glob.glob()就像是个智能文件搜索器，支持通配符匹配，能快速找到符合规则的文件。而os.path.join()则是个路径拼接专家，能自动处理不同操作系统的路径分隔符问题。两者结合，就能轻松实现跨平台的文件批量处理。

2. glob.glob()的详细用法

2.1 基本通配符使用

glob.glob()最强大的功能就是支持通配符匹配。最常用的通配符有两个：

*：匹配任意多个字符
?：匹配单个字符

举个例子，假设我们有个图片文件夹，里面存放着不同分辨率的图片：

import glob

# 获取所有jpg图片
jpg_files = glob.glob('/path/to/images/*.jpg')
print(jpg_files)

# 获取所有以"product_"开头，后跟4个数字的png图片
product_images = glob.glob('/path/to/images/product_[0-9][0-9][0-9][0-9].png')

这里有个实用技巧：在Windows系统下，路径中的反斜杠需要使用原始字符串（前面加r）或者双反斜杠：

# Windows路径的正确写法
windows_path = glob.glob(r'C:\Users\Project\data\*.csv')
# 或者
windows_path = glob.glob('C:\\Users\\Project\\data\\*.csv')

2.2 递归搜索子目录

默认情况下，glob.glob()只搜索当前目录。如果需要搜索子目录，可以使用**通配符配合recursive=True参数：

# 递归搜索所有子目录中的txt文件
all_txt_files = glob.glob('/path/to/project/**/*.txt', recursive=True)

这个功能在处理大型项目时特别有用。比如我最近处理一个机器学习项目，需要收集所有训练数据，这些数据分散在多个子目录中。使用递归搜索，一行代码就搞定了。

2.3 匹配多个扩展名

有时候我们需要匹配多种类型的文件，可以用花括号语法：

# 匹配jpg和png图片
image_files = glob.glob('/path/to/images/*.{jpg,png}', recursive=True)

3. os.path.join()的妙用

3.1 跨平台路径拼接

不同操作系统使用不同的路径分隔符（Windows用\，Linux/macOS用/）。os.path.join()会自动根据当前系统选择正确的分隔符：

import os

# 跨平台路径拼接
config_path = os.path.join('project', 'config', 'settings.ini')

这样写出来的代码，无论在哪个系统上运行都能正常工作。我有个项目就因为早期没注意这个问题，在Windows上开发好好的，部署到Linux服务器就报错，排查了半天才发现是路径分隔符的问题。

3.2 处理绝对路径和相对路径

os.path.join()在处理绝对路径时有个特殊行为：当遇到以斜杠开头的参数时，会忽略之前的所有参数：

path1 = os.path.join('first', 'second', '/third', 'file.txt')
# 输出: '/third/file.txt'

path2 = os.path.join('/first', 'second', 'third', 'file.txt')
# 输出: '/first/second/third/file.txt'

这个特性在实际开发中很有用。比如我们可能要根据不同环境（开发/测试/生产）加载不同的配置文件：

base_dir = '/etc' if is_production else './config'
config_file = os.path.join(base_dir, 'app', 'settings.conf')

3.3 与os.path的其他函数配合

os.path模块还提供了很多其他实用函数，经常和join()一起使用：

# 获取文件名
filename = os.path.basename(filepath)

# 获取目录名
dirname = os.path.dirname(filepath)

# 拆分扩展名
name, ext = os.path.splitext(filename)

# 判断路径是否存在
if os.path.exists(filepath):
    # 处理文件

4. 实战：批量处理项目文件

4.1 日志文件分析案例

假设我们需要分析一个项目的所有日志文件，这些日志分散在多个子目录中，且有不同的日期后缀：

import glob
import os

# 项目根目录
project_root = './my_project'

# 查找所有.log文件
log_files = glob.glob(os.path.join(project_root, '**', '*.log'), recursive=True)

for log_file in log_files:
    # 分析每个日志文件
    with open(log_file, 'r') as f:
        content = f.read()
        # 处理日志内容...

4.2 图片资源加载优化

在游戏开发或Web应用中，经常需要加载大量图片资源。使用glob.glob()可以轻松实现按需加载：

def load_textures(texture_dir):
    # 加载所有png纹理
    textures = {}
    for tex_path in glob.glob(os.path.join(texture_dir, '*.png')):
        tex_name = os.path.splitext(os.path.basename(tex_path))[0]
        textures[tex_name] = load_image(tex_path)
    return textures

4.3 配置文件自动发现

在大型项目中，配置可能分散在多个文件中。我们可以自动发现并加载所有配置：

def load_configs(config_dir):
    config = {}
    for conf_file in glob.glob(os.path.join(config_dir, '*.json')):
        with open(conf_file) as f:
            config.update(json.load(f))
    return config

5. 常见问题与解决方案

5.1 路径不存在的情况

使用glob.glob()时，如果路径不存在，它会返回空列表而不是抛出异常。这既是优点也是缺点：

files = glob.glob('/nonexistent/path/*.txt')
# files是[]，不会报错

安全做法是先检查路径是否存在：

if not os.path.exists(base_dir):
    raise FileNotFoundError(f"目录不存在: {base_dir}")
    
files = glob.glob(os.path.join(base_dir, '*.txt'))
if not files:
    print("警告: 没有找到匹配的文件")

5.2 处理特殊字符

如果路径中包含特殊字符（如空格、中文等），最好使用原始字符串或确保正确编码：

# 包含空格的路径
path_with_space = glob.glob(r'C:\My Documents\*.docx')

# 中文路径
chinese_path = glob.glob('/用户/张三/文档/*.txt'.encode('utf-8'))

5.3 性能优化技巧

当处理大量文件时，glob.glob()可能会有性能问题。可以考虑：

缩小搜索范围，避免使用**除非必要
先获取文件列表再过滤，而不是使用复杂的通配符
对于重复操作，考虑缓存结果

# 先获取所有文件，再过滤
all_files = glob.glob('/path/to/files/*')
target_files = [f for f in all_files if f.endswith(('.jpg', '.png'))]

6. 高级技巧与最佳实践

6.1 自定义匹配规则

有时候通配符不能满足需求，可以结合fnmatch模块实现更复杂的匹配：

import fnmatch

files = glob.glob('/path/to/files/*')
# 自定义过滤条件
filtered = [f for f in files if fnmatch.fnmatch(f, '*[0-9][0-9].txt')]

6.2 路径规范化

使用os.path.normpath()可以规范化路径，处理多余的.和..：

ugly_path = 'project/../project/config/./settings.ini'
clean_path = os.path.normpath(ugly_path)
# 输出: 'project/config/settings.ini'

6.3 编写跨平台工具

如果要编写跨平台的命令行工具，可以这样处理用户输入的路径：

import sys

# 处理命令行参数
user_path = sys.argv[1] if len(sys.argv) > 1 else '.'

# 转换为绝对路径并规范化
abs_path = os.path.abspath(user_path)
clean_path = os.path.normpath(abs_path)

# 安全地使用路径
if not os.path.exists(clean_path):
    print(f"错误: 路径不存在 {clean_path}")
    sys.exit(1)

在实际项目中，我通常会把这些路径操作封装成工具函数，比如：

def safe_glob(base_dir, pattern):
    """安全地执行glob搜索"""
    if not os.path.isdir(base_dir):
        raise ValueError(f"不是有效的目录: {base_dir}")
    
    full_pattern = os.path.join(base_dir, pattern)
    return glob.glob(full_pattern)

这样既能保证代码安全，又能提高可读性。记住，好的路径处理代码应该是自解释的，不需要额外注释就能理解其意图。

亚马逊云科技技术品牌专区

更多推荐

Gemini 2.5 Flash Lite 新手极速上手指南

在开发智能应用时，很多开发者常常面临一个两难选择：是追求模型的强大理解能力，还是担心高昂的算力成本和复杂的部署流程？特别是在处理长文档分析、图片内容识别或需要实时交互的场景下，传统方案往往显得力不从心。要么响应速度慢得让人失去耐心，要么在处理复杂上下文时出现“遗忘”现象，导致回答断章取义。其实，随着新一代大模型 API 的成熟，这些问题已经有了更优雅的解法。不需要自己搭建庞大的服务器集群，也不必深

亚马逊云科技技术品牌专区

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑

亚马逊云科技技术品牌专区

Kimi 智能助手新手入门与实战指南

在处理长篇技术文档或行业研报时，我们往往只需要其中的核心结论或特定数据。利用 AI 进行长文档摘要，可以极大缩短信息获取周期。操作时，直接将文档内容复制粘贴到对话框中（注意遵守平台的长度限制，若超长可分段处理），然后配合精准的指令。假设你手头有一份五十页的《云计算架构演进趋势报告》，你可以输入：“请阅读以下关于云计算架构的报告内容。首先，用不超过 200 字总结全文的核心观点。其次，提取出文中提到