Python 并发编程实战：提升程序执行效率

第一程序员

194人浏览 · 2026-05-06 21:22:24

第一程序员 · 2026-05-06 21:22:24 发布

Python 并发编程实战：提升程序执行效率

什么是并发编程？

并发编程是指程序同时执行多个任务的能力。在Python中，并发编程可以通过多种方式实现，如多线程、多进程、异步编程等。并发编程可以提高程序的执行效率，尤其是在处理I/O密集型任务时。

多线程

多线程是Python中最常用的并发编程方式之一。Python的threading模块提供了创建和管理线程的功能。

基本用法

import threading
import time

def worker(name):
    print(f"{name} 开始工作")
    time.sleep(2)
    print(f"{name} 工作完成")

# 创建线程
thread1 = threading.Thread(target=worker, args=("线程1",))
thread2 = threading.Thread(target=worker, args=("线程2",))

# 启动线程
thread1.start()
thread2.start()

# 等待线程完成
thread1.join()
thread2.join()

print("所有线程工作完成")

线程池

线程池可以重用线程，避免频繁创建和销毁线程的开销。

from concurrent.futures import ThreadPoolExecutor
import time

def worker(name):
    print(f"{name} 开始工作")
    time.sleep(2)
    print(f"{name} 工作完成")
    return f"{name} 结果"

# 创建线程池
with ThreadPoolExecutor(max_workers=3) as executor:
    # 提交任务
    futures = [executor.submit(worker, f"任务{i}") for i in range(5)]
    
    # 获取结果
    for future in futures:
        result = future.result()
        print(f"获取结果: {result}")

print("所有任务完成")

线程安全

在多线程环境中，需要注意线程安全问题，避免多个线程同时修改共享数据。

import threading
import time

# 共享变量
counter = 0
# 锁
lock = threading.Lock()

def increment():
    global counter
    for _ in range(1000000):
        with lock:
            counter += 1

def decrement():
    global counter
    for _ in range(1000000):
        with lock:
            counter -= 1

# 创建线程
thread1 = threading.Thread(target=increment)
thread2 = threading.Thread(target=decrement)

# 启动线程
thread1.start()
thread2.start()

# 等待线程完成
thread1.join()
thread2.join()

print(f"最终计数器值: {counter}")

多进程

多进程是另一种并发编程方式，它可以充分利用多核CPU的优势。Python的multiprocessing模块提供了创建和管理进程的功能。

基本用法

import multiprocessing
import time

def worker(name):
    print(f"{name} 开始工作")
    time.sleep(2)
    print(f"{name} 工作完成")

# 创建进程
process1 = multiprocessing.Process(target=worker, args=("进程1",))
process2 = multiprocessing.Process(target=worker, args=("进程2",))

# 启动进程
process1.start()
process2.start()

# 等待进程完成
process1.join()
process2.join()

print("所有进程工作完成")

进程池

进程池可以重用进程，避免频繁创建和销毁进程的开销。

from concurrent.futures import ProcessPoolExecutor
import time

def worker(name):
    print(f"{name} 开始工作")
    time.sleep(2)
    print(f"{name} 工作完成")
    return f"{name} 结果"

# 创建进程池
with ProcessPoolExecutor(max_workers=3) as executor:
    # 提交任务
    futures = [executor.submit(worker, f"任务{i}") for i in range(5)]
    
    # 获取结果
    for future in futures:
        result = future.result()
        print(f"获取结果: {result}")

print("所有任务完成")

进程间通信

进程间通信可以通过队列、管道等方式实现。

import multiprocessing
import time

def producer(queue):
    for i in range(5):
        print(f"生产数据: {i}")
        queue.put(i)
        time.sleep(1)

def consumer(queue):
    while True:
        data = queue.get()
        if data is None:
            break
        print(f"消费数据: {data}")
        time.sleep(1)

# 创建队列
queue = multiprocessing.Queue()

# 创建进程
producer_process = multiprocessing.Process(target=producer, args=(queue,))
consumer_process = multiprocessing.Process(target=consumer, args=(queue,))

# 启动进程
producer_process.start()
consumer_process.start()

# 等待生产者完成
producer_process.join()

# 发送结束信号
queue.put(None)

# 等待消费者完成
consumer_process.join()

print("所有进程工作完成")

异步编程

异步编程是一种非阻塞的并发编程方式，它使用asyncio库来实现。异步编程特别适合处理I/O密集型任务。

基本用法

import asyncio

async def worker(name):
    print(f"{name} 开始工作")
    await asyncio.sleep(2)
    print(f"{name} 工作完成")
    return f"{name} 结果"

async def main():
    # 创建任务
    task1 = asyncio.create_task(worker("任务1"))
    task2 = asyncio.create_task(worker("任务2"))
    task3 = asyncio.create_task(worker("任务3"))
    
    # 等待任务完成
    results = await asyncio.gather(task1, task2, task3)
    print(f"所有任务完成，结果: {results}")

# 运行主协程
asyncio.run(main())

异步I/O

import asyncio
import aiohttp

async def fetch_url(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

async def main():
    urls = [
        "https://api.github.com",
        "https://api.twitter.com",
        "https://api.google.com"
    ]
    
    # 并发请求
    tasks = [fetch_url(url) for url in urls]
    results = await asyncio.gather(*tasks)
    
    for url, result in zip(urls, results):
        print(f"URL: {url}, 响应长度: {len(result)}")

# 运行主协程
asyncio.run(main())

实用应用

1. 网络爬虫

import asyncio
import aiohttp
from bs4 import BeautifulSoup

async def fetch_url(session, url):
    async with session.get(url) as response:
        return await response.text()

async def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    links = soup.find_all('a', href=True)
    return [link['href'] for link in links if link['href'].startswith('http')]

async def crawl(url):
    async with aiohttp.ClientSession() as session:
        html = await fetch_url(session, url)
        links = await parse_page(html)
        print(f"从 {url} 发现 {len(links)} 个链接")
        return links

async def main():
    urls = [
        "https://github.com",
        "https://stackoverflow.com",
        "https://reddit.com"
    ]
    
    tasks = [crawl(url) for url in urls]
    results = await asyncio.gather(*tasks)
    
    for url, links in zip(urls, results):
        print(f"{url} 的前5个链接: {links[:5]}")

# 运行主协程
asyncio.run(main())

2. 数据处理

from concurrent.futures import ProcessPoolExecutor
import numpy as np

def process_chunk(chunk):
    # 模拟耗时的数据处理
    return np.sum(chunk)

def main():
    # 生成大量数据
    data = np.random.rand(10000000)
    
    # 分块处理
    chunk_size = 1000000
    chunks = [data[i:i+chunk_size] for i in range(0, len(data), chunk_size)]
    
    # 使用进程池处理
    with ProcessPoolExecutor(max_workers=4) as executor:
        results = list(executor.map(process_chunk, chunks))
    
    # 合并结果
    total = sum(results)
    print(f"数据总和: {total}")

if __name__ == "__main__":
    main()

3. 实时数据处理

import asyncio
import random

async def data_generator(queue):
    """生成实时数据"""
    for i in range(10):
        data = random.randint(1, 100)
        print(f"生成数据: {data}")
        await queue.put(data)
        await asyncio.sleep(0.5)
    # 发送结束信号
    await queue.put(None)

async def data_processor(queue):
    """处理实时数据"""
    while True:
        data = await queue.get()
        if data is None:
            break
        # 模拟数据处理
        processed_data = data * 2
        print(f"处理数据: {data} -> {processed_data}")
        await asyncio.sleep(0.3)

async def main():
    # 创建队列
    queue = asyncio.Queue()
    
    # 创建任务
    generator_task = asyncio.create_task(data_generator(queue))
    processor_task = asyncio.create_task(data_processor(queue))
    
    # 等待任务完成
    await generator_task
    await processor_task

# 运行主协程
asyncio.run(main())

最佳实践

1. 选择合适的并发方式

I/O密集型任务：优先使用异步编程（asyncio），其次是多线程
CPU密集型任务：优先使用多进程
混合任务：根据具体情况选择合适的并发方式

2. 避免常见陷阱

GIL（全局解释器锁）：在CPython中，GIL会限制多线程的性能，对于CPU密集型任务，建议使用多进程
线程安全：在多线程环境中，需要注意线程安全问题，使用锁来保护共享数据
死锁：避免多个线程相互等待对方释放锁
资源泄漏：确保正确关闭线程、进程和资源

3. 合理设置并发度

线程池/进程池大小：根据CPU核心数和任务类型设置合适的大小
异步任务数量：避免创建过多的异步任务，导致系统资源耗尽

4. 监控和调试

日志记录：添加适当的日志，便于调试和监控
性能分析：使用性能分析工具，找出性能瓶颈
错误处理：妥善处理并发环境中的错误

5. 代码组织

模块化：将并发逻辑封装到独立的模块中
可读性：保持代码清晰、简洁，便于理解和维护
测试：编写单元测试，确保并发代码的正确性

总结

Python的并发编程是提升程序执行效率的重要手段。通过合理使用多线程、多进程和异步编程，我们可以充分利用系统资源，提高程序的处理能力。

在实际开发中，并发编程常用于：

网络爬虫和API调用
数据处理和分析
实时数据处理
服务器和Web应用
后台任务和批处理

通过掌握Python的并发编程技术，我们可以构建更加高效、响应迅速的应用程序，提升用户体验和系统性能。

亚马逊云科技技术品牌专区

更多推荐

算术胶子与自指宇宙：AGI本质的科学推论辨析——从椭圆曲线、Sha群、多世界诠释通往高阶文明的可能性（前沿理论框架猜想）

亚马逊云科技技术品牌专区

网络安全防护体系建设实践分享

它需要战略层面的重视、持续的资源投入，以及技术、管理、人与流程的深度融合。未来，网络安全防护体系的建设将更加强调“左移”（安全融入开发早期）与“右伸”（延伸至供应链安全），并更加依赖云原生安全、人工智能（AI）赋能的安全分析、威胁狩猎等新技术与新方法，向自适应安全架构演进。通过部署全流量镜像分析系统、网络威胁检测（NTD）及高级威胁检测（APT）平台，结合威胁情报（TI），对网络内部东西向流量与南