MacBook Pro M1/M2 用户必看：3行代码快速验证你的PyTorch GPU加速（MPS）是否真的能用

本文为MacBook Pro M1/M2用户提供了一份详细的PyTorch GPU加速（MPS）验证指南。通过3行代码快速检测MPS的可用性，包括基础验证、压力测试和深度学习实战验证，帮助开发者确保Metal Performance Shaders（MPS）能够正常工作，提升AI计算效率。

何欣颜

43人浏览 · 2026-05-15 09:34:37

何欣颜 · 2026-05-15 09:34:37 发布

MacBook Pro M1/M2 用户终极指南：3分钟彻底验证PyTorch GPU加速（MPS）实战手册

当你的指尖在MacBook Pro的键盘上敲击出第一行PyTorch代码时，那颗隐藏在铝合金机身下的M系列芯片正在经历一场革命性的转变——从传统的CPU计算跨入GPU加速的新纪元。但对于大多数开发者而言，最令人焦虑的瞬间莫过于：我安装的PyTorch真的能调用M1/M2的GPU吗？本文将成为你技术工具箱里那把精准的"测速仪"，用最直接的方式验证Metal Performance Shaders（MPS）的实战状态。

1. 为什么你的Mac需要这份验证指南

苹果Silicon芯片的GPU架构与传统NVIDIA CUDA有着本质区别。MPS作为PyTorch的后端，其可用性取决于三个关键因素：

PyTorch版本适配：v1.12+原生支持MPS，但夜间构建版(nightly)往往有更好的优化
macOS系统版本：要求Monterey 12.3+，某些功能需要Ventura 13.1+
Python环境完整性：conda虚拟环境中常出现依赖项冲突

注意：验证时建议关闭所有占用GPU的应用程序（如Final Cut Pro），避免资源竞争导致误判

以下是一个典型的环境检查清单：

检查项	合规标准	快速验证命令
PyTorch版本	≥1.12	`python -c "import torch; print(torch.__version__)"`
macOS版本	≥12.3	左上角苹果菜单 → 关于本机
Python架构	arm64 (非x86_64)	`python -c "import platform; print(platform.machine())"`

2. 基础验证：MPS可用性双保险检测

真正的专业验证从不依赖单一指标。我们需要同时检查is_available()和is_built()两个关键状态：

import torch

def verify_mps():
    mps_available = torch.backends.mps.is_available()
    mps_built = torch.backends.mps.is_built()
    
    print(f"MPS可用状态: {'' if mps_available else ''} ({mps_available})")
    print(f"MPS编译状态: {'' if mps_built else ''} ({mps_built})")
    
    if not all([mps_available, mps_built]):
        print("\n故障诊断建议:")
        if not mps_built:
            print("- 当前PyTorch未包含MPS支持，请安装nightly版本")
        if not mps_available:
            print("- 系统环境不支持，检查macOS版本和GPU占用情况")

verify_mps()

这两个函数的本质区别在于：

is_built()：检测当前PyTorch是否编译了MPS支持
is_available()：检测运行时环境是否能实际使用MPS

3. 压力测试：让GPU完成真实计算任务

静态检测只是开始，我们需要看到GPU实际处理张量运算的能力。以下测试脚本会执行三个关键操作：

创建随机张量并转移到MPS设备
执行矩阵乘法运算（GEMM）
对比CPU/GPU计算耗时差异

import torch
import time

def stress_test():
    device = 'mps' if torch.backends.mps.is_available() else 'cpu'
    print(f"使用设备: {device.upper()}")
    
    # 创建大型随机矩阵
    size = (1024, 1024)
    x = torch.rand(size, device=device)
    y = torch.rand(size, device=device)
    
    # 预热GPU（避免首次运行延迟）
    for _ in range(3):
        _ = torch.mm(x, y)
    
    # 正式测试
    start_time = time.time()
    z = torch.mm(x, y)
    elapsed = (time.time() - start_time) * 1000
    
    print(f"矩阵乘法完成: {z.shape} | 耗时: {elapsed:.2f}ms")
    
    # CPU对比测试
    if device == 'mps':
        x_cpu, y_cpu = x.cpu(), y.cpu()
        start_cpu = time.time()
        _ = torch.mm(x_cpu, y_cpu)
        cpu_time = (time.time() - start_cpu) * 1000
        print(f"CPU对比耗时: {cpu_time:.2f}ms | 加速比: {cpu_time/elapsed:.1f}x")

stress_test()

典型输出解析：

使用设备: MPS
矩阵乘法完成: torch.Size([1024, 1024]) | 耗时: 8.42ms  
CPU对比耗时: 42.17ms | 加速比: 5.0x

4. 深度学习实战验证：从线性回归到图像分类

为了模拟真实场景，我们构建一个包含数据加载、模型定义、训练推理的完整流程测试：

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 16, kernel_size=3)
        self.fc = nn.Linear(16*26*26, 10)
    
    def forward(self, x):
        x = torch.relu(self.conv1(x))
        return self.fc(x.view(x.size(0), -1))

def full_pipeline_test():
    device = 'mps' if torch.backends.mps.is_available() else 'cpu'
    transform = transforms.Compose([transforms.ToTensor()])
    
    # 使用MNIST子集加速测试
    dataset = datasets.MNIST('../data', train=True, download=True, transform=transform)
    loader = torch.utils.data.DataLoader(dataset, batch_size=64, shuffle=True)
    
    model = SimpleCNN().to(device)
    optimizer = optim.Adam(model.parameters())
    criterion = nn.CrossEntropyLoss()
    
    # 训练一个epoch
    model.train()
    for data, target in loader:
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        break  # 仅测试单批次
    
    # 推理测试
    model.eval()
    test_input = torch.rand(1, 1, 28, 28).to(device)
    with torch.no_grad():
        prediction = model(test_input)
    
    print(f"测试完成！预测类别: {prediction.argmax().item()}")
    print(f"峰值显存占用: {torch.mps.current_allocated_memory()/1024**2:.2f} MB")

full_pipeline_test()

关键指标观察点：

训练过程是否抛出RuntimeError
torch.mps.current_allocated_memory()显示的显存占用是否合理
使用活动监视器观察GPU利用率（图形卡历史记录）

5. 高级诊断：当验证失败时的深度排查

如果上述测试出现异常，以下是按优先级排序的排查清单：

依赖项冲突检测

conda list | grep -E 'pytorch|libmps'
pip show torch

Metal API验证

from metal import Metal
print(Metal.system_default_device().name)

PyTorch构建配置检查

import torch._C
print(torch._C._get_mps_enabled())

常见问题解决方案：

错误信息："Unknown device: 'mps'"
- 原因：PyTorch版本低于1.12
- 修复：conda install pytorch torchvision -c pytorch-nightly
警告信息："MPS backend is not optimized for this model"
- 原因：某些操作尚未实现MPS优化
- 应对：混合使用'mps'和'cpu'

在终端窗口，这个命令可以实时监控GPU使用情况：

sudo powermetrics --samplers gpu_power -n 10 -i 1000

加入AMD AI开发者计划！

免费领 50 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

NotebookLM绿色微调实战：仅用1/5显存实现同等知识蒸馏效果（附HuggingFace兼容代码包）

NotebookLM绿色微调实战：仅用1/5显存达成同等知识蒸馏效果，面向NotebookLM可持续发展研究，适用于资源受限场景；采用低秩适配+梯度压缩方法，HuggingFace兼容，开箱即用。值得收藏。

AMD开发者中国社区

别再死记硬背DenseNet结构了！用PyTorch代码逐层打印，手把手带你画懂DenseNet-121

本文通过PyTorch代码逐层解析DenseNet-121结构，深入探讨其密集连接机制。从模型加载、宏观结构到密集块内部实现，详细展示了如何通过代码理解DenseNet的特征复用原理，并与ResNet进行对比分析。文章还提供了简化版DenseNet实现和实际应用建议，帮助读者彻底掌握这一经典卷积网络架构。