别再写for循环了！用PyTorch的torch.einsum一行代码搞定复杂张量运算

本文介绍了PyTorch中torch.einsum函数的高效应用，通过爱因斯坦求和约定简化复杂张量运算。文章详细解析了einsum语法，展示了如何用一行代码替代多层for循环，提升代码可读性和性能，特别适用于深度学习中的矩阵乘法、张量缩并和注意力计算等场景。

鹰忍

187人浏览 · 2026-04-30 09:07:48

鹰忍 · 2026-04-30 09:07:48 发布

用torch.einsum重构张量运算：告别繁琐循环的PyTorch高效实践

在深度学习项目中，我们常常需要处理各种复杂的张量运算——从简单的矩阵乘法到Transformer中的注意力计算。传统做法是写一堆嵌套的for循环，不仅代码冗长难懂，还容易引入错误。而PyTorch提供的torch.einsum函数，能让我们用一行代码就搞定这些复杂操作。

1. 为什么需要爱因斯坦求和约定

第一次看到torch.einsum的语法时，很多人会感到困惑——那些奇怪的字母组合到底在表达什么？这其实是源自爱因斯坦在广义相对论中发明的求和约定，用来简化复杂的张量运算表示。

假设我们要计算两个矩阵A和B的乘积C，传统写法是：

C = torch.zeros(m, n)
for i in range(m):
    for j in range(n):
        for k in range(p):
            C[i,j] += A[i,k] * B[k,j]

而用einsum只需要：

C = torch.einsum('ik,kj->ij', A, B)

关键优势：

代码简洁：一行替代多层循环
可读性强：运算逻辑一目了然
性能优化：底层使用高效实现
维度灵活：支持任意维度的张量

提示：einsum表达式中的箭头->左边是输入张量的维度标记，右边是输出张量的维度标记。重复的标记表示需要在该维度上求和。

2. einsum语法深度解析

理解einsum的核心是掌握它的标记系统。让我们通过几个典型例子来拆解其语法规则。

2.1 基础运算模式

矩阵转置：

A = torch.randn(3,4)
A_T = torch.einsum('ij->ji', A)  # 等价于A.t()

向量点积：

a = torch.randn(5)
b = torch.randn(5)
dot = torch.einsum('i,i->', a, b)  # 等价于torch.dot(a,b)

矩阵逐元素相乘：

A = torch.randn(3,4)
B = torch.randn(3,4)
C = torch.einsum('ij,ij->ij', A, B)  # 等价于A*B

2.2 高级应用模式

批次矩阵乘法：

A = torch.randn(10,3,4)  # 10个3x4矩阵
B = torch.randn(10,4,5)  # 10个4x5矩阵
C = torch.einsum('bij,bjk->bik', A, B)  # 批次矩阵乘法

张量缩并：

T1 = torch.randn(3,4,5)
T2 = torch.randn(4,5,6)
T3 = torch.einsum('ijk,jkl->il', T1, T2)  # 缩并j和k维度

注意力分数计算（Transformer场景）：

queries = torch.randn(32, 10, 8, 64)  # (batch, seq_len, heads, dim)
keys = torch.randn(32, 10, 8, 64)
scores = torch.einsum('bqhd,bkhd->bhqk', queries, keys)

3. 实战案例：用einsum重构常见操作

让我们看几个实际项目中常见的张量操作，对比传统实现和einsum实现的差异。

3.1 矩阵乘法与转置

传统实现：

def matmul_transpose(A, B):
    # A: m×n, B: p×n
    result = torch.zeros(A.size(0), B.size(0))
    for i in range(A.size(0)):
        for j in range(B.size(0)):
            for k in range(A.size(1)):
                result[i,j] += A[i,k] * B[j,k]
    return result

einsum实现：

def matmul_transpose(A, B):
    return torch.einsum('ik,jk->ij', A, B)

3.2 批次张量缩并

假设我们需要处理一批张量，对特定维度进行缩并：

传统实现：

def batch_tensor_contraction(T1, T2):
    # T1: b×m×n, T2: b×n×p
    result = torch.zeros(T1.size(0), T1.size(1), T2.size(2))
    for b in range(T1.size(0)):
        for i in range(T1.size(1)):
            for j in range(T2.size(2)):
                for k in range(T1.size(2)):
                    result[b,i,j] += T1[b,i,k] * T2[b,k,j]
    return result

einsum实现：

def batch_tensor_contraction(T1, T2):
    return torch.einsum('bik,bkj->bij', T1, T2)

3.3 多注意力头计算

在Transformer中，计算注意力分数通常涉及多个注意力头：

传统实现：

def multi_head_attention(queries, keys):
    # queries: b×q×h×d, keys: b×k×h×d
    energy = torch.zeros(queries.size(0), queries.size(2), 
                        queries.size(1), keys.size(1))
    for b in range(queries.size(0)):
        for h in range(queries.size(2)):
            for i in range(queries.size(1)):
                for j in range(keys.size(1)):
                    for dim in range(queries.size(3)):
                        energy[b,h,i,j] += queries[b,i,h,dim] * keys[b,j,h,dim]
    return energy

einsum实现：

def multi_head_attention(queries, keys):
    return torch.einsum('bqhd,bkhd->bhqk', queries, keys)

4. 性能优化与调试技巧

虽然einsum很强大，但使用不当也可能导致性能问题。下面是一些实用建议：

4.1 性能对比

操作类型	传统实现	einsum实现	速度提升
矩阵乘法	3层循环	单行表达式	2-5倍
批次乘法	4层循环	单行表达式	3-8倍
张量缩并	4层循环	单行表达式	4-10倍

4.2 常见问题排查

维度不匹配错误：
- 检查输入张量的实际维度是否与einsum字符串描述一致
- 确保求和维度的大小相同
性能低下：
- 对于简单操作（如矩阵乘法），直接使用torch.matmul可能更快
- 复杂的einsum表达式可以尝试拆分为多个简单操作

调试技巧：

# 打印中间维度
print("queries shape:", queries.shape)
print("keys shape:", keys.shape)

# 小规模测试
small_q = queries[:2,:2,:2,:2]
small_k = keys[:2,:2,:2,:2]
test = torch.einsum('bqhd,bkhd->bhqk', small_q, small_k)
print("test output shape:", test.shape)

4.3 最佳实践

命名维度：使用有意义的字母标记维度，如：

# 不好
torch.einsum('ij,jk->ik', A, B)

# 更好
torch.einsum('ch_in,ch_out->ch_in_out', A, B)

组合简单操作：过于复杂的einsum表达式可以拆解：

# 复杂表达式
result = torch.einsum('abc,debf,ghci->adghef', A, B, C)

# 拆解为两步
temp = torch.einsum('abc,debf->adecf', A, B)
result = torch.einsum('adecf,ghci->adghef', temp, C)

与PyTorch原生函数结合：

# 计算L2距离矩阵
diff = torch.einsum('ijk->ik', x[:,None,:] - y[None,:,:]**2)
# 等价但更高效：
diff = (x.unsqueeze(1) - y.unsqueeze(0)).pow(2).sum(2)

在实际项目中，我经常用einsum来处理复杂的张量操作，特别是在实现自定义的注意力机制或特殊的神经网络层时。刚开始可能需要多思考一下维度关系，但一旦掌握，代码会变得非常简洁优雅。

AMD开发者中国社区

欢迎来到AMD开发者中国社区，我们致力于为全球开发者提供 ROCm、Ryzen AI Software 和 ZenDNN等全栈软硬件优化支持。携手中国开发者，链接全球开源生态，与你共建开放、协作的技术社区。

更多推荐

大模型岗位傻傻分不清？小白程序员必看！收藏这份超全解析，助你轻松入行大模型！

AMD开发者中国社区

OpenCore Legacy Patcher：老Mac升级新系统的5步完整指南

想让你的老款Mac重新焕发生机吗？OpenCore Legacy Patcher是一款强大的开源工具，专门帮助苹果官方已停止支持的Intel Mac设备安装和运行新版macOS系统。通过创新的引导层补丁技术，它打破了苹果的系统硬件限制，为2008年之后的Mac设备提供了延续生命周期的完整解决方案。无论你是想为2012年的MacBook Pro升级到最新macOS，还是让老iMac重获新生，这个工具