Python实现Paillier同态加密：从原理到工程实践

夏小龙

270人浏览 · 2026-06-28 11:32:22

夏小龙 · 2026-06-28 11:32:22 发布

1. 项目概述：为什么要在Python里折腾Paillier？

如果你正在处理一些敏感数据，比如医疗记录、金融交易或者用户画像，但又需要对这些数据进行计算和分析，那你大概率会遇到一个头疼的问题：数据加密了就没法算，要算就得先解密，而解密又可能暴露原始数据。这就像你把钱锁进了保险箱，每次想数一数有多少钱，都得把保险箱撬开，数完再锁上，既麻烦又不安全。Paillier同态加密算法就是为了解决这个矛盾而生的。它是一种“部分同态加密”，允许你在密文上直接进行加法运算，而无需解密。运算结果解密后，恰好等于对明文进行同样加法运算的结果。这个特性在隐私计算、安全多方计算、联邦学习等场景下简直是“神器”。

作为一个常年和数据安全打交道的开发者，我最初接触Paillier是在一个联合风控的项目里。我们需要在不暴露各家银行客户具体负债的情况下，计算整体的逾期率。用Paillier，每家银行将自己的加密后的逾期客户数上传，我们在密文上直接把这些数加起来，得到加密的总逾期数，最后再由一个可信方解密，整个过程原始数据从未以明文形式离开过数据方。这让我深刻体会到，懂点密码学，真的能给方案设计打开新思路。

所以，这个项目就是用Python从头实现一遍Paillier算法。目的不是造一个比现有库（比如 phe ）更快的轮子，而是通过亲手实现，彻底吃透密钥生成、加密、解密、同态加这三个核心步骤背后的数学原理和工程细节。这对于理解公钥密码体系、大数运算、以及同态加密的应用边界至关重要。无论你是想深入隐私计算领域，还是单纯对密码学实现感兴趣，跟着走一遍这个过程，绝对比只看论文或调用API收获大得多。

2. Paillier算法核心原理拆解

Paillier算法属于公钥密码体系，基于复合剩余类的困难性问题。听起来很吓人，我们把它拆开揉碎了说。

2.1 密钥生成的数学基础

Paillier的安全核心依赖于“判定性复合剩余假设”（DCR）。简单类比：给你一个很大的数 n （它是两个大质数 p 和 q 的乘积），再给你另一个数 z ，让你判断 z 是否是模 n^2 下的 n 次剩余（即是否存在某个数 y ，使得 y^n ≡ z mod n^2 ）。这个问题被广泛认为是计算困难的。

我们的密钥生成就围绕这个大数 n 展开：

选择两个大质数 p 和 q ：这是所有RSA类算法的基础。 p 和 q 必须足够大（通常1024位以上）、随机且独立。它们的乘积 n = p * q 就是公钥的一部分，也是模数。
计算 n 和 λ ： n 已知。 λ 是私钥的核心，它是 p-1 和 q-1 的最小公倍数（ λ = lcm(p-1, q-1) ）。这里用最小公倍数而非乘积，是为了保证后续解密函数能正确工作。
选择生成元 g ： g 是公钥的另一部分，是一个整数。理论上， g 可以简单取 n+1 ，这是一个常见且安全的简化选择，因为它满足必要的数学性质且计算方便。我们实现中就采用这个方案。
计算 μ ： μ 是私钥的一部分，用于解密。它的定义是 μ = (L(g^λ mod n^2))^{-1} mod n ，其中函数 L(x) = (x-1)/n 。当 g = n+1 时， g^λ mod n^2 有特殊形式，可以推导出 μ = λ^{-1} mod n ，这大大简化了私钥的计算。

注意： p 和 q 必须保密，销毁或妥善保存。一旦泄露， λ 就可被算出，整个加密体系就被攻破。这和RSA私钥泄露的后果一样严重。

2.2 加密与解密过程解析

加密一个明文 m （0 ≤ m < n） ：

随机选择一个整数 r （0 < r < n），且 r 必须与 n 互质（gcd(r, n) = 1）。这个 r 是每次加密时临时生成的随机数，即使加密同一个明文，不同的 r 也会产生完全不同的密文，这是语义安全性的关键。
计算密文 c = g^m * r^n mod n^2 。
- 当 g = n+1 时，公式可优化为 c = (1 + n*m) * r^n mod n^2 。这个优化避免了计算 g^m 这个大指数运算，效率提升巨大。

解密一个密文 c ：

计算中间值 u = c^λ mod n^2 。
应用 L 函数： L(u) = (u - 1) / n 。注意这个除法是在整数域上进行的，因为 u 模 n^2 后具有 1 + kn 的形式，所以 (u-1) 能被 n 整除。
恢复明文： m = L(u) * μ mod n 。

解密过程的正确性依赖于欧拉定理和模运算的性质。核心思想是，在模 n^2 下， r^n 的 λ 次方会“消失”（变为1），而 g^m 部分经过 L 函数处理后，能提取出 m 。

2.3 同态加法为何成立

这是Paillier最精妙的地方。假设有两个密文 c1 = Enc(m1) 和 c2 = Enc(m2) 。它们的乘积 c3 = c1 * c2 mod n^2 。我们来解密 c3 ： Dec(c3) = Dec(c1 * c2 mod n^2) = Dec( g^(m1) * r1^n * g^(m2) * r2^n mod n^2 ) = Dec( g^(m1+m2) * (r1*r2)^n mod n^2 ) = m1 + m2 mod n

看，解密结果正好是 m1 + m2 ！乘法在密文域对应了加法在明文域。同时， (r1*r2) 构成了一个新的随机因子，保证了结果密文仍然是语义安全的。

此外，密文与明文标量乘法也成立： c^k mod n^2 解密后是 k * m mod n 。这相当于对同一个明文 m 加了 k 次。

3. Python实现的关键细节与工程挑战

理论懂了，用代码实现时才会遇到真正的“坑”。Python的整数虽然支持大数，但直接照搬公式，效率和正确性都会出问题。

3.1 大素数生成与检验

这是第一步，也是安全的基础。我们不能用普通的随机数。

import random
from math import gcd

def generate_large_prime(bit_length=512):
    """生成一个指定位数的大素数（概率性测试）。"""
    while True:
        # 生成一个奇数候选
        candidate = random.getrandbits(bit_length) | 1 | (1 << (bit_length - 1))
        # 进行简单的试除和米勒-拉宾素性测试
        if is_prime(candidate):
            return candidate

def is_prime(n, trials=40):
    """使用米勒-拉宾素性测试。"""
    if n < 2:
        return False
    # 处理小素数
    small_primes = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29]
    if n in small_primes:
        return True
    for p in small_primes:
        if n % p == 0:
            return False

    # 米勒-拉宾测试
    # 将 n-1 写成 d * 2^s 的形式
    s = 0
    d = n - 1
    while d % 2 == 0:
        s += 1
        d //= 2

    for _ in range(trials):
        a = random.randrange(2, n - 1)
        x = pow(a, d, n)
        if x == 1 or x == n - 1:
            continue
        for _ in range(s - 1):
            x = pow(x, 2, n)
            if x == n - 1:
                break
        else:
            return False
    return True

实操心得 ： random.getrandbits() 比 random.randint() 在生成极大范围随机数时更高效。米勒-拉宾测试的次数 trials 决定了错误概率（4^{-trials}），40次对于密码学应用已足够安全。在实际产品中，应使用 secrets 模块或操作系统提供的密码学安全随机源。

3.2 模幂运算与模逆运算

整个算法充斥着 a^b mod m 的计算。Python的内置 pow(a, b, m) 是三参数形式，它使用蒙哥马利模乘等优化算法，效率远高于 (a ** b) % m 。 我们必须全程使用 pow 函数。

计算模逆元（ μ = λ^{-1} mod n ）需要使用扩展欧几里得算法。

def mod_inverse(a, m):
    """计算 a 模 m 的逆元，假设 gcd(a, m) = 1。"""
    # 使用扩展欧几里得算法
    def egcd(a, b):
        if b == 0:
            return (1, 0, a)
        else:
            x1, y1, g = egcd(b, a % b)
            x = y1
            y = x1 - (a // b) * y1
            return (x, y, g)
    x, y, g = egcd(a, m)
    if g != 1:
        raise ValueError(f'模逆元不存在，因为 gcd({a}, {m}) = {g}')
    else:
        return x % m

3.3 `L` 函数的整数除法陷阱

L(u) = (u - 1) / n 。在数学推导中，我们知道 u ≡ 1 (mod n) ，所以 (u-1) 是 n 的整数倍。但在Python中， / 是浮点除法，对于大整数会导致精度丢失甚至溢出。 必须使用整数除法 // 。

def L(x, n):
    """Paillier算法中的L函数。"""
    return (x - 1) // n  # 关键！必须是整数除法

3.4 完整的Python类实现

结合以上所有点，我们可以构建一个完整的Paillier加密类。

import random
from math import gcd

class Paillier:
    def __init__(self, key_length=1024):
        """初始化，生成指定长度的密钥对。"""
        self.key_length = key_length
        self.public_key, self.private_key = self._generate_keys(key_length)

    def _generate_keys(self, key_length):
        # 1. 生成两个大素数
        p = generate_large_prime(key_length // 2)
        q = generate_large_prime(key_length // 2)
        # 确保 p 和 q 不相等
        while q == p:
            q = generate_large_prime(key_length // 2)

        n = p * q
        nsquare = n * n

        # 2. 计算 λ = lcm(p-1, q-1)
        lambda_val = (p - 1) * (q - 1) // gcd(p - 1, q - 1)

        # 3. 选择 g = n + 1
        g = n + 1

        # 4. 计算 μ = λ^{-1} mod n
        mu = mod_inverse(lambda_val, n)

        public_key = {'n': n, 'g': g}
        private_key = {'lambda': lambda_val, 'mu': mu, 'n': n, 'nsquare': nsquare}
        # 注意：p, q 应被安全擦除，这里仅用于演示
        return public_key, private_key

    def encrypt(self, m):
        """加密明文 m (整数)。"""
        n = self.public_key['n']
        g = self.public_key['g']
        nsquare = n * n

        # 确保明文在有效范围
        if m < 0 or m >= n:
            raise ValueError(f'明文 {m} 超出范围 [0, {n-1}]')

        # 选择随机数 r，满足 1 < r < n 且 gcd(r, n) = 1
        while True:
            r = random.randrange(1, n)
            if gcd(r, n) == 1:
                break

        # 使用优化公式加密：c = (1 + n*m) * r^n mod n^2
        c = (1 + n * m) * pow(r, n, nsquare) % nsquare
        return c

    def decrypt(self, c):
        """解密密文 c。"""
        lambda_val = self.private_key['lambda']
        mu = self.private_key['mu']
        n = self.private_key['n']
        nsquare = self.private_key['nsquare']

        # 解密计算
        u = pow(c, lambda_val, nsquare)
        m = (L(u, n) * mu) % n
        return m

    def add(self, c1, c2):
        """同态加法：返回加密了 (m1 + m2) 的密文。"""
        n = self.public_key['n']
        nsquare = n * n
        return (c1 * c2) % nsquare

    def add_scalar(self, c, k):
        """同态标量加法：返回加密了 (m + k) 的密文。"""
        # 实际上是对明文k加密，然后同态加
        encrypted_k = self.encrypt(k)
        return self.add(c, encrypted_k)

    def mul_scalar(self, c, k):
        """同态标量乘法：返回加密了 (m * k) 的密文。"""
        n = self.public_key['n']
        nsquare = n * n
        # 密文的标量乘法：c^k mod n^2
        return pow(c, k, nsquare)

4. 实战测试与性能分析

实现完了，必须跑通测试才算成功。我们设计几个测试用例。

4.1 基础功能测试

def test_basic():
    print("=== 基础加密解密测试 ===")
    paillier = Paillier(key_length=512)  # 测试用512位，速度快
    m = 123456789
    print(f"原始明文: {m}")

    c = paillier.encrypt(m)
    print(f"加密后的密文 (16进制): {hex(c)[:50]}...")

    m_dec = paillier.decrypt(c)
    print(f"解密后的明文: {m_dec}")
    assert m == m_dec, "加解密失败！"
    print("加解密测试通过！")

def test_homomorphic_addition():
    print("\n=== 同态加法测试 ===")
    paillier = Paillier(key_length=512)
    m1 = 15
    m2 = 25
    print(f"明文1: {m1}, 明文2: {m2}")

    c1 = paillier.encrypt(m1)
    c2 = paillier.encrypt(m2)

    # 在密文上做加法
    c_sum = paillier.add(c1, c2)
    # 解密
    m_sum_dec = paillier.decrypt(c_sum)
    print(f"密文相加后解密结果: {m_sum_dec}")
    print(f"期望结果 (15+25): {m1 + m2}")
    assert m_sum_dec == (m1 + m2), "同态加法失败！"
    print("同态加法测试通过！")

def test_homomorphic_scalar_multiplication():
    print("\n=== 同态标量乘法测试 ===")
    paillier = Paillier(key_length=512)
    m = 7
    k = 3
    print(f"明文: {m}, 标量: {k}")

    c = paillier.encrypt(m)
    # 密文标量乘法
    c_mul = paillier.mul_scalar(c, k)
    m_mul_dec = paillier.decrypt(c_mul)
    print(f"密文乘以{k}后解密结果: {m_mul_dec}")
    print(f"期望结果 (7*3): {m * k}")
    assert m_mul_dec == (m * k), "同态标量乘法失败！"
    print("同态标量乘法测试通过！")

if __name__ == "__main__":
    test_basic()
    test_homomorphic_addition()
    test_homomorphic_scalar_multiplication()
    print("\n所有测试通过！")

4.2 性能瓶颈与优化思考

运行上面的测试，你会发现当 key_length 增加到2048位（目前推荐的安全强度）时，密钥生成会变得很慢（主要耗时在素数生成），加解密运算也会显著变慢。这是因为大数的模幂运算（如 pow(r, n, nsquare) ，其中 n 是2048位， nsquare 是4096位）计算量巨大。

优化方向 ：

使用gmpy2库 ：这是C语言GMP库的Python封装，对大整数运算有极致优化。将核心的 pow 运算替换为 gmpy2.powmod ，性能可提升数十倍。
```
import gmpy2
# 替换 pow(a, b, m) 为：
c = (1 + n * m) * gmpy2.powmod(r, n, nsquare) % nsquare
```
预计算 ：在已知公钥 (n, g) 且 g=n+1 的情况下，加密公式中的 r^n mod n^2 可以针对不同的 r 预计算吗？不能，因为 r 是每次加密随机生成的。但一些特定的加速算法（如使用中国剩余定理CRT）可以在解密端应用。
密钥长度选择 ：在非极端安全要求的场景下（如联邦学习中对梯度进行加密），结合业务实际威胁模型，可能可以使用更短的密钥（如1024位）以换取吞吐量，但这需要安全评估。
使用现有库 ：对于生产环境，强烈推荐使用经过充分测试和优化的库，如 phe (Python Paillier Homomorphic Encryption)。我们的实现主要用于教育和理解原理。

5. 常见问题、调试技巧与安全考量

自己实现密码学算法，一不小心就会掉进坑里。下面是我踩过的一些坑和解决办法。

5.1 问题排查清单

问题现象	可能原因	排查步骤与解决方案
解密结果不正确	1. `L` 函数使用了浮点除法 `/` 。 2. 计算 `μ` 时模逆算错。 3. 明文 `m` 超出范围 `[0, n)` 。 4. 随机数 `r` 与 `n` 不互质（概率极低但存在）。	1. 检查 `L` 函数：确认使用 `(x-1) // n` 。 2. 验证密钥：检查 `λ * μ mod n` 是否等于1。 3. 添加断言：在加密前检查 `0 <= m < n` 。 4. 强化随机数：在 `r` 循环中，确保 `gcd(r, n)==1` 。
同态加法结果错误	1. 同态加法使用了错误的模数（用了 `n` 而不是 `n^2` ）。 2. 参与运算的两个密文不是由同一个公钥加密的。	1. 检查模数：同态加法和标量乘法必须在模 `n^2` 下进行。 2. 确保密钥一致：整个系统应使用同一对密钥。
性能极慢（密钥生成）	素数生成算法效率低，或密钥长度设置过长。	1. 使用概率性测试：米勒-拉宾足够快且可靠。 2. 调整密钥长度：测试用512/1024位，生产用2048位。 3. 考虑预生成密钥：密钥不需要频繁更换。
性能极慢（加解密）	大数模幂运算开销大。	1. 使用 `gmpy2` 加速核心运算。 2. 审视场景：Paillier本身较慢，是否所有数据都需要加密？能否在应用层做优化？
密文长度翻倍	这是正常现象。密文空间是模 `n^2` ，所以密文长度约是明文长度的两倍。	理解并接受这个开销。这是Paillier算法的特性。

5.2 安全实现要点

随机数源 ： random 模块不适合密码学。生产代码中，生成素数 p 、 q 和随机数 r 必须使用密码学安全的随机数生成器（CSPRNG），如 secrets 模块或 os.urandom() 。
```
import secrets
# 生成指定位数的安全随机奇数
def secure_odd_int(bit_length):
    return secrets.randbits(bit_length) | 1
```
密钥管理 ：私钥（尤其是 λ ）必须绝对保密。公钥 (n, g) 可以公开。实现中，在 _generate_keys 方法计算完 λ 和 μ 后，应立即将 p 和 q 从内存中清除（例如，赋值 None 或使用专门的安全内存区域）。
侧信道攻击 ：我们这份基础实现没有考虑时序攻击等侧信道攻击。例如，解密时间可能与密文值有关。高安全等级的应用需要使用恒定时间的算法实现，这通常需要依赖底层库（如 gmpy2 的某些恒定时间函数）或硬件安全模块。
数据编码 ：Paillier加密的是非负整数。如果要加密浮点数或负数，需要先进行编码。常见方案是使用定点数编码（如将浮点数乘以一个缩放因子 scale 后取整）和二进制补码表示负数。 必须确保编码后的整数在 [0, n) 范围内 ，否则同态性质可能被破坏。

5.3 应用场景延伸思考

理解了实现，我们再来看看它能用在哪里：

安全电子投票 ：每个投票被加密为密文，计票中心可以在不解密的情况下累加所有选票，得到加密的总票数，最后仅解密总数，保护了每个投票者的选择。
隐私保护的数据聚合 ：就像开头提到的风控案例，多个数据方提供加密后的数据，聚合方进行密文求和、求平均等操作，最终只得到聚合结果，看不到个体数据。
联邦学习中的梯度保护 ：在联邦学习训练过程中，客户端上传的模型梯度是敏感信息。客户端可以用服务端的公钥加密梯度，服务端在密文上聚合梯度，再解密用于更新全局模型。这样服务端从未看到明文的客户端梯度。
加密数据库查询 ：客户端可以提交加密的查询条件，服务器在加密的数据上进行特定运算（如同态加法），将加密的结果返回给客户端解密。这被称为“可搜索加密”或“同态查询”的雏形。

实现完这个算法，我最大的体会是，密码学不再是黑盒。当你亲手用代码还原出 c = (1 + n*m) * r^n mod n^2 这个魔法般的公式，并验证 Dec(c1 * c2) = m1 + m2 时，那种对数学之美和工程精妙的感触，是单纯调用API无法比拟的。它让你在设计和评估一个隐私保护方案时，心里更有底。当然，对于真实项目，我还是会毫不犹豫地选择 phe 这样的成熟库，但这段自己动手实现的经历，无疑让我成为了一个更懂它的用户。

亚马逊云科技技术品牌专区

更多推荐

WSaiOS认知内核：一种模块化可解释人工智能操作系统核心的设计与实现

亚马逊云科技技术品牌专区

GEO系统实战指南：提升网站流量与AI引荐率的3大关键技术

GEO系统已成为解决网站流量下降和提升AI引荐率的有效工具。通过去中心化流控、多引擎调度和智能合规校验，格子GEO系统为批量内容运营提供了安全高效的解决方案。包括知识库、拓词、一键授权发布等模块，构成了完整产品体系。未来随着生成式AI持续渗透，GEO技术的应用场景将进一步扩展。GEO系统流控模块示例。