Paillier同态加密算法原理与Python代码实现详解

贝叶斯蝴蝶

299人浏览 · 2026-06-29 14:47:41

贝叶斯蝴蝶 · 2026-06-29 14:47:41 发布

1. 项目概述：为什么我们需要Paillier加密？

在数据安全领域，加密算法是基石。我们熟知的RSA、AES等算法，解决了数据的机密性问题，但它们有一个共同的局限：一旦数据被加密，就变成了一个“黑盒”，无法直接对密文进行计算。这意味着，如果你想对加密后的数据进行求和、求平均值等操作，唯一的办法是先解密，计算，再加密。这个过程不仅繁琐，更关键的是，它要求数据持有者（比如云服务商）必须拥有解密密钥，这无疑将原始数据暴露在了风险之中。

这就是同态加密（Homomorphic Encryption）要解决的痛点。它允许在密文上直接进行特定运算，运算结果解密后，与对明文进行相同运算的结果一致。Paillier加密算法，正是同态加密家族中一颗璀璨的明珠，它实现了 加法同态 。简单来说，给定两个数的密文，我们可以直接在密文上做加法，得到的结果解密后，就是那两个明文数字的和。这个特性在隐私计算、安全多方计算、电子投票、区块链、联邦学习等场景下具有革命性的意义。例如，多家医院可以在不泄露各自病人数据的前提下，共同计算某种疾病的平均发病率；云服务商可以在不解密用户数据的情况下，为用户提供数据统计服务。

“Paillier加密代码实现”这个项目，就是深入这个密码学宝库，亲手将理论转化为可运行的代码。它不仅仅是调用一个库函数，而是从底层理解密钥生成、加密、解密以及核心的同态加性运算是如何一步步构建起来的。这对于安全工程师、隐私计算研究员以及对密码学有浓厚兴趣的开发者来说，是一次绝佳的实践机会。通过实现它，你能深刻理解大数运算、模幂运算、数论知识（如欧拉函数、Carmichael函数）在实际加密系统中的应用，其价值远超一个简单的“Hello World”。

2. 算法核心原理与数学基础拆解

在动手写代码之前，我们必须吃透Paillier算法的数学内核。这是确保实现正确、理解每一步“为什么”的关键。Paillier是一种基于复合剩余类难题的公钥加密系统。

2.1 密钥生成：构建安全的基础

Paillier的密钥生成围绕两个大素数 p 和 q 展开。整个过程可以分解为以下步骤：

选择大素数 ：随机选择两个独立的大素数 p 和 q 。这里“大”意味着至少1024位，以确保足够的安全性对抗因子分解攻击。 p 和 q 必须长度相近，但绝不能相等。
计算模数 n 和 n² ：计算 n = p * q 。这里的 n 就是RSA中的模数，其因式分解的困难性构成了Paillier的安全性基础。同时，我们还需要 n 的平方 n² ，因为加密和解密运算都在模 n² 下进行。
计算λ (lambda) ：计算 λ = lcm(p-1, q-1) ，即 p-1 和 q-1 的最小公倍数。 λ 是Carmichael函数在 n 上的取值，它是解密密钥的核心部分。使用最小公倍数而非乘积 (p-1)*(q-1) （即欧拉函数 φ(n)）是Paillier算法的一个精巧设计，它能保证解密过程对更多消息有效。
选择生成元 g ：随机选择一个整数 g ，其中 g ∈ Z_{n²}^{*} （即小于 n² 且与 n² 互质的正整数集合）。通常，为了简化计算和保证正确性，一个广泛采用的简便方法是直接令 g = n + 1 。可以证明，当 g = n + 1 时，能够满足算法所需的数学性质，并且能极大简化加密过程中的部分计算。
验证μ (mu) 的存在性 ：定义函数 L(x) = (x - 1) / n 。我们需要确保 μ = (L(g^λ mod n²))^{-1} mod n 这个值存在。当 g = n + 1 时，这个条件自动满足，且 μ 的计算有简化公式。 μ 是解密密钥的另一部分。

最终，公钥是 (n, g) ，私钥是 (λ, μ) 或 (λ, n) （因为 μ 可以从 λ 和 n 推导）。

注意：在实际代码实现中，素数生成需要使用密码学安全的随机数生成器（CSPRNG），如系统提供的 /dev/urandom 或相关库函数。绝对不能用普通的伪随机数，否则会严重破坏安全性。

2.2 加密与解密：消息的伪装与还原

假设我们要加密一个明文消息 m ，其中 0 ≤ m < n 。

加密过程 ：
1. 随机选择一个整数 r ，满足 0 < r < n 且 gcd(r, n) = 1 （即 r 与 n 互质）。 r 的随机性确保了同一明文每次加密都会产生不同的密文，这是语义安全所必需的。
2. 计算密文 c = g^m * r^n mod n² 。当 g = n + 1 时，公式可以优化为： c = ((1 + n*m) mod n²) * (r^n mod n²) mod n² 。这个优化避免了直接计算 (n+1)^m 这个大数幂运算，提升了效率。
解密过程 ：
1. 计算 u = L(c^λ mod n²) 。
2. 计算明文 m = (u * μ) mod n 。当 g = n + 1 时， μ 满足 μ ≡ λ^{-1} (mod n) ，因此解密公式可简化为： m = (L(c^λ mod n²) * μ) mod n 。

2.3 同态加法：魔法的核心

这是Paillier最迷人的地方。假设有两个密文 c1 = Enc(m1) 和 c2 = Enc(m2) 。 加法同态性质 ： Dec(c1 * c2 mod n²) = m1 + m2 mod n 。

原理：根据加密公式 c = g^m * r^n mod n² 。那么 c1 * c2 mod n² = (g^{m1} * r1^n) * (g^{m2} * r2^n) mod n² = g^{m1+m2} * (r1*r2)^n mod n² 。这个结果正好符合 m’ = m1+m2 ， r’ = r1*r2 的加密形式。因此，解密后自然得到 m1+m2 。

标量乘法同态 ： Dec(c1^k mod n²) = k * m1 mod n 。这本质上是同态加法的特例（同一个密文相加k次）。

3. 代码实现：从理论到实践

我们将使用Python进行实现，因为它拥有丰富的数学库（ gmpy2 ）来处理大整数运算。首先确保安装必要的库： pip install gmpy2 。

3.1 密钥生成模块实现

import gmpy2
from gmpy2 import mpz, mpz_random, random_state
import secrets

class PaillierKeyGenerator:
    def __init__(self, key_length=1024):
        """
        初始化密钥生成器
        :param key_length: 密钥长度（比特），n的长度约为key_length
        """
        self.key_length = key_length
        self.rs = random_state(secrets.randbits(256)) # 使用密码学安全种子初始化随机状态

    def _generate_large_prime(self, bits):
        """生成一个指定位数的大素数"""
        while True:
            # 生成一个随机的奇数
            candidate = mpz_random(self.rs, mpz(2)**bits) | 1
            # 使用gmpy2的素数检测，reps=50保证高概率正确
            if gmpy2.is_prime(candidate, reps=50):
                return candidate

    def generate_keys(self):
        """生成Paillier公钥和私钥"""
        # 1. 生成两个大素数p和q
        p_bits = self.key_length // 2
        q_bits = self.key_length - p_bits # 使p和q长度接近但略有不同
        p = self._generate_large_prime(p_bits)
        q = self._generate_large_prime(q_bits)
        # 确保p和q不相等
        while p == q:
            q = self._generate_large_prime(q_bits)

        # 2. 计算n和n_squared
        n = p * q
        n_squared = n * n

        # 3. 计算λ = lcm(p-1, q-1)
        p_1 = p - 1
        q_1 = q - 1
        lam = gmpy2.lcm(p_1, q_1)

        # 4. 选择g = n + 1 (简化方案)
        g = n + 1

        # 5. 计算μ = (L(g^λ mod n²))^{-1} mod n
        # 当g = n+1时，L(g^λ mod n²) = λ (简化推导)
        # 因此 μ = λ^{-1} mod n
        mu = gmpy2.invert(lam, n)

        public_key = {'n': n, 'g': g, 'n_squared': n_squared}
        private_key = {'lam': lam, 'mu': mu, 'n': n, 'p': p, 'q': q} # 保存p,q仅用于演示，实际可只存lam,mu,n

        return public_key, private_key

# 使用示例
if __name__ == "__main__":
    generator = PaillierKeyGenerator(key_length=512) # 测试使用512位，实际应用至少1024位
    pub_key, priv_key = generator.generate_keys()
    print(f"公钥 n: {pub_key['n']}")
    print(f"公钥 g: {pub_key['g']}")
    print(f"私钥 λ: {priv_key['lam']}")
    print(f"私钥 μ: {priv_key['mu']}")

实操心得 ：

素数生成 ： gmpy2.is_prime 使用Miller-Rabin概率测试， reps=50 已足够确保商业级安全。绝对不要自己实现素数检测。
随机性 ： secrets.randbits(256) 为随机状态提供高熵种子，这是安全性的源头。 random_state 对象用于生成后续的随机大数。
密钥存储 ：实际应用中，私钥的 p 和 q 在计算完 λ 后应立即从内存中安全擦除，只持久化存储 (λ, μ, n) 或 (λ, n) ，以减少敏感信息泄露风险。

3.2 加密与解密模块实现

class PaillierCryptoSystem:
    def __init__(self, public_key=None, private_key=None):
        self.public_key = public_key
        self.private_key = private_key

    def set_public_key(self, public_key):
        self.public_key = public_key

    def set_private_key(self, private_key):
        self.private_key = private_key

    def _L(self, x, n):
        """定义L函数: L(x) = (x - 1) // n"""
        return (x - 1) // n

    def encrypt(self, m):
        """
        加密明文整数m
        :param m: 明文，需满足 0 <= m < n
        :return: 密文c
        """
        n = self.public_key['n']
        g = self.public_key['g']
        n_squared = self.public_key['n_squared']

        # 1. 验证明文范围
        if m < 0 or m >= n:
            raise ValueError(f"明文m必须在[0, {n})范围内，当前m={m}")

        # 2. 选择随机数r，满足 1 <= r < n 且 gcd(r, n) = 1
        while True:
            # 生成[1, n-1]范围内的随机数
            r = mpz_random(random_state(secrets.randbits(256)), n - 1) + 1
            if gmpy2.gcd(r, n) == 1:
                break

        # 3. 计算密文 (使用g=n+1的优化公式)
        # c = ((1 + n*m) mod n²) * (r^n mod n²) mod n²
        part1 = (1 + n * m) % n_squared
        part2 = gmpy2.powmod(r, n, n_squared)
        c = (part1 * part2) % n_squared

        return c

    def decrypt(self, c):
        """
        解密密文c
        :param c: 密文
        :return: 明文m
        """
        lam = self.private_key['lam']
        mu = self.private_key['mu']
        n = self.private_key['n']
        n_squared = n * n

        # 1. 验证密文范围
        if c <= 0 or c >= n_squared or gmpy2.gcd(c, n_squared) != 1:
            raise ValueError("密文c无效或与n²不互质")

        # 2. 计算 u = L(c^λ mod n²)
        c_lam_mod = gmpy2.powmod(c, lam, n_squared)
        u = self._L(c_lam_mod, n)

        # 3. 计算明文 m = u * μ mod n
        m = (u * mu) % n

        return m

# 使用示例
pub_key, priv_key = generator.generate_keys()
crypto = PaillierCryptoSystem(pub_key, priv_key)

m1 = mpz(123456789)
print(f"明文 m1: {m1}")

c1 = crypto.encrypt(m1)
print(f"密文 c1: {c1}")

m1_decrypted = crypto.decrypt(c1)
print(f"解密后: {m1_decrypted}")
assert m1 == m1_decrypted, "解密失败！"
print("加密解密测试通过！")

注意事项 ：

明文空间 ：Paillier加密的明文必须是小于 n 的非负整数。如果需要加密负数或浮点数，需要预先进行编码（如将浮点数定点化，将负数映射到正数区间）。
随机数 r ：每次加密都必须使用新的、密码学安全的随机数 r 。重用 r 会导致相同的明文产生相同的密文，破坏语义安全性，攻击者可能通过统计分析破解。
解密验证 ：解密时检查 gcd(c, n²) = 1 是一个良好的习惯，可以及早发现无效或恶意的密文输入。

3.3 同态运算模块实现

这是体现Paillier价值的核心模块。

    def homomorphic_add(self, c1, c2):
        """
        同态加法：返回加密了 (m1 + m2) 的密文
        :param c1: 密文1 (Enc(m1))
        :param c2: 密文2 (Enc(m2))
        :return: 密文 (Enc(m1 + m2 mod n))
        """
        n_squared = self.public_key['n_squared']
        # 核心操作：密文相乘模 n²
        c_sum = (c1 * c2) % n_squared
        return c_sum

    def homomorphic_add_plain(self, c, m2):
        """
        明文与密文的同态加法：返回加密了 (m1 + m2) 的密文
        这是对“标量乘法”的一种高效利用。
        :param c: 密文 (Enc(m1))
        :param m2: 明文整数
        :return: 密文 (Enc(m1 + m2 mod n))
        """
        n = self.public_key['n']
        n_squared = self.public_key['n_squared']
        # Enc(m1 + m2) = Enc(m1) * g^{m2} mod n²
        # 当 g = n+1 时，g^{m2} mod n² = (1 + n*m2) mod n²
        g_m2 = (1 + n * m2) % n_squared
        c_sum = (c * g_m2) % n_squared
        return c_sum

    def homomorphic_mul_plain(self, c, k):
        """
        密文与明文的标量乘法：返回加密了 (k * m1) 的密文
        :param c: 密文 (Enc(m1))
        :param k: 明文整数（标量）
        :return: 密文 (Enc(k * m1 mod n))
        """
        n_squared = self.public_key['n_squared']
        # Enc(k * m1) = Enc(m1)^k mod n²
        c_scalar = gmpy2.powmod(c, k, n_squared)
        return c_scalar

# 测试同态性质
print("\n--- 同态性质测试 ---")
m1 = mpz(20)
m2 = mpz(30)

c1 = crypto.encrypt(m1)
c2 = crypto.encrypt(m2)

# 测试同态加法
c_sum = crypto.homomorphic_add(c1, c2)
m_sum_decrypted = crypto.decrypt(c_sum)
print(f"m1 = {m1}, m2 = {m2}")
print(f"密文相加后解密: {m_sum_decrypted} (期望: {m1 + m2})")
assert m_sum_decrypted == (m1 + m2) % pub_key['n']

# 测试明文-密文加法
c_sum_plain = crypto.homomorphic_add_plain(c1, m2)
m_sum_plain_decrypted = crypto.decrypt(c_sum_plain)
print(f"密文c1与明文m2相加后解密: {m_sum_plain_decrypted} (期望: {m1 + m2})")
assert m_sum_plain_decrypted == (m1 + m2) % pub_key['n']

# 测试标量乘法
k = mpz(5)
c_mul = crypto.homomorphic_mul_plain(c1, k)
m_mul_decrypted = crypto.decrypt(c_mul)
print(f"密文c1乘以明文k={k}后解密: {m_mul_decrypted} (期望: {m1 * k})")
assert m_mul_decrypted == (m1 * k) % pub_key['n']

print("所有同态运算测试通过！")

实操心得 ：

运算的模数 ：同态运算（加法和标量乘）始终在模 n² 下进行。这是由加密算法的数学定义决定的，编码时务必注意。
明文空间溢出 ：同态加法 m1+m2 的结果可能超过 n ，此时会发生模 n 溢出。这是Paillier算法定义的一部分，应用层需要意识到这一点。例如，如果你编码时用 [0, n) 表示正数，用 [n/2, n) 表示负数（采用二进制补码思想），那么同态加法仍然能正确工作，包括处理正负数的混合运算。
性能考量 ： homomorphic_add 仅是一次模乘，速度极快。 homomorphic_mul_plain 涉及模幂运算，开销较大。在设计协议时，应尽量减少密文-密文乘法（Paillier原生不支持，需通过其他技术如重加密实现）和标量乘法次数。

4. 高级话题、优化与实战陷阱

实现基础功能后，我们需要关注如何让它更健壮、更高效，并避开常见的坑。

4.1 编码问题：如何加密实数、负数或字符串？

Paillier本身只加密整数。实际数据需要编码。

浮点数 ：采用定点数编码。例如，要加密保留3位小数的浮点数 12.345 ，可以将其乘以 1000 得到整数 12345 进行加密。解密后再除以 1000 。缩放因子 S=1000 需要作为公共参数。同态加法和标量乘法后，缩放因子保持不变（ S 或 S^k ）。
负数：采用偏移编码。设定一个偏移量 B （如 B = n/2 ）。对于负数 -x ，加密 B - x ；对于正数 x ，加密 B + x 。解密后，结果大于 B 则为正数 (值-B) ，小于 B 则为负数 (B-值) 。这要求 n 足够大，以确保运算后不会“绕回”到错误的区间。
字符串/复杂数据 ：先序列化为字节流，再将字节流解释为一个大的整数。但需要注意，这个整数必须小于 n 。通常需要结合对称加密（如AES）和Paillier：用Paillier加密一个随机的AES密钥，再用这个AES密钥加密实际数据。这就是混合加密系统。

4.2 性能优化技巧

预计算 ：对于固定的公钥 (n, g) ，可以预计算 g 关于 n² 的某些幂次表，或者预计算 n 和 n² 的常量。在加密函数中， r^n mod n² 的计算是重头戏，但 r 是随机的，无法预计算。不过，可以使用更快的模幂算法（如滑动窗口法）， gmpy2.powmod 内部已经做了高度优化。
使用中国剩余定理（CRT）加速解密 ：这是最显著的优化。解密需要计算 c^λ mod n² ，这是一个大数模幂运算。利用私钥中的 p 和 q ，我们可以分别在模 p² 和 q² 下计算，然后用CRT合并结果。这可以将计算量降低到原来的约1/4。 gmpy2 库的 powmod 函数可能内部利用了类似优化，但自己实现CRT版本能获得最大控制权。
选择更小的 λ ： λ = lcm(p-1, q-1) 可能很大。实际上，我们可以使用 λ' = φ(n) = (p-1)*(q-1) 来代替 λ ，只要满足 g 的阶是 n 的倍数。但使用 λ （Carmichael函数值）是标准做法，能保证对任意满足条件的 g 都正确。如果确定使用 g=n+1 ，理论上可以使用更小的数，但这会偏离标准，影响互操作性。

4.3 常见问题与调试实录

解密结果不正确 ：
- 首要检查 ：确认加密和解密使用的是 同一对密钥 。这听起来很基础，但在分布式系统或密钥轮换场景下极易出错。
- 检查明文范围 ：确保待加密的整数 m 严格满足 0 ≤ m < n 。一个常见的错误是编码后的整数（如缩放后的浮点数）超出了这个范围。
- 验证随机数 r ：确保在加密时，随机数 r 与 n 互质。我们的代码中通过循环来保证，但如果你自己实现随机数生成，务必加入 gcd(r, n) == 1 的判断。
- 核对 L 函数 ： L(x) = (x-1)/n 必须是整数除法（在Python中是 // ）。确保在解密计算 u = L(c^λ mod n²) 时， c^λ mod n² 的结果确实满足 (结果 - 1) % n == 0 ，这是算法正确性的数学保证。如果不成立，说明密钥生成、加密或密文传输中出现了错误。
同态加法结果模 n 溢出 ：
- 现象：加密 m1 和 m2 ，同态相加后解密得到的结果不是 m1+m2 ，而是 (m1+m2) mod n 。
- 原因与对策 ：这不是错误，而是算法定义。应用层必须处理模运算。要么确保你的应用场景中 m1+m2 < n 恒成立（例如，通过选择足够大的 n 或限制数据范围），要么在编码方案中就将模溢出纳入考虑（如上述的负数编码方案）。
性能瓶颈 ：
- 密钥生成 ：生成1024位或2048位的大素数是最耗时的步骤，但通常只需执行一次。
- 加密操作 ：主要的开销在计算 r^n mod n² 。确保使用 gmpy2.powmod(r, n, n_squared) 而不是先计算 r**n 再取模。
- 解密操作 ：计算 c^λ mod n² 是性能瓶颈。如前所述，考虑实现CRT优化。
密文膨胀 ：Paillier密文大小是明文的两倍（因为模数是 n² ）。一个2048位的 n 会产生4096位的密文。这在传输和存储上会有显著开销。这是所有同态加密的共性代价。

5. 实战应用场景与代码整合示例

最后，我们通过一个简化的“安全投票统计”场景，将上述模块整合起来，展示Paillier的威力。

场景：三个投票者，对一项提案投票（赞成=1，反对=0）。一个计票中心收集加密选票，并计算总赞成票数，但无法知道每个人的投票内容。

class SecureVoting:
    def __init__(self, key_length=512):
        self.key_gen = PaillierKeyGenerator(key_length)
        self.pub_key, self.priv_key = self.key_gen.generate_keys()
        self.crypto = PaillierCryptoSystem(self.pub_key, self.priv_key)
        # 计票中心初始化一个“零”的密文：Enc(0)
        self.zero_cipher = self.crypto.encrypt(mpz(0))

    def vote(self, choice):
        """投票者加密自己的选票（choice: 1 或 0）"""
        if choice not in (0, 1):
            raise ValueError("选票必须是0或1")
        encrypted_vote = self.crypto.encrypt(mpz(choice))
        return encrypted_vote

    def aggregate_votes(self, encrypted_votes):
        """计票中心聚合加密选票"""
        total_cipher = self.zero_cipher
        for vote_cipher in encrypted_votes:
            total_cipher = self.crypto.homomorphic_add(total_cipher, vote_cipher)
        return total_cipher

    def decrypt_result(self, aggregated_cipher):
        """计票中心（或授权方）解密最终结果"""
        total = self.crypto.decrypt(aggregated_cipher)
        return total

# 模拟投票过程
print("\n--- 安全投票统计模拟 ---")
election = SecureVoting(key_length=512)

# 三位投票者分别加密他们的选票
votes = [1, 0, 1]  # 赞成，反对，赞成
encrypted_votes = [election.vote(v) for v in votes]
print(f"投票者1（赞成）加密选票: {encrypted_votes[0]}")
print(f"投票者2（反对）加密选票: {encrypted_votes[1]}")
print(f"投票者3（赞成）加密选票: {encrypted_votes[2]}")

# 计票中心聚合密文
final_tally_cipher = election.aggregate_votes(encrypted_votes)
print(f"\n计票中心聚合后的密文: {final_tally_cipher}")

# 授权方解密最终结果
final_result = election.decrypt_result(final_tally_cipher)
print(f"解密后的总赞成票数: {final_result}")
print(f"实际投票情况: {votes}, 总和应为: {sum(votes)}")
assert final_result == sum(votes), "计票结果错误！"

这个例子清晰地展示了同态加密的流程：数据在加密状态下被处理，只有最终结果才被解密，有效保护了过程中的个体隐私。

实现一个完整的Paillier加密系统，就像亲手搭建了一座连接数据隐私与可用性的桥梁。从数论原理的理解，到安全随机数的生成，再到同态运算的巧妙实现，每一步都充满了挑战与乐趣。我个人的体会是，密码学实现中， “正确性”永远优先于“性能” 。在初期，应该使用小参数进行详尽的测试，比如用很小的 p 和 q ，手动验证每一步的中间计算结果，确保与数学公式完全吻合。然后，再逐步替换为安全的大素数，并加入性能优化。

另一个深刻的教训是关于 随机性 。在测试时，为了方便调试，你可能会想固定随机数种子。但在任何面向生产环境的代码中，这绝对是致命的。务必使用密码学安全的随机源，并且理解算法中每一个需要随机性的环节（如密钥生成中的 p , q , r ）。

最后，Paillier只是同态加密的起点。全同态加密（FHE）能支持任意计算，但效率目前仍难以满足大多数实时场景。Paillier在加法同态这个特定需求上，在安全与效率之间取得了完美的平衡，这也是它历经二十余年依然被广泛研究和应用的原因。当你需要在不暴露数据的前提下进行求和、求均值、加权统计等操作时，Paillier无疑是你工具箱中一件强大而优雅的武器。