逆向知乎x-zse-96签名：从JS定位到Python复现的完整实战

刘子栋

480人浏览 · 2026-06-19 11:50:13

刘子栋 · 2026-06-19 11:50:13 发布

1. 项目概述与核心价值

最近在搞数据采集或者做自动化工具的朋友，可能都遇到过知乎这个“硬骨头”。它的接口防护，尤其是那个叫 x-zse-96 的签名参数，算是国内Web逆向里一个挺经典的案例了。这玩意儿不是简单的Cookie或者Token，而是一个动态生成的、与请求内容强绑定的加密签名，直接决定了你的请求能否被服务器接受。网上虽然有一些零零散散的教程，但要么语焉不详，要么代码已经失效。今天，我就以一个爬虫工程师的视角，带大家完整地走一遍从浏览器断点调试定位核心算法，到最终用Python实现稳定调用的全过程。这个过程不仅适用于知乎，其“定位-分析-还原”的逆向思路，对于处理其他平台的类似加密（比如某音的 X-Bogus 、某手的 sign ）都有很强的借鉴意义。

简单来说， x-zse-96 是知乎用于校验API请求合法性的核心参数。你光有登录后的Cookie是不够的，每次发起请求（比如搜索、获取回答列表），客户端都必须根据当前请求的URL、Cookie中的某个关键值以及一个固定的“版本号”，通过一套特定的算法计算出一个字符串，放在请求头的 x-zse-96 字段里。服务器收到后会用同样的逻辑验算，对不上就直接返回403。我们的目标，就是把这套客户端的算法逻辑，用Python复现出来。

2. 逆向环境准备与核心思路

工欲善其事，必先利其器。逆向分析前端JavaScript代码，一套顺手的工具链能让你事半功倍。

2.1 工具选型与配置

首先，浏览器是主战场。 Chrome DevTools 或 Microsoft Edge DevTools 是首选，它们的开发者工具功能完全一致且强大。重点关注“源代码（Sources）”面板和“网络（Network）”面板。

光有浏览器还不够，面对可能被混淆、压缩过的代码，我们需要一些“解码器”：

AST解析工具 ：这是处理复杂混淆代码的利器。我强烈推荐 Babel 。你可以通过 npm 安装 @babel/parser , @babel/traverse , @babel/generator 这几个包。当你在JS里找到了一坨看起来像“天书”的、但结构上像是加密函数的代码块时，可以把它拷贝出来，用Babel解析成抽象语法树（AST），然后通过遍历AST来尝试反混淆，比如还原变量名、简化控制流。虽然知乎当前的混淆不算最变态的，但掌握这个工具对未来大有裨益。
本地调试代理 ：为了能随意修改、重放请求，并查看修改后的效果，配置一个代理工具非常有用。 Fiddler Everywhere 或 Charles 都可以。它们能拦截所有经过浏览器的HTTP/HTTPS流量，让你可以暂停请求、修改请求头（比如我们最终生成的 x-zse-96 ）、然后转发，方便验证你的算法是否正确。
Python环境 ：最终复现算法的地方。建议使用Python 3.7以上版本。需要提前安装的库主要有： requests （用于发送HTTP请求）、 execjs （用于执行还原出来的JavaScript代码片段）或 PyExecJS ，以及一些辅助库如 json , time , hashlib 等。我个人更倾向于用 execjs ，因为它调用本地Node.js环境，兼容性更好。

注意：逆向工程务必在法律法规和网站 robots.txt 允许的范围内进行，仅用于学习和技术研究。大规模、高频的请求会对目标网站造成压力，请控制请求频率，遵守道德规范。

2.2 逆向分析的核心方法论

面对一个未知的加密参数，切忌一头扎进数万行的压缩JS里。科学的流程能极大提升效率：

定位入口（关键） ：首先发起一个目标请求（例如在知乎网页版进行一次搜索），在开发者工具的“网络”面板中，找到这个请求。查看其请求头，确认 x-zse-96 字段存在。然后，在这个请求上右键，选择“以断点方式中断请求头”（在Chrome中是“Break on” -> “Request headers”）。这个操作是 最关键的一步 ，它会在浏览器即将发送包含 x-zse-96 的请求时，自动暂停所有JavaScript执行，并将执行上下文定位到设置请求头的代码附近。
调用栈分析 ：当断点触发后，立即查看“调用堆栈（Call Stack）”面板。这里会显示从断点处往回追溯的函数调用链。你需要从堆栈的底部（通常是事件触发入口）或顶部（最近的函数）开始，逐个点击，查看对应的源代码。寻找那些函数名中可能包含 sign 、 encrypt 、 zse 、 x-zse 等关键词，或者函数体内有明显的字符串拼接、哈希运算（如 MD5 、 SHA ）、 CryptoJS 、或 window._ 之类可疑对象的代码。
逻辑追踪与简化 ：找到疑似函数后，不要急于全部理解。在关键行设置行断点，然后让代码继续执行（F8或F10），观察变量的变化。特别是关注哪些变量最后被赋值给了 x-zse-96 。利用“监视（Watch）”窗口添加对关键变量的监视。这个过程就像侦探破案，跟着线索（数据流）走。
算法提取与验证 ：将最终生成签名的核心代码片段（可能是一个函数或几行关键操作）提取出来。尝试在开发者工具的“控制台（Console）”中，用当前的参数手动执行这个函数，看输出是否与请求头中的值一致。如果一致，恭喜你，找到了目标。

3. 定位x-zse-96生成逻辑

理论说再多不如实战。我们打开知乎首页，进行搜索（例如搜索“Python”），然后打开开发者工具。

3.1 网络请求拦截与断点设置

在“网络”面板中，清空记录，然后进行搜索。你会看到一系列请求，其中通常有一个 api/v4/search_v3?t=general&q=Python... 这样的请求。点击这个请求，在右侧“标头（Headers）”部分向下翻，在“请求头（Request Headers）”里一定能找到 x-zse-96 ，它的值是一长串看起来像Base64的字符串。

接下来，在这个请求上右键，选择“以断点方式中断请求头”。然后，在浏览器中 重新触发一次搜索 （比如换个关键词）。此时，浏览器会立即在发送请求前暂停，并自动跳转到“源代码（Sources）”面板，光标会停在一行代码上，这行代码通常是在设置请求头的逻辑里。

3.2 调用栈回溯与关键函数定位

暂停后，立即查看右侧的“调用堆栈（Call Stack）”。堆栈里可能会有很多匿名函数（显示为 (anonymous) ）或者被混淆过的函数名。我们需要从中寻找线索。

一个常见的模式是，设置 x-zse-96 的代码可能在某个通用的请求拦截器或封装函数里。在堆栈中，你可能会看到类似 interceptor 、 request 、 send 这样的函数名。点击这些栈帧，查看其源代码。

经过分析（具体函数名因知乎前端版本更新会变，但逻辑相似），你可能会定位到一个函数，其内部有如下关键代码片段：

var r = ‘101_3_3.0’ // 这是一个固定版本号
var a = ‘+’ + e.url.replace(‘https://api.zhihu.com’, ‘’); // e.url是API路径
var c = ‘+’ + i; // i 是从Cookie中提取的 ‘d_c0’ 字段的值
var s = [r, a, c].join(‘+’);
var l = window._sign(s); // 关键！调用了_sign函数进行签名
t.setHeader(‘x-zse-96’, ‘2.0_’ + l); // 设置请求头

这段代码非常清晰地展示了 x-zse-96 的构成：

固定版本前缀 ‘2.0_’ 。
核心签名 l ，由 window._sign 函数对字符串 s 计算得出。
字符串 s 由三部分用加号连接：版本字符串 r 、API路径 a 、以及Cookie中的 d_c0 值 c 。

那么，我们的目标就从“逆向 x-zse-96 ”变成了“逆向 window._sign 这个函数”。

3.3 剖析_sign函数

在源代码中搜索 _sign 或者查看 window._sign 的定义。你可能会找到一个被混淆但结构尚可辨认的函数。它内部很可能使用了类似 HMAC-SHA-256 或 AES 的算法。为了在控制台验证，我们可以提取关键部分。

假设我们找到了类似下面的简化逻辑（实际代码更复杂混淆）：

window._sign = function(t) {
    // 1. 对输入字符串 t 进行某种编码或哈希
    var e = CryptoJS.MD5(‘a_salt_value’ + t).toString();
    // 2. 进行一系列位运算和字符映射
    var n = … // 复杂的变换过程
    // 3. 返回固定长度的签名串
    return n;
}

此时，不要试图完全理解每一行混淆代码。我们的策略是“黑盒复制”：在控制台里，我们能调用 window._sign(‘101_3_3.0+/api/v4/search_v3?t=general&q=Python+你的d_c0值’) 并得到正确结果吗？如果可以，那么直接把这个 _sign 函数的完整代码（包括它依赖的任何全局变量或函数）复制出来，就是我们需要的算法。

实操心得 ：在复制代码时，务必注意作用域。混淆代码经常把一些关键常量或辅助函数放在闭包外层。你可以尝试在 _sign 函数定义处设置断点，然后单步执行（F11），进入函数内部，再将其所在的最外层闭包的整个代码块一起复制，这样能最大程度保证完整性。

4. Python复现签名算法

成功提取出 _sign 的JavaScript代码后，我们来到了用Python复现的阶段。这里有两条主要路径：纯Python实现或通过桥接调用JS代码。

4.1 方案选择：纯Python vs JS桥接

纯Python实现 ：优点是部署简单，不依赖外部环境，执行效率高。缺点是如果JS代码混淆得非常复杂（涉及大量浏览器环境特有的对象或非常诡异的位运算），完全翻译成Python可能工作量巨大且容易出错。
JS桥接（推荐） ：使用 execjs 库，直接在Python中创建一个JavaScript执行环境，把我们复制出来的那一大坨JS代码丢进去，然后像在浏览器控制台里一样调用 _sign 函数。优点是 快、准、稳 ，几乎可以100%还原。缺点是需要本地安装Node.js环境。

对于知乎的 x-zse-96 ，由于其算法相对稳定且我们已提取出核心函数，采用 JS桥接方案 是最高效可靠的选择。这样即使知乎前端小幅度更新混淆方式，只要核心算法没变，我们只需要替换提取的JS代码块即可。

4.2 使用ExecJS桥接JavaScript

首先安装必要的库：

pip install PyExecJS
# 或者 pip install execjs

确保你的系统已安装Node.js（ execjs 会自动检测并使用）。

接下来，我们将提取的JS代码保存到一个字符串中。假设我们提取出的代码定义了一个全局函数 window._sign ，并且可能依赖一些其他全局变量（比如 CryptoJS ）。我们需要在JS代码执行环境中模拟这些依赖。

步骤一：准备JS代码字符串 创建一个 zhihu_sign.js 文件，或者直接在Python中用多行字符串存储。关键是要包含 _sign 函数的完整定义及其所有依赖。例如：

// zhihu_sign.js 内容示例 (高度简化，实际代码很长)
CryptoJS = require(‘crypto-js’); // 如果原代码用了CryptoJS，我们需要在Node环境引入

// 这里粘贴你从浏览器中复制出来的、包含 _sign 函数定义的完整代码块
// 可能是一个立即执行函数表达式(IIFE)，里面定义了 window._sign = function(...){...}
// 注意：如果原代码是挂在 window 对象上，在Node环境里我们需要把它挂到 global 或者导出
function _sign(t) {
    // … 复杂的计算逻辑
    return result;
}

// 为了在Node/ExecJS环境中能调用，我们需要导出这个函数
module.exports = _sign;

在实际操作中，从浏览器直接复制出的代码可能是一个自执行匿名函数，它把结果赋值给 window._sign 。你需要稍作修改，使其能在Node.js模块系统中运行。通常的修改是：去掉最外层的 (function(){ ... })(); 包装，找到 window._sign = ... 这行，改为 module.exports = ... 对应的函数。

步骤二：Python调用

import execjs
import requests

# 1. 读取JS代码
with open(‘zhihu_sign.js‘, ‘r‘, encoding=‘utf-8‘) as f:
    js_code = f.read()

# 2. 创建JS执行环境并编译代码
ctx = execjs.compile(js_code)

# 3. 准备签名参数
api_path = ‘/api/v4/search_v3?t=general&q=Python‘
d_c0 = ‘“你的d_c0 cookie值”‘ # 从登录后的cookie中获取
version_str = ‘101_3_3.0‘

# 拼接签名字符串，注意格式：版本 + ‘+‘ + 路径 + ‘+‘ + d_c0
sign_str = f‘{version_str}+{api_path}+{d_c0}‘

# 4. 调用JS函数计算签名
try:
    # 假设我们导出的函数名就是 ‘_sign‘
    signature = ctx.call(‘_sign‘, sign_str)
    x_zse_96 = ‘2.0_‘ + signature
    print(f‘生成的 x-zse-96: {x_zse_96}‘)
except Exception as e:
    print(f‘调用JS函数失败: {e}‘)

# 5. 使用签名发起请求
headers = {
    ‘User-Agent‘: ‘Mozilla/5.0 ...‘,
    ‘Cookie‘: ‘你的完整Cookie，包含d_c0‘,
    ‘x-zse-96‘: x_zse_96,
    ‘x-zse-93‘: ‘101_3_3.0‘, # 通常也需要这个头
    ‘x-api-version‘: ‘3.0.76‘
}
url = f‘https://api.zhihu.com{api_path}‘
resp = requests.get(url, headers=headers)
print(resp.status_code)
print(resp.json())

4.3 关键参数获取与处理

这里有几个细节至关重要：

d_c0 的获取 ：这个值存在于登录后的Cookie中。你可以在浏览器登录知乎后，在开发者工具的“应用（Application）” -> “Cookie” 下找到 https://www.zhihu.com 域名下的 d_c0 项。它的值通常以 “AC…” 开头。在Python中，你需要将它作为字符串完整地放入 sign_str 中， 包括两端的双引号 。这是最容易出错的地方之一。
API路径 ：必须是完整的路径，但不包含域名。例如 /api/v4/search_v3?t=general&q=Python 。注意查询参数（ ? 后面的部分）也要原样包含。
版本号 ： ‘101_3_3.0‘ 和请求头里的 ‘x-zse-93: 101_3_3.0‘ 需要对应。这个版本号可能会随着知乎前端更新而变化，如果失效，需要重新从最新的网页代码中提取。

5. 完整请求流程封装与测试

为了便于使用，我们将上述步骤封装成一个类。

5.1 Python类封装

import execjs
import requests
from urllib.parse import quote

class ZhihuSigner:
    def __init__(self, js_file_path=‘zhihu_sign.js‘):
        “”“初始化签名器”“”
        with open(js_file_path, ‘r‘, encoding=‘utf-8‘) as f:
            js_code = f.read()
        self.ctx = execjs.compile(js_code)
        self.version = ‘101_3_3.0‘
        self.x_zse_93 = ‘101_3_3.0‘

    def get_x_zse_96(self, api_path: str, d_c0: str) -> str:
        “”“计算 x-zse-96 签名”“”
        # 注意：d_c0 值需要包含双引号
        sign_str = f‘{self.version}+{api_path}+{d_c0}‘
        try:
            signature = self.ctx.call(‘_sign‘, sign_str)
            return f‘2.0_{signature}‘
        except execjs.ExecJSError as e:
            print(f‘JS执行错误: {e}‘)
            return None

    def make_headers(self, cookie: str, api_path: str) -> dict:
        “”“生成包含签名的请求头”“”
        # 从cookie字符串中提取 d_c0
        # 简单实现，假设cookie字符串中包含 d_c0=“xxx”
        d_c0 = None
        for item in cookie.split(‘; ‘):
            if item.startswith(‘d_c0=‘):
                d_c0 = item.split(‘=‘, 1)[1]
                break
        if not d_c0:
            raise ValueError(‘Cookie中未找到 d_c0 字段‘)

        x_zse_96 = self.get_x_zse_96(api_path, d_c0)
        if not x_zse_96:
            raise RuntimeError(‘生成签名失败‘)

        headers = {
            ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36‘,
            ‘Cookie‘: cookie,
            ‘x-zse-96‘: x_zse_96,
            ‘x-zse-93‘: self.x_zse_93,
            ‘x-api-version‘: ‘3.0.76‘,
            ‘Referer‘: ‘https://www.zhihu.com/‘,
            ‘Origin‘: ‘https://www.zhihu.com‘,
        }
        return headers

# 使用示例
if __name__ == ‘__main__‘:
    signer = ZhihuSigner()
    your_cookie = ‘d_c0=“AC…”…; other_cookie=value;‘ # 你的完整cookie
    target_api = ‘/api/v4/search_v3?t=general&q=逆向‘

    headers = signer.make_headers(your_cookie, target_api)
    print(‘构造的请求头:‘, headers)

    response = requests.get(
        f‘https://api.zhihu.com{target_api}‘,
        headers=headers
    )
    print(‘状态码:‘, response.status_code)
    if response.status_code == 200:
        data = response.json()
        print(‘请求成功，数据示例:‘, data)
    else:
        print(‘请求失败:‘, response.text)

5.2 功能测试与验证

运行上面的代码，你应该能收到状态码为200的响应，并且返回JSON格式的搜索结果。如果返回403，说明签名计算有误。请按以下步骤排查：

检查 d_c0 格式 ：确保传入 get_x_zse_96 函数的 d_c0 字符串是 包含双引号 的完整值，且与Cookie中的完全一致。
检查API路径 ：确保路径与浏览器中捕获的请求路径完全一致，包括所有查询参数及其顺序。
验证JS代码 ：在Node.js命令行中单独运行你的 zhihu_sign.js ，用相同的参数调用 _sign 函数，看输出是否与Python中调用的一致。这可以隔离Python环境问题。
核对版本号 ：确认 version 和 x-zse-93 的值与当前知乎网页使用的版本一致。可以通过查看一次正常浏览器请求的请求头来获取。

6. 常见问题与深度排查指南

在实际操作中，你几乎一定会遇到各种问题。这里记录了几个最典型的“坑”和解决方案。

6.1 签名无效（403 Forbidden）

这是最常见的问题。除了上述的 d_c0 和路径问题，还有几个可能原因：

时间戳或动态参数 ：虽然 x-zse-96 的核心算法是固定的，但有些API的路径中可能包含时间戳或其他动态生成的参数（比如 _ts ）。你需要确保用于计算签名的路径和实际请求的路径 分毫不差 。仔细对比浏览器中成功请求的URL和你代码中拼接的URL。
Cookie失效或不全 ： d_c0 是核心，但某些API可能还需要验证登录状态（ z_c0 等）。确保你使用的Cookie是有效的、已登录的完整Cookie字符串。
JS代码环境缺失 ：你复制的JS代码可能依赖了浏览器全局对象（如 window 、 document ）或某些未定义的变量。在Node.js环境中运行这些代码会报错。你需要修改JS代码，用Node.js的方式模拟这些环境，或者找到不依赖这些环境的算法核心部分。例如，如果原代码用了 CryptoJS ，你需要在JS文件开头用 require(‘crypto-js’) 引入。

6.2 ExecJS执行报错

execjs._exceptions.ProgramError ：通常是JS代码本身在执行时抛出了错误。在 ctx.call() 外面加 try-catch，打印出详细的错误信息。然后回到Node.js环境下去调试这段JS代码。
execjs._exceptions.RuntimeError ：可能是没有安装Node.js，或者 execjs 找不到可用的JavaScript运行时。确保已安装Node.js并添加到系统PATH。

6.3 知乎前端代码更新

知乎的前端JavaScript会不定期更新，可能导致：

版本号变化 ： ‘101_3_3.0‘ 可能变成 ‘101_3_4.0‘ 或其他。需要重新从网络请求头中抓取。
算法微调 ： _sign 函数内部的实现可能发生变化。最明显的现象是，之前能用的签名突然全部失效，返回403。此时，你需要 重新走一遍逆向流程 ：用新的浏览器页面，设置请求头断点，定位新的 _sign 函数，并更新你的 zhihu_sign.js 文件。

深度避坑技巧 ：如何最小化更新成本？不要只复制 _sign 函数那一小段。在浏览器源代码面板，找到 _sign 函数定义后， 将其所在的整个脚本文件（通常是一个很大的、被混淆的.js文件）另存到本地 。然后，在你的JS桥接代码中，直接执行这个完整的脚本文件。这样，只要知乎没有更换整个加密方案，而只是在这个大文件内部调整，你的代码就有很大概率无需修改就能继续运行，因为算法依赖的所有函数和变量都在这个闭包内。

6.4 性能与优化建议

避免频繁创建上下文 ： execjs.compile() 是一个比较耗时的操作。在实际爬虫项目中，应该将 ZhihuSigner 类实例化为一个全局单例，或者至少重复使用同一个编译好的上下文 ctx 来调用不同的签名计算。
错误重试与降级 ：网络请求可能因签名偶尔计算偏差（极罕见）或临时风控而失败。实现简单的重试机制，并在连续失败后考虑重新获取Cookie或检查算法是否已失效。
保持Cookie新鲜 ：用于签名的 d_c0 存在于Cookie中，Cookie有有效期。需要实现Cookie的池化管理与自动更新机制，确保始终有有效的Cookie可用。

逆向工程是一个需要耐心和细致观察的过程。面对 x-zse-96 这样的参数，从断点调试切入，通过调用栈顺藤摸瓜找到核心函数，最后用JS桥接的方式稳定复现，是一条被验证过的高效路径。这套方法论的更大价值在于其普适性，当你下次遇到“某音_sign”、“某宝_token”时，就不会再感到无从下手了。记住，核心思路永远是： 拦截 -> 定位 -> 分析 -> 提取 -> 复现 。剩下的，就是耐心和一点点调试技巧。

亚马逊云科技技术品牌专区

更多推荐

Kiro Editor 开发实战：使用 Cargo 构建、测试与性能优化指南

欢迎来到这篇终极指南，我们将深入探索如何使用Rust构建高性能的终端文本编辑器Kiro Editor。无论你是Rust新手还是经验丰富的开发者，这篇完整教程将带你了解如何利用Cargo工具链进行高效的开发、测试和性能优化，打造一款快速、轻量且功能强大的UTF-8文本编辑器。## 什么是Kiro Editor？Kiro Editor是一款使用Rust编写的极简终端文本编辑器，它最初是著名编辑

亚马逊云科技技术品牌专区

Kimi 智能助手新手入门与实战指南

在处理长篇技术文档或行业研报时，我们往往只需要其中的核心结论或特定数据。利用 AI 进行长文档摘要，可以极大缩短信息获取周期。操作时，直接将文档内容复制粘贴到对话框中（注意遵守平台的长度限制，若超长可分段处理），然后配合精准的指令。假设你手头有一份五十页的《云计算架构演进趋势报告》，你可以输入：“请阅读以下关于云计算架构的报告内容。首先，用不超过 200 字总结全文的核心观点。其次，提取出文中提到