部分可观测马尔可夫决策过程（POMDP）形式化中信念状态更新的详解

在部分可观测马尔可夫决策过程（POMDP）形式化中，信念状态（belief state）是处理部分可观测性的核心机制。它将agent对环境真实状态的不确定性表示为一个概率分布，从而将POMDP问题转化为一个完全可观测的马尔可夫决策过程（MDP）——即信念MDP（belief-MDP）

阿正的梦工坊

429人浏览 · 2025-10-04 11:47:41

阿正的梦工坊 · 2025-10-04 11:47:41 发布

文章目录

多轮Agentic强化学习的POMDP形式化详解

在论文《A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning》,文章解读多轮Agentic强化学习实践指南：A Practitioner‘s Guide to Multi-turn Agentic Reinforcement Learning中，作者将多轮agentic任务形式化为部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process, POMDP）。这一形式化是理解多轮强化学习（RL）框架的核心，它将复杂交互环境抽象为一个数学结构，便于分析agent的决策、观测和奖励机制。POMDP扩展了经典的马尔可夫决策过程（MDP），以处理现实中agent无法完全观测状态的情况（如文本游戏中隐藏的完整世界模型）。下面，我将从POMDP的基本定义入手，逐步详解论文中的具体形式化，包括元组组件、轨迹历史、策略采样、奖励分配以及实际输入示例。解释将结合论文上下文，确保浅显易懂的同时，提供数学严谨性。

1. POMDP的基本定义与论文元组

POMDP是一个五元组 $\Omega, O, \gamma)$ ，其中：

$S$ ：状态空间（state space），表示环境的完整内部表示。例如，在TextWorld文本冒险游戏中， $S$ 包含所有房间布局、物体位置和agent当前位置的隐藏细节。
$A$ ：动作空间（action space），agent可执行的动作集合。论文中， $A$ 由自然语言命令组成，如"go south"（向南走）。
$\times A \to S$ ：状态转移函数（transition function），描述从当前状态 $s_t$ 执行动作 $a_t$ 后转移到下一状态 $s_{t+1}$ 的规则。论文假设 $T$ 是确定性的（deterministic），即给定 $s_t$ 和 $a_t$ ， $s_{t+1}$ 唯一确定。这简化了多轮交互的建模，避免随机性干扰分析。
$\times A \to \mathbb{R}$ ：奖励函数（reward function），为状态-动作对返回标量奖励 $r_t = R(s_t, a_t)$ 。在多轮环境中，奖励往往稀疏，仅在任务完成时发放。
$\Omega$ ：观测空间（observation space），agent实际接收到的信息集合。不同于 $S$ 的完整性， $\Omega$ 仅提供部分描述，如文本"You are in front of a garden"（你在花园前）。
$\times A \to \Omega$ ：观测函数（observation function），从真实状态生成观测 $o_t$ 。这体现了“部分可观测”（partially observable）的本质： $o_t$ 是 $s_t$ 的子集或摘要。
$\gamma \in [0,1)$ ：折扣因子（discount factor），用于平衡短期与长期奖励，防止无限累积。

agent的目标是学习一个策略 $\pi$ ，最大化期望折扣回报：
$\mathbb{E}\left[ \sum_{t=0}^{\infty} \gamma^t r_t \right]$
其中期望 $\mathbb{E}$ 取自策略 $\pi$ 诱导的轨迹分布。这与单轮RL不同，多轮POMDP强调序列决策：agent需基于历史观测规划长期行为。

论文强调，此形式化适用于情境文本域（如TextWorld），因为agent仅通过文本交互探索隐藏状态，模拟真实agentic场景（如具身推理或软件工程）。

2. 轨迹历史与策略采样

POMDP的动态通过轨迹历史 $h_t$ 捕捉：
$h_t = (u, s_0, a_0, s_1, a_1, \dots, s_t)$

$u$ ：任务提示（task prompt），如"put some vase in safe"（将花瓶放入保险箱），定义目标。
$s_0$ ：初始状态。
$a_0, s_1, \dots$ ：动作-状态序列，直至当前 $t$ 。

LLM agent的策略 $\pi_\theta$ （参数化为 $\theta$ ）基于 $h_t$ 采样动作序列 $a_t \sim \pi_\theta(\cdot | h_t)$ 。 $a_t$ 不是原子动作，而是自然语言令牌序列：
$a_t = (a_t^1, a_t^2, \dots, a_t^{n_t}, \langle \text{eos} \rangle_t)$
每个令牌 $a_t^i$ autoregressively 生成： $a_t^i \sim \pi_\theta(\cdot | h_t, a_t^{<i})$ ，其中 $a_t^{<i} = (a_t^1, \dots, a_t^{i-1})$ 。 $\langle \text{eos} \rangle_t$ 标记命令结束，环境仅在此时执行 $a_t$ 。

此设计适应LLM的生成范式：agent逐步构建句子（如"go to shelf 6"），而非选择预定义动作。论文指出，这自然定义了奖励边界——环境在 $\langle \text{eos} \rangle$ 处响应，避免单轮方法的即时反馈假设。

3. 奖励分配机制

多轮环境中，奖励 $r_t$ 仅在命令完成时计算： $r_t = R(s_t, a_t)$ 。为适应LLM的令牌级训练，论文将 $r_t$ 分配至 $\langle \text{eos} \rangle_t$ ：
$r_i^t = \begin{cases} r_t & \text{if } a_t^i = \langle \text{eos} \rangle \\ 0 & \text{otherwise} \end{cases}$
其他令牌奖励为0，确保信用仅归于完整动作。同时，损失函数仅作用于动作令牌：通过掩码（masking）排除状态令牌（如观测文本），防止无关信息干扰梯度。

浅层理解：这像“延迟反馈”——agent说完整句子后才得奖励，模拟真实交互。深层：掩码机制优化RLHF（RL from Human Feedback），聚焦行为相关部分，避免观测噪声污染策略更新。

例如，在TextWorld中：

观测： “You arrive at loc 4. You see a vase 2.”
动作： “pick up vase 2” + $\langle \text{eos} \rangle$
奖励：若成功， $r_t=0.5$ （部分里程碑），分配至 $\langle \text{eos} \rangle$ ；任务完成时 $r_t=1$ 。

4. LLM输入示例：聊天模板下的 rollout

论文提供具体rollout（ rollout stage）输入，使用聊天模板（如Llama-style）：

<|im_start|>user
Your task is: {task prompt}. state: {state 0} your action:<|im_end|>
<|im_start|>assistant
{action 0}<|im_end|>
...
<|im_start|>user
state: {state t} your action:<|im_end|>
<|im_start|>assistant

LLM生成输出：{action t}<|im_end|>（即 $\langle \text{eos} \rangle$ ）。环境执行：

next_state, reward, done = env.step(state, action)

奖励附加至 $im_end ⟩ \langle \text{im\_end} \rangle$ 令牌，新动作/状态追加至历史 $h_{t+1}$ 。

此模板确保上下文连续：历史累积观测-动作对，支持长期规划。论文强调，环境step仅在eos后触发，强化多轮边界。

5. 与单轮RL的区别及启示

相较单轮RL（假设即时奖励），POMDP处理：

部分观测： $o_t \neq s_t$ ，需历史 $h_t$ 推断信念状态（belief state，未显式建模）。
序列奖励：稀疏 $r_t$ 要求信用分配（credit assignment），论文通过eos掩码解决。
探索挑战：自然语言 $A$ 增大搜索空间，需温度采样（如0.7）平衡。

启示：此形式化桥接LLM与RL，适用于ALFWorld（具身任务）或SWE-Gym（编程）。未来，可扩展至信念跟踪（如RNN辅助）或非确定 $T$ 。

总之，论文的POMDP形式化提供统一框架，揭示多轮agentic RL的核心：从隐藏状态到序列决策的端到端优化。初学者可视作“带记忆的游戏规则”，专家则关注奖励掩码对梯度流动的影响。

POMDP中信念状态更新的详解

在部分可观测马尔可夫决策过程（POMDP）形式化中，信念状态（belief state）是处理部分可观测性的核心机制。它将agent对环境真实状态的不确定性表示为一个概率分布，从而将POMDP问题转化为一个完全可观测的马尔可夫决策过程（MDP）——即信念MDP（belief-MDP）。论文《A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning》虽为简化起见，将观测 $o$ 代入状态 $s$ （“We substitute observation o for state s for simplicity”），且假设状态转移 $T$ 为确定性的，但信念状态更新仍是理解agent决策的基础，尤其在多轮agentic RL中，agent需通过历史轨迹 $h_t$ 推断隐藏状态 $s_t$ 。下面，我将从概念入手，逐步详解信念状态的定义、更新公式、计算过程，并结合论文上下文及一个数值示例进行说明。

1. 信念状态的概念与必要性

在POMDP元组 $\Omega, O, \gamma)$ 中，agent无法直接访问完整状态 $s_t \in S$ ，仅获得观测 $o_t \in \Omega$ （如TextWorld中的文本描述“You arrive at loc 4”）。这导致“部分可观测”问题：agent的策略 $\pi$ 需基于不完整信息决策。

信念状态 $b_t(s)$ 定义为给定历史观测和动作序列的条件下，真实状态 $s$ 的后验概率分布：
$b_t(s) = P(s_t = s \mid h_t)$
其中 $h_t = (u, o_0, a_0, o_1, \dots, o_t)$ 是观测-动作历史（论文中用状态序列表示，但本质相同）。 $b_t$ 是一个|S|维概率向量， $\sum_{s \in S} b_t(s) = 1$ 。

为什么需要信念状态？ 它充当“代理状态”（sufficient statistic），捕捉所有历史信息对当前状态的不确定性。agent的策略可重写为 $\pi(a_t \mid b_t)$ ，奖励为 $r_t = \sum_s b_t(s) R(s, a_t)$ 。在多轮RL中，这支持长期规划：如在ALFWorld中，agent通过累积信念推断物体位置，避免盲目探索。

论文简化假设 $T$ 确定性（ $T (s, a) = s^{'}$ 唯一），使信念更新更高效，但实际LLM agent（如Qwen模型）隐式通过Transformer的注意力机制近似信念（历史 $h_t$ 编码不确定性）。

2. 信念状态更新公式

信念更新发生在每个时间步：给定当前信念 $b_t$ 、动作 $a_t$ 和观测 $o_{t+1}$ ，计算下一信念 $b_{t+1}$ 。这基于贝叶斯定理，使用转移 $T$ 和观测 $O$ 。

标准更新公式（预测-更新步骤）：

预测步骤（先验信念）：基于动作 $a_t$ 预测下一状态分布。
$\overline{b}_{t+1}(s') = \sum_{s \in S} T(s, a_t, s') b_t(s)$
其中 $\overline{b}_{t+1}$ 是未归一化的先验。
更新步骤（后验信念）：融入观测 $o_{t+1}$ 。
$b_{t+1}(s') = \frac{O(s', a_t, o_{t+1}) \cdot \overline{b}_{t+1}(s')}{\Pr(o_{t+1} \mid b_t, a_t)}$
归一化常数 $\Pr(o_{t+1} \mid b_t, a_t)$ （似然）为：
$\Pr(o_{t+1} \mid b_t, a_t) = \sum_{s' \in S} O(s', a_t, o_{t+1}) \overline{b}_{t+1}(s')$

完整公式可合并为：
$b_{t+1}(s') = \frac{O(s', a_t, o_{t+1}) \sum_{s \in S} T(s, a_t, s') b_t(s)}{\sum_{s' \in S} O(s', a_t, o_{t+1}) \sum_{s \in S} T(s, a_t, s') b_t(s)}$

解释：
- $T(s, a_t, s')$ ：从 $s$ 经 $a_t$ 转移至 $s^{'}$ 的概率（论文中为1或0）。
- $O(s', a_t, o_{t+1})$ ：给定 $s^{'}$ 和 $a_t$ ，观测到 $o_{t+1}$ 的概率（观测模型，常独立于 $a_t$ ）。
- 分子：联合概率 $o_{t+1} \mid b_t, a_t)$ 。
- 分母：边缘概率 $P(o_{t+1} \mid b_t, a_t)$ ，确保归一化。

此更新是递归的： $b_0(s)$ 为初始分布（如均匀），然后迭代。计算复杂度 $O(|S|^2 |A| | \Omega|)$ ，在高维 $S$ （如TextWorld的房间-物体组合）中需近似（如粒子滤波）。

3. 论文中的简化与应用

论文假设 $T$ 确定性： $T (s, a) = s^{'}$ （唯一），简化预测 $\overline{b}_{t+1}(s') = \sum_{s: T(s,a)=s'} b_t(s)$ （仅累加转移至 $s^{'}$ 的质量）。观测 $O$ 隐含在文本环境中（如“see a vase”暗示物体存在）。奖励 $r_t$ 基于真实 $s_t$ ，但agent用 $b_t$ 估计 $\sum_s b_t(s) R(s, a_t)$ 。

在轨迹 $h_t$ 中，LLM策略 $\pi_\theta(a_t \mid h_t)$ 隐式编码信念：历史令牌序列充当信念的软表示。奖励仅在 $\langle \text{eos} \rangle$ 分配，推动信念向高回报状态收敛。SWE-Gym中，信念可视为代码状态的不确定性（e.g., 变量值分布）。

浅层：信念像“概率地图”，更新后agent“更确信”某些状态。深层：这解决信用分配——稀疏奖励通过信念传播至早期动作。

4. 数值示例：简单2状态POMDP

考虑一个玩具POMDP：2状态（S1, S2），2动作（A1:保持；A2:切换），2观测（O1, O2）。转移 $T$ 确定性，观测 $O$ 噪声（S1偏O1 90%，S2偏O2 90%）。

初始信念 $b_0 = [0.6, 0.4]$ （P(S1)=0.6）。

执行A1（保持），观测O1。更新过程：

预测： $\overline{b}_1(S1) = T(S1,A1,S1) \cdot 0.6 + T(S2,A1,S1) \cdot 0.4 = 1 \cdot 0.6 + 0 \cdot 0.4 = 0.6$
$\overline{b}_1(S2) = 0.4$
似然： $\Pr(O1) = O(S1,A1,O1) \cdot 0.6 + O(S2,A1,O1) \cdot 0.4 = 0.9 \cdot 0.6 + 0.1 \cdot 0.4 = 0.58$
后验： $b_1(S1) = (0.9 \cdot 0.6) / 0.58 \approx 0.931$
$b_1(S2) = (0.1 \cdot 0.4) / 0.58 \approx 0.069$

结果：信念向S1倾斜（从0.6增至0.93），因为O1更支持S1。这模拟TextWorld：观测“see vase”更新信念，增加“vase in room”的概率。

5. 实际启示与扩展

在RL中的作用：PPO/GRPO等算法用信念估计价值函数 $V(b_t)$ ，策略梯度 $\nabla \log \pi(a_t \mid b_t) A(b_t, a_t)$ 。论文中，稠密奖励加速信念收敛。
挑战：高维 $S$ 导致维度灾难；LLM用自回归生成近似信念，但易遗忘（需外部记忆）。
扩展：论文未来可集成粒子信念（采样轨迹）或RNN信念跟踪，提升SWE-Gym泛化。