部分可观测马尔可夫决策过程(POMDP)形式化中信念状态更新的详解
在部分可观测马尔可夫决策过程(POMDP)形式化中,信念状态(belief state)是处理部分可观测性的核心机制。它将agent对环境真实状态的不确定性表示为一个概率分布,从而将POMDP问题转化为一个完全可观测的马尔可夫决策过程(MDP)——即信念MDP(belief-MDP)
文章目录
多轮Agentic强化学习的POMDP形式化详解
在论文《A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning》,文章解读多轮Agentic强化学习实践指南:A Practitioner‘s Guide to Multi-turn Agentic Reinforcement Learning中,作者将多轮agentic任务形式化为部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)。这一形式化是理解多轮强化学习(RL)框架的核心,它将复杂交互环境抽象为一个数学结构,便于分析agent的决策、观测和奖励机制。POMDP扩展了经典的马尔可夫决策过程(MDP),以处理现实中agent无法完全观测状态的情况(如文本游戏中隐藏的完整世界模型)。下面,我将从POMDP的基本定义入手,逐步详解论文中的具体形式化,包括元组组件、轨迹历史、策略采样、奖励分配以及实际输入示例。解释将结合论文上下文,确保浅显易懂的同时,提供数学严谨性。
1. POMDP的基本定义与论文元组
POMDP是一个五元组 ( S , A , T , R , Ω , O , γ ) (S, A, T, R, \Omega, O, \gamma) (S,A,T,R,Ω,O,γ),其中:
- S S S:状态空间(state space),表示环境的完整内部表示。例如,在TextWorld文本冒险游戏中, S S S包含所有房间布局、物体位置和agent当前位置的隐藏细节。
- A A A:动作空间(action space),agent可执行的动作集合。论文中, A A A由自然语言命令组成,如"go south"(向南走)。
- T : S × A → S T: S \times A \to S T:S×A→S:状态转移函数(transition function),描述从当前状态 s t s_t st执行动作 a t a_t at后转移到下一状态 s t + 1 s_{t+1} st+1的规则。论文假设 T T T是确定性的(deterministic),即给定 s t s_t st和 a t a_t at, s t + 1 s_{t+1} st+1唯一确定。这简化了多轮交互的建模,避免随机性干扰分析。
- R : S × A → R R: S \times A \to \mathbb{R} R:S×A→R:奖励函数(reward function),为状态-动作对返回标量奖励 r t = R ( s t , a t ) r_t = R(s_t, a_t) rt=R(st,at)。在多轮环境中,奖励往往稀疏,仅在任务完成时发放。
- Ω \Omega Ω:观测空间(observation space),agent实际接收到的信息集合。不同于 S S S的完整性, Ω \Omega Ω仅提供部分描述,如文本"You are in front of a garden"(你在花园前)。
- O : S × A → Ω O: S \times A \to \Omega O:S×A→Ω:观测函数(observation function),从真实状态生成观测 o t o_t ot。这体现了“部分可观测”(partially observable)的本质: o t o_t ot是 s t s_t st的子集或摘要。
- γ ∈ [ 0 , 1 ) \gamma \in [0,1) γ∈[0,1):折扣因子(discount factor),用于平衡短期与长期奖励,防止无限累积。
agent的目标是学习一个策略 π \pi π,最大化期望折扣回报:
E [ ∑ t = 0 ∞ γ t r t ] \mathbb{E}\left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] E[t=0∑∞γtrt]
其中期望 E \mathbb{E} E取自策略 π \pi π诱导的轨迹分布。这与单轮RL不同,多轮POMDP强调序列决策:agent需基于历史观测规划长期行为。
论文强调,此形式化适用于情境文本域(如TextWorld),因为agent仅通过文本交互探索隐藏状态,模拟真实agentic场景(如具身推理或软件工程)。
2. 轨迹历史与策略采样
POMDP的动态通过轨迹历史 h t h_t ht捕捉:
h t = ( u , s 0 , a 0 , s 1 , a 1 , … , s t ) h_t = (u, s_0, a_0, s_1, a_1, \dots, s_t) ht=(u,s0,a0,s1,a1,…,st)
- u u u:任务提示(task prompt),如"put some vase in safe"(将花瓶放入保险箱),定义目标。
- s 0 s_0 s0:初始状态。
- a 0 , s 1 , … a_0, s_1, \dots a0,s1,…:动作-状态序列,直至当前 t t t。
LLM agent的策略 π θ \pi_\theta πθ(参数化为 θ \theta θ)基于 h t h_t ht采样动作序列 a t ∼ π θ ( ⋅ ∣ h t ) a_t \sim \pi_\theta(\cdot | h_t) at∼πθ(⋅∣ht)。 a t a_t at不是原子动作,而是自然语言令牌序列:
a t = ( a t 1 , a t 2 , … , a t n t , ⟨ eos ⟩ t ) a_t = (a_t^1, a_t^2, \dots, a_t^{n_t}, \langle \text{eos} \rangle_t) at=(at1,at2,…,atnt,⟨eos⟩t)
每个令牌 a t i a_t^i ati autoregressively 生成: a t i ∼ π θ ( ⋅ ∣ h t , a t < i ) a_t^i \sim \pi_\theta(\cdot | h_t, a_t^{<i}) ati∼πθ(⋅∣ht,at<i),其中 a t < i = ( a t 1 , … , a t i − 1 ) a_t^{<i} = (a_t^1, \dots, a_t^{i-1}) at<i=(at1,…,ati−1)。 ⟨ eos ⟩ t \langle \text{eos} \rangle_t ⟨eos⟩t标记命令结束,环境仅在此时执行 a t a_t at。
此设计适应LLM的生成范式:agent逐步构建句子(如"go to shelf 6"),而非选择预定义动作。论文指出,这自然定义了奖励边界——环境在 ⟨ eos ⟩ \langle \text{eos} \rangle ⟨eos⟩处响应,避免单轮方法的即时反馈假设。
3. 奖励分配机制
多轮环境中,奖励 r t r_t rt仅在命令完成时计算: r t = R ( s t , a t ) r_t = R(s_t, a_t) rt=R(st,at)。为适应LLM的令牌级训练,论文将 r t r_t rt分配至 ⟨ eos ⟩ t \langle \text{eos} \rangle_t ⟨eos⟩t:
r i t = { r t if a t i = ⟨ eos ⟩ 0 otherwise r_i^t = \begin{cases} r_t & \text{if } a_t^i = \langle \text{eos} \rangle \\ 0 & \text{otherwise} \end{cases} rit={rt0if ati=⟨eos⟩otherwise
其他令牌奖励为0,确保信用仅归于完整动作。同时,损失函数仅作用于动作令牌:通过掩码(masking)排除状态令牌(如观测文本),防止无关信息干扰梯度。
浅层理解:这像“延迟反馈”——agent说完整句子后才得奖励,模拟真实交互。深层:掩码机制优化RLHF(RL from Human Feedback),聚焦行为相关部分,避免观测噪声污染策略更新。
例如,在TextWorld中:
- 观测: “You arrive at loc 4. You see a vase 2.”
- 动作: “pick up vase 2” + ⟨ eos ⟩ \langle \text{eos} \rangle ⟨eos⟩
- 奖励:若成功, r t = 0.5 r_t=0.5 rt=0.5(部分里程碑),分配至 ⟨ eos ⟩ \langle \text{eos} \rangle ⟨eos⟩;任务完成时 r t = 1 r_t=1 rt=1。
4. LLM输入示例:聊天模板下的 rollout
论文提供具体rollout( rollout stage)输入,使用聊天模板(如Llama-style):
<|im_start|>user
Your task is: {task prompt}. state: {state 0} your action:<|im_end|>
<|im_start|>assistant
{action 0}<|im_end|>
...
<|im_start|>user
state: {state t} your action:<|im_end|>
<|im_start|>assistant
LLM生成输出:{action t}<|im_end|>
(即 ⟨ eos ⟩ \langle \text{eos} \rangle ⟨eos⟩)。环境执行:
next_state, reward, done = env.step(state, action)
奖励附加至 ⟨ im_end ⟩ \langle \text{im\_end} \rangle ⟨im_end⟩令牌,新动作/状态追加至历史 h t + 1 h_{t+1} ht+1。
此模板确保上下文连续:历史累积观测-动作对,支持长期规划。论文强调,环境step仅在eos后触发,强化多轮边界。
5. 与单轮RL的区别及启示
相较单轮RL(假设即时奖励),POMDP处理:
- 部分观测: o t ≠ s t o_t \neq s_t ot=st,需历史 h t h_t ht推断信念状态(belief state,未显式建模)。
- 序列奖励:稀疏 r t r_t rt要求信用分配(credit assignment),论文通过eos掩码解决。
- 探索挑战:自然语言 A A A增大搜索空间,需温度采样(如0.7)平衡。
启示:此形式化桥接LLM与RL,适用于ALFWorld(具身任务)或SWE-Gym(编程)。未来,可扩展至信念跟踪(如RNN辅助)或非确定 T T T。
总之,论文的POMDP形式化提供统一框架,揭示多轮agentic RL的核心:从隐藏状态到序列决策的端到端优化。初学者可视作“带记忆的游戏规则”,专家则关注奖励掩码对梯度流动的影响。
POMDP中信念状态更新的详解
在部分可观测马尔可夫决策过程(POMDP)形式化中,信念状态(belief state)是处理部分可观测性的核心机制。它将agent对环境真实状态的不确定性表示为一个概率分布,从而将POMDP问题转化为一个完全可观测的马尔可夫决策过程(MDP)——即信念MDP(belief-MDP)。论文《A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning》虽为简化起见,将观测 o o o代入状态 s s s(“We substitute observation o for state s for simplicity”),且假设状态转移 T T T为确定性的,但信念状态更新仍是理解agent决策的基础,尤其在多轮agentic RL中,agent需通过历史轨迹 h t h_t ht推断隐藏状态 s t s_t st。下面,我将从概念入手,逐步详解信念状态的定义、更新公式、计算过程,并结合论文上下文及一个数值示例进行说明。
1. 信念状态的概念与必要性
在POMDP元组 ( S , A , T , R , Ω , O , γ ) (S, A, T, R, \Omega, O, \gamma) (S,A,T,R,Ω,O,γ)中,agent无法直接访问完整状态 s t ∈ S s_t \in S st∈S,仅获得观测 o t ∈ Ω o_t \in \Omega ot∈Ω(如TextWorld中的文本描述“You arrive at loc 4”)。这导致“部分可观测”问题:agent的策略 π \pi π需基于不完整信息决策。
信念状态 b t ( s ) b_t(s) bt(s)定义为给定历史观测和动作序列的条件下,真实状态 s s s的后验概率分布:
b t ( s ) = P ( s t = s ∣ h t ) b_t(s) = P(s_t = s \mid h_t) bt(s)=P(st=s∣ht)
其中 h t = ( u , o 0 , a 0 , o 1 , … , o t ) h_t = (u, o_0, a_0, o_1, \dots, o_t) ht=(u,o0,a0,o1,…,ot)是观测-动作历史(论文中用状态序列表示,但本质相同)。 b t b_t bt是一个|S|维概率向量, ∑ s ∈ S b t ( s ) = 1 \sum_{s \in S} b_t(s) = 1 ∑s∈Sbt(s)=1。
- 为什么需要信念状态? 它充当“代理状态”(sufficient statistic),捕捉所有历史信息对当前状态的不确定性。agent的策略可重写为 π ( a t ∣ b t ) \pi(a_t \mid b_t) π(at∣bt),奖励为 r t = ∑ s b t ( s ) R ( s , a t ) r_t = \sum_s b_t(s) R(s, a_t) rt=∑sbt(s)R(s,at)。在多轮RL中,这支持长期规划:如在ALFWorld中,agent通过累积信念推断物体位置,避免盲目探索。
论文简化假设 T T T确定性( T ( s , a ) = s ′ T(s, a) = s' T(s,a)=s′唯一),使信念更新更高效,但实际LLM agent(如Qwen模型)隐式通过Transformer的注意力机制近似信念(历史 h t h_t ht编码不确定性)。
2. 信念状态更新公式
信念更新发生在每个时间步:给定当前信念 b t b_t bt、动作 a t a_t at和观测 o t + 1 o_{t+1} ot+1,计算下一信念 b t + 1 b_{t+1} bt+1。这基于贝叶斯定理,使用转移 T T T和观测 O O O。
标准更新公式(预测-更新步骤):
-
预测步骤(先验信念):基于动作 a t a_t at预测下一状态分布。
b ‾ t + 1 ( s ′ ) = ∑ s ∈ S T ( s , a t , s ′ ) b t ( s ) \overline{b}_{t+1}(s') = \sum_{s \in S} T(s, a_t, s') b_t(s) bt+1(s′)=s∈S∑T(s,at,s′)bt(s)
其中 b ‾ t + 1 \overline{b}_{t+1} bt+1是未归一化的先验。 -
更新步骤(后验信念):融入观测 o t + 1 o_{t+1} ot+1。
b t + 1 ( s ′ ) = O ( s ′ , a t , o t + 1 ) ⋅ b ‾ t + 1 ( s ′ ) Pr ( o t + 1 ∣ b t , a t ) b_{t+1}(s') = \frac{O(s', a_t, o_{t+1}) \cdot \overline{b}_{t+1}(s')}{\Pr(o_{t+1} \mid b_t, a_t)} bt+1(s′)=Pr(ot+1∣bt,at)O(s′,at,ot+1)⋅bt+1(s′)
归一化常数 Pr ( o t + 1 ∣ b t , a t ) \Pr(o_{t+1} \mid b_t, a_t) Pr(ot+1∣bt,at)(似然)为:
Pr ( o t + 1 ∣ b t , a t ) = ∑ s ′ ∈ S O ( s ′ , a t , o t + 1 ) b ‾ t + 1 ( s ′ ) \Pr(o_{t+1} \mid b_t, a_t) = \sum_{s' \in S} O(s', a_t, o_{t+1}) \overline{b}_{t+1}(s') Pr(ot+1∣bt,at)=s′∈S∑O(s′,at,ot+1)bt+1(s′)
完整公式可合并为:
b t + 1 ( s ′ ) = O ( s ′ , a t , o t + 1 ) ∑ s ∈ S T ( s , a t , s ′ ) b t ( s ) ∑ s ′ ∈ S O ( s ′ , a t , o t + 1 ) ∑ s ∈ S T ( s , a t , s ′ ) b t ( s ) b_{t+1}(s') = \frac{O(s', a_t, o_{t+1}) \sum_{s \in S} T(s, a_t, s') b_t(s)}{\sum_{s' \in S} O(s', a_t, o_{t+1}) \sum_{s \in S} T(s, a_t, s') b_t(s)} bt+1(s′)=∑s′∈SO(s′,at,ot+1)∑s∈ST(s,at,s′)bt(s)O(s′,at,ot+1)∑s∈ST(s,at,s′)bt(s)
- 解释:
- T ( s , a t , s ′ ) T(s, a_t, s') T(s,at,s′):从 s s s经 a t a_t at转移至 s ′ s' s′的概率(论文中为1或0)。
- O ( s ′ , a t , o t + 1 ) O(s', a_t, o_{t+1}) O(s′,at,ot+1):给定 s ′ s' s′和 a t a_t at,观测到 o t + 1 o_{t+1} ot+1的概率(观测模型,常独立于 a t a_t at)。
- 分子:联合概率 P ( s ′ , o t + 1 ∣ b t , a t ) P(s', o_{t+1} \mid b_t, a_t) P(s′,ot+1∣bt,at)。
- 分母:边缘概率 P ( o t + 1 ∣ b t , a t ) P(o_{t+1} \mid b_t, a_t) P(ot+1∣bt,at),确保归一化。
此更新是递归的: b 0 ( s ) b_0(s) b0(s)为初始分布(如均匀),然后迭代。计算复杂度 O ( ∣ S ∣ 2 ∣ A ∣ ∣ Ω ∣ ) O(|S|^2 |A| | \Omega|) O(∣S∣2∣A∣∣Ω∣),在高维 S S S(如TextWorld的房间-物体组合)中需近似(如粒子滤波)。
3. 论文中的简化与应用
论文假设 T T T确定性: T ( s , a ) = s ′ T(s, a) = s' T(s,a)=s′(唯一),简化预测 b ‾ t + 1 ( s ′ ) = ∑ s : T ( s , a ) = s ′ b t ( s ) \overline{b}_{t+1}(s') = \sum_{s: T(s,a)=s'} b_t(s) bt+1(s′)=∑s:T(s,a)=s′bt(s)(仅累加转移至 s ′ s' s′的质量)。观测 O O O隐含在文本环境中(如“see a vase”暗示物体存在)。奖励 r t r_t rt基于真实 s t s_t st,但agent用 b t b_t bt估计 ∑ s b t ( s ) R ( s , a t ) \sum_s b_t(s) R(s, a_t) ∑sbt(s)R(s,at)。
在轨迹 h t h_t ht中,LLM策略 π θ ( a t ∣ h t ) \pi_\theta(a_t \mid h_t) πθ(at∣ht)隐式编码信念:历史令牌序列充当信念的软表示。奖励仅在 ⟨ eos ⟩ \langle \text{eos} \rangle ⟨eos⟩分配,推动信念向高回报状态收敛。SWE-Gym中,信念可视为代码状态的不确定性(e.g., 变量值分布)。
浅层:信念像“概率地图”,更新后agent“更确信”某些状态。深层:这解决信用分配——稀疏奖励通过信念传播至早期动作。
4. 数值示例:简单2状态POMDP
考虑一个玩具POMDP:2状态(S1, S2),2动作(A1:保持;A2:切换),2观测(O1, O2)。转移 T T T确定性,观测 O O O噪声(S1偏O1 90%,S2偏O2 90%)。
初始信念 b 0 = [ 0.6 , 0.4 ] b_0 = [0.6, 0.4] b0=[0.6,0.4](P(S1)=0.6)。
执行A1(保持),观测O1。更新过程:
- 预测: b ‾ 1 ( S 1 ) = T ( S 1 , A 1 , S 1 ) ⋅ 0.6 + T ( S 2 , A 1 , S 1 ) ⋅ 0.4 = 1 ⋅ 0.6 + 0 ⋅ 0.4 = 0.6 \overline{b}_1(S1) = T(S1,A1,S1) \cdot 0.6 + T(S2,A1,S1) \cdot 0.4 = 1 \cdot 0.6 + 0 \cdot 0.4 = 0.6 b1(S1)=T(S1,A1,S1)⋅0.6+T(S2,A1,S1)⋅0.4=1⋅0.6+0⋅0.4=0.6
b ‾ 1 ( S 2 ) = 0.4 \overline{b}_1(S2) = 0.4 b1(S2)=0.4 - 似然: Pr ( O 1 ) = O ( S 1 , A 1 , O 1 ) ⋅ 0.6 + O ( S 2 , A 1 , O 1 ) ⋅ 0.4 = 0.9 ⋅ 0.6 + 0.1 ⋅ 0.4 = 0.58 \Pr(O1) = O(S1,A1,O1) \cdot 0.6 + O(S2,A1,O1) \cdot 0.4 = 0.9 \cdot 0.6 + 0.1 \cdot 0.4 = 0.58 Pr(O1)=O(S1,A1,O1)⋅0.6+O(S2,A1,O1)⋅0.4=0.9⋅0.6+0.1⋅0.4=0.58
- 后验: b 1 ( S 1 ) = ( 0.9 ⋅ 0.6 ) / 0.58 ≈ 0.931 b_1(S1) = (0.9 \cdot 0.6) / 0.58 \approx 0.931 b1(S1)=(0.9⋅0.6)/0.58≈0.931
b 1 ( S 2 ) = ( 0.1 ⋅ 0.4 ) / 0.58 ≈ 0.069 b_1(S2) = (0.1 \cdot 0.4) / 0.58 \approx 0.069 b1(S2)=(0.1⋅0.4)/0.58≈0.069
结果:信念向S1倾斜(从0.6增至0.93),因为O1更支持S1。这模拟TextWorld:观测“see vase”更新信念,增加“vase in room”的概率。
5. 实际启示与扩展
- 在RL中的作用:PPO/GRPO等算法用信念估计价值函数 V ( b t ) V(b_t) V(bt),策略梯度 ∇ log π ( a t ∣ b t ) A ( b t , a t ) \nabla \log \pi(a_t \mid b_t) A(b_t, a_t) ∇logπ(at∣bt)A(bt,at)。论文中,稠密奖励加速信念收敛。
- 挑战:高维 S S S导致维度灾难;LLM用自回归生成近似信念,但易遗忘(需外部记忆)。
- 扩展:论文未来可集成粒子信念(采样轨迹)或RNN信念跟踪,提升SWE-Gym泛化。
此更新是POMDP的“心脏”,桥接观测与决策。
后记
2025年10月4日于山东,在grok 4 fast辅助下完成。
更多推荐
所有评论(0)