logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Potential Reward Shaping不改变智能体的原始最优策略

Potential Reward Shaping是一种理论上不改变智能体最优策略的奖励塑形方法。通过数学推导证明,potential shaping会导致价值函数产生状态相关的常数平移(V'^π(s)=V^π(s)+Φ(s)),而不影响动作间的相对优劣。核心在于shaping项γΦ(s')-Φ(s)形成了时间维度上的望远镜求和,使累计影响仅剩初始状态Φ(s)。这种精心设计的"可积项&qu

#机器学习#人工智能
静态优化问题与动态优化问题

静态优化问题:一次性决策,不考虑时间变化,目标函数和约束是固定的。动态优化问题:决策随时间演化,未来的决策影响当前决策,目标函数和约束可能随时间变化。

文章图片
#python
批改网高分短语&句型

批改网可以识别的部分高级句型&短语

#自然语言处理
到底了