红烧code 个人主页

@qq_51352578

红烧code

2022-11-25 17:20:06 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Potential Reward Shaping不改变智能体的原始最优策略

Potential Reward Shaping是一种理论上不改变智能体最优策略的奖励塑形方法。通过数学推导证明，potential shaping会导致价值函数产生状态相关的常数平移（V'^π(s)=V^π(s)+Φ(s)），而不影响动作间的相对优劣。核心在于shaping项γΦ(s')-Φ(s)形成了时间维度上的望远镜求和，使累计影响仅剩初始状态Φ(s)。这种精心设计的"可积项&qu

#机器学习 #人工智能

静态优化问题与动态优化问题

静态优化问题：一次性决策，不考虑时间变化，目标函数和约束是固定的。动态优化问题：决策随时间演化，未来的决策影响当前决策，目标函数和约束可能随时间变化。

#python

批改网高分短语&句型

批改网可以识别的部分高级句型&短语

#自然语言处理

到底了