logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

扩散模型在具身模型预测中的作用

直接学习干净序列,模型是在**“死记硬背答案”

#深度学习#人工智能#神经网络 +1
状态价值函数和状态-动作价值函数 定义及区别

状态价值函数 Vπ(s)V_{\pi}(s)Vπ​(s) 用来衡量在状态 sss 下,遵循策略 π\piπ 时,代理(agent)从该状态出发能获得的期望回报。定义:Vπ(s)=E[∑t=0∞γtrt∣s0=s,π]V_{\pi}(s) = \mathbb{E} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s, \pi \right]Vπ​

#算法#机器学习
到底了