登录社区云,与社区用户共同成长
邀请您加入社区
该用户还未填写简介
暂无可提供的服务
智能体通过与环境进行马尔可夫决策过程式的交互,根据获得的奖励信号,不断优化其(通常通过学习和更新价值函数来实现),最终目标是关键词:经验中学习、试错、延迟奖励→。