logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习之父】最新论文:Reward Centering 奖励中心化

理论创新:论文提出了Reward Centering的概念,并基于Blackwell的Laurent级数分解,解释了为什么中心化奖励能够提高强化学习算法的性能。具体来说,中心化奖励能够消除价值估计中的一个状态无关常数项,使得价值函数逼近器能够专注于状态和动作之间的相对差异。算法改进:论文展示了如何将Reward Centering应用于常见的折扣方法,如TD学习和Q学习,并证明了在常用的折扣因子下

文章图片
#自动驾驶#算法
【清华】LDMapNet-U:用于城市规模车道级地图更新的端到端系统

最新的城市级车道级地图是确保自动驾驶系统安全和用户体验的关键基础设施和关键技术。在工业场景中,依赖人工标注的地图更新造成了关键瓶颈。车道级更新需要精确的变化信息,并且必须确保与相邻数据的一致性,同时遵循严格的标准。传统方法采用构建、变化检测和更新的三阶段方法,由于准确性限制,通常需要人工验证。这导致劳动密集型过程,阻碍了及时更新。为解决这些挑战,我们提出了LDMapNet-U,它实现了城市级车道级

文章图片
#transformer#深度学习#人工智能
到底了