zarathustra000 个人主页

@m0_49844155

zarathustra000

2022-12-28 23:23:06 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

图论 20. Bellman_ford 算法（可以计算负权值的单源最短路算法）

先来说什么是 “松弛”。《算法四》里面把这个操作叫做 “放松”，英文版里叫做 “relax the edge”所以大家翻译过来，就是 “放松” 或者 “松弛”。但《算法四》没有具体去讲这个 “放松” 究竟是个啥？网上很多题解也没有讲题解里的 “松弛这条边，松弛所有边”等等里面的 “松弛” 究竟是什么意思？这里我给大家举一个例子，

#leetcode #python #图论

PPO流程的个人疑问集锦 Q & A

本文摘要主要探讨了PPO算法（Proximal Policy Optimization）在RLHF（Reinforcement Learning from Human Feedback）训练过程中的关键问题。文章首先区分了PPO Loss和Actor Loss的概念，指出PPO Loss是包含策略、价值函数和熵奖励的综合损失函数，而Actor Loss特指策略网络的损失。随后详细解析了refere

到底了