
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
图论 20. Bellman_ford 算法(可以计算负权值的单源最短路算法)
先来说什么是 “松弛”。《算法四》里面把这个操作叫做 “放松”, 英文版里叫做 “relax the edge”所以大家翻译过来,就是 “放松” 或者 “松弛”。但《算法四》没有具体去讲这个 “放松” 究竟是个啥?网上很多题解也没有讲题解里的 “松弛这条边,松弛所有边”等等 里面的 “松弛” 究竟是什么意思?这里我给大家举一个例子,
图论 20. Bellman_ford 算法(可以计算负权值的单源最短路算法)
先来说什么是 “松弛”。《算法四》里面把这个操作叫做 “放松”, 英文版里叫做 “relax the edge”所以大家翻译过来,就是 “放松” 或者 “松弛”。但《算法四》没有具体去讲这个 “放松” 究竟是个啥?网上很多题解也没有讲题解里的 “松弛这条边,松弛所有边”等等 里面的 “松弛” 究竟是什么意思?这里我给大家举一个例子,
PPO流程的个人疑问集锦 Q & A
本文摘要主要探讨了PPO算法(Proximal Policy Optimization)在RLHF(Reinforcement Learning from Human Feedback)训练过程中的关键问题。文章首先区分了PPO Loss和Actor Loss的概念,指出PPO Loss是包含策略、价值函数和熵奖励的综合损失函数,而Actor Loss特指策略网络的损失。随后详细解析了refere
到底了







