logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

图论 20. Bellman_ford 算法(可以计算负权值的单源最短路算法)

先来说什么是 “松弛”。《算法四》里面把这个操作叫做 “放松”, 英文版里叫做 “relax the edge”所以大家翻译过来,就是 “放松” 或者 “松弛”。但《算法四》没有具体去讲这个 “放松” 究竟是个啥?网上很多题解也没有讲题解里的 “松弛这条边,松弛所有边”等等 里面的 “松弛” 究竟是什么意思?这里我给大家举一个例子,

#leetcode#python#图论
图论 20. Bellman_ford 算法(可以计算负权值的单源最短路算法)

先来说什么是 “松弛”。《算法四》里面把这个操作叫做 “放松”, 英文版里叫做 “relax the edge”所以大家翻译过来,就是 “放松” 或者 “松弛”。但《算法四》没有具体去讲这个 “放松” 究竟是个啥?网上很多题解也没有讲题解里的 “松弛这条边,松弛所有边”等等 里面的 “松弛” 究竟是什么意思?这里我给大家举一个例子,

#leetcode#python#图论
PPO流程的个人疑问集锦 Q & A

本文摘要主要探讨了PPO算法(Proximal Policy Optimization)在RLHF(Reinforcement Learning from Human Feedback)训练过程中的关键问题。文章首先区分了PPO Loss和Actor Loss的概念,指出PPO Loss是包含策略、价值函数和熵奖励的综合损失函数,而Actor Loss特指策略网络的损失。随后详细解析了refere

到底了