logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习--6.算法分类及优化原理

强化学习--6.算法分类及优化原理

#算法#分类#大数据
26、DAPO论文笔记(解耦剪辑与动态采样策略优化,GRPO的改进)

DAPO论文笔记(解耦剪辑与动态采样策略优化,GRPO的改进)

#论文阅读
RoPE(旋转位置编码,参考:DeepSeek-V2)

RoPE(旋转位置编码,参考:DeepSeek-V2)

#人工智能#语言模型
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择