logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

自用trick清单:29个让GRPO「不翻车」的野路子技巧

本文总结了29个实战有效的GRPO算法调参技巧,涵盖策略探索、奖励设计、稳定性提升等七大类,强调其在大模型对齐中的工业级应用价值与场景适配性。

文章图片
#人工智能#论文阅读#算法
【论文笔记】DeepSeek-R1 技术报告

顿悟时刻”在这个阶段,DeepSeek-R1-Zero 学会为问题分配更多的思考时间,通过重新评估其初始方法来实现。这种行为不仅是模型推理能力增长的证明,也是研究人员观察其行为的一个“顿悟时刻”。它突显了强化学习的力量和美丽:我们不是明确地教模型如何解决问题,而是仅仅提供正确的激励,模型就会自主发展出高级的问题解决策略。“顿悟时刻” 有力地提醒我们,RL 解锁人工系统中智力新水平的潜力,为未来更自

文章图片
#论文阅读
Test-time scaling 技术领域调研

摘要: Test-time Scaling (TTS) 是一种在推理阶段通过额外计算或策略提升预训练语言模型性能的技术,无需重新训练模型。其核心思想是挖掘模型潜在能力,通过更深入思考或多路径探索优化输出质量。TTS的必要性源于大模型训练成本高昂、部署后性能优化需求,以及适应新任务和提升鲁棒性的挑战。常见方法包括并行扩展(生成多个候选答案)、序列扩展(逐步细化推理)、混合扩展(结合并行与序列策略)和

文章图片
#论文阅读#人工智能#算法
【深度学习知识点扫盲】病态、病态条件

【深度学习知识点扫盲】病态、病态条件

#机器学习
【深度学习知识点扫盲】MAP,最大后验

本文主要介绍MAP及最大后验及其相关数学内容。文章目录MAP与最大后验数学相关MAP与最大后验在贝叶斯统计学中,最大后验(Maximum A Posteriori,MAP)估计可以利用经验数据获得对未观测量的点态估计。它与Fisher的最大似然估计(Maximum Likelihood,ML)方法相近,不同的是它扩充了优化的目标函数,其中融合了预估计量的先验分布信息,所以最大后验估计可以看作是正则

【深度学习知识点扫盲】病态、病态条件

【深度学习知识点扫盲】病态、病态条件

#机器学习
【论文笔记】强化学习DQN专题经典论文6篇

论文列表详见:openAI spinning-up key paper list

文章图片
#深度学习#神经网络
编译原理——理解LL/LR/SLR/LALR

LL(1)文法属于自上而下的分析方法。也就是说,同一个非终结符的多种递推方式中,首字母一定不同。这样就可以只用根据一个首字母就可以判断出是哪一个递推式子。文法名字由来第一个L代表从左边开始扫描;第二个L表示产生最左推导数字1表示每一步推导式只需要向后看一个符号就可以LL(1)文法的明显性质没有公共左因子(如果有,那么无法只读一个字符就判断如何递归)不是二义的(每个读入的字符都...

connected paper 在可视化图形中浏览相关论文

网站介绍Connected Papers是一个旨在帮助科研工作者搜索文献的免费工具。今天偶然发现,记录一下自己的使用经历。顺便推荐给大家。网址:https://www.connectedpapers.com/特点:① 输入你所查阅的文献后,即可呈现一个可视化的相关文献网络图,使原本一排排罗列着的参考文文献调研神器–献图像化。② 可视化的相关文献网络图列举的都是与本研究领域最相关以及最重要的文献,帮

【论文笔记】强化学习DQN专题经典论文6篇

论文列表详见:openAI spinning-up key paper list

文章图片
#深度学习#神经网络
    共 12 条
  • 1
  • 2
  • 请选择