
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Cossio的工作从理论到实践,系统重塑了我们对LLM幻觉的理解——它不再是单纯的“错误”或“缺陷”,而是计算模型的根本属性,必须通过科学的分类、因果分析及多元策略加以管理。该研究为LLM安全应用提供了坚实的理论支撑与操作指南,推动AI技术向负责任、可控的方向发展。
论文标题: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS大语言模型(LLM)的对齐高度依赖于昂贵的人类偏好数据训练出的奖励模型。近期研究尝试用 AI 反馈规避这一成本,但缺乏严谨的理论基础。本文发现,任何基于标准“下一个 token 预测”训练的 LLM 内部,已经潜藏了一个强大的通用奖励模型。我们证明,这种内生奖励并非启
1.首先梳理了PPO-Clip中两个核心机制——Token-Masking 与 Importance-Sampling——的作用与设计初衷;2.然后从以上两个角度出发,审视了近半年来各类针对 PPO-Clip 的改进工作,分析其合理性及有效性;3.接下来通过实验证明在 GRPO 类算法应用于 LLM 训练时,重要性采样的分布调整机制并不重要,相反,这个重要性权重更可能是通过 token训练权重的机
OpenAI官方写的GPT-5 prompt指南来了,看看官方是怎么让GPT-5表现更好的。该指南融汇贯通后,还可用于其他AI大模型。地址:cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide。
大模型部署和调用,本地&远程,
Kimi.ai 的 Moonlight 模型(一个 16B 参数的 MoE 模型,使用 5.7T tokens 训练)成功采用 Muon 作为主要优化器,证明了其在工业级规模应用的可行性。
下图是作者的统计结果,可见基础模型中初始熵较高的 token 在 RL 后往往表现出更大的熵增,这与三中的实验结论不谋而合,表明 RL 带来推理性能提升的原因之一,很可能就是因为高熵 token 的不确定性更强了,提高了大模型推理的灵活性。这一关系清晰地表明,词元概率越低,其梯度贡献越大,反之则越小。可见在 RL 训练过程中,尽管与基础模型的重叠逐渐减少,但在收敛时(第 1360 步),基础模型的
在强化学习中,一个episode是指智能体(Agent)与环境(Environment)之间一次完整的交互序列。这个序列从智能体开始观察环境状态开始,然后根据其策略选择一个动作并执行,环境会给出新的状态和奖励,这个过程会一直重复,直到达到某种终止状态,比如游戏结束、任务完成或达到预定的步数。每个episode都是独立的,结束后会重置环境并开始新的episode。例如,在一个简单的迷宫游戏中,一个e
首先,路由机制在微调阶段极易失稳。MoE 模型依赖一个可学习的 router 来决定每个 token 应该分配给哪些 expert。在预训练阶段,模型通过海量数据学习到一个相对均衡的专家激活分布。但一旦进入 Post-Training 阶段,训练数据量锐减、任务目标高度聚焦(如指令微调、工具调用、安全对齐等),router 很容易陷入“马太效应”——少数专家被频繁激活,而其他专家逐渐“失活”。这种
解决方式/share/apps/anaconda3/envs/env_name/lib/python3.6/site-packages删除certifi - egg-info 文件







