logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型问题:幻觉分类+原因+各个训练阶段产生幻觉+幻觉的检测和评估基准

Cossio的工作从理论到实践,系统重塑了我们对LLM幻觉的理解——它不再是单纯的“错误”或“缺陷”,而是计算模型的根本属性,必须通过科学的分类、因果分析及多元策略加以管理。该研究为LLM安全应用提供了坚实的理论支撑与操作指南,推动AI技术向负责任、可控的方向发展。

#分类#人工智能#大数据
通用奖励模型:潜藏于大语言模型内部;LLM不再需要奖励模型?我们已经“预训练“了它!

论文标题: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS大语言模型(LLM)的对齐高度依赖于昂贵的人类偏好数据训练出的奖励模型。近期研究尝试用 AI 反馈规避这一成本,但缺乏严谨的理论基础。本文发现,任何基于标准“下一个 token 预测”训练的 LLM 内部,已经潜藏了一个强大的通用奖励模型。我们证明,这种内生奖励并非启

#语言模型#人工智能#自然语言处理
ASPO: PPO-clip的正样本 token 权重错配问题与影响:Hard Clip,Soft Clip, Dual-Clip,Dual-Token Clip

1.首先梳理了PPO-Clip中两个核心机制——Token-Masking 与 Importance-Sampling——的作用与设计初衷;2.然后从以上两个角度出发,审视了近半年来各类针对 PPO-Clip 的改进工作,分析其合理性及有效性;3.接下来通过实验证明在 GRPO 类算法应用于 LLM 训练时,重要性采样的分布调整机制并不重要,相反,这个重要性权重更可能是通过 token训练权重的机

#redis#数据库#缓存
OpenAI官方写的GPT-5 prompt指南

OpenAI官方写的GPT-5 prompt指南来了,看看官方是怎么让GPT-5表现更好的。该指南融汇贯通后,还可用于其他AI大模型。地址:cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide。

常用的optimizer优化器和优化函数::[MUON->MuonClip->Gluon->AdaMuon ]

Kimi.ai 的 Moonlight 模型(一个 16B 参数的 MoE 模型,使用 5.7T tokens 训练)成功采用 Muon 作为主要优化器,证明了其在工业级规模应用的可行性。

#人工智能
模型训练-关于token【低概率token, 高熵token】

下图是作者的统计结果,可见基础模型中初始熵较高的 token 在 RL 后往往表现出更大的熵增,这与三中的实验结论不谋而合,表明 RL 带来推理性能提升的原因之一,很可能就是因为高熵 token 的不确定性更强了,提高了大模型推理的灵活性。这一关系清晰地表明,词元概率越低,其梯度贡献越大,反之则越小。可见在 RL 训练过程中,尽管与基础模型的重叠逐渐减少,但在收敛时(第 1360 步),基础模型的

#人工智能#自然语言处理#算法
verl训练拆解GRPO,PPO等训练原理,verl框架训练GRPO

在强化学习中,一个episode是指智能体(Agent)与环境(Environment)之间一次完整的交互序列。这个序列从智能体开始观察环境状态开始,然后根据其策略选择一个动作并执行,环境会给出新的状态和奖励,这个过程会一直重复,直到达到某种终止状态,比如游戏结束、任务完成或达到预定的步数。每个episode都是独立的,结束后会重置环境并开始新的episode。例如,在一个简单的迷宫游戏中,一个e

#人工智能
MoE 模型 Post-Training 的核心难点

首先,路由机制在微调阶段极易失稳。MoE 模型依赖一个可学习的 router 来决定每个 token 应该分配给哪些 expert。在预训练阶段,模型通过海量数据学习到一个相对均衡的专家激活分布。但一旦进入 Post-Training 阶段,训练数据量锐减、任务目标高度聚焦(如指令微调、工具调用、安全对齐等),router 很容易陷入“马太效应”——少数专家被频繁激活,而其他专家逐渐“失活”。这种

#人工智能#深度学习#算法
ERROR: Cannot uninstall ‘certifi‘. It is a distutils installed project and thus we cannot accurately

解决方式/share/apps/anaconda3/envs/env_name/lib/python3.6/site-packages删除certifi - egg-info 文件

#conda
    共 71 条
  • 1
  • 2
  • 3
  • 8
  • 请选择