logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Megatron Core 并行训练主线:不看代码版

Megatron Core 的代码里同时交织着模型结构、并行切分、通信调度、优化器状态和低精度后端。本文按训练主线梳理这些模块各自解决的问题,以及它们如何接到同一条 GPT 训练流程上。

从一次 Hermes Agent 会话看 System Prompt、Tools 和 Skills

最近我看了一次 Hermes Agent 的会话导出。用户只问了一句话:调研近期大模型知识注入相关论文。这个任务本身不复杂。有意思的是过程:Hermes 没有直接凭模型记忆写一篇综述,而是先加载 arXiv 相关 skill,再用工具多轮检索论文,最后把结果按技术路线整理出来。所以这篇笔记不重点讨论知识注入论文,而是借这次会话看一个 Agent 系统到底怎么工作:system prompt 在管什

全网最详llm.c源码解读--forward、backward、AdamW等CUDA Kernel详解

/ 执行完之后acts.output存储logits的梯度// 融合的分类头:前向计算和部分反向计算// ix是真实类别标签// 只计算真实类别标签所在位置的prob,其他位置均为0// sp.Offset/sp.Scale:softmax的数值稳定参数// 计算loss:-logsumexp// dloss是​​损失函数对当前样本的梯度(样本是指每个token的损失),表示​​整体损失对当前样本

#c语言#矩阵#人工智能 +1
LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。

全网最详llm.c源码解读--forward、backward、AdamW等CUDA Kernel详解

/ 执行完之后acts.output存储logits的梯度// 融合的分类头:前向计算和部分反向计算// ix是真实类别标签// 只计算真实类别标签所在位置的prob,其他位置均为0// sp.Offset/sp.Scale:softmax的数值稳定参数// 计算loss:-logsumexp// dloss是​​损失函数对当前样本的梯度(样本是指每个token的损失),表示​​整体损失对当前样本

#c语言#矩阵#人工智能 +1
Offline RLHF-DPO/KTO/ORPO/SPO等偏好学习方法

论文认为在iterative DPO中,每次启动DPO训练,reference model不应该使用最早的SFT模型,因为最新的偏好数据是从最新训练好的模型采样的,而不是从最初的SFT模型中采样,因此每次启动训练都需要更新reference model。论文指出DPO、CPO、SimPO都属于单边对比学习,这类方法会持续地将chosen样本的概率预测拉向1,rejected样本拉向0,这通常对分类

大模型奖励黑客Reward Hacking(也叫Reward Overoptimization)问题的相关论文介绍

在基于人类反馈的强化学习优化过程中,当以reward model的评分作为奖励进行优化时,如果reward model不能完全代表人类的偏好,就可能出现奖励黑客,即reward hacking。本文主要研究了基于大模型的生成器和评估器的自我迭代的框架中,由于基于大模型的评估器并不能代表人类真实的判断意图,造成存在一定的reward hacking问题。提出了一种改进的RM算法,ODIN,即使用le

#人工智能#语言模型#自然语言处理 +2
介绍下近期的开源大模型

论文因此提出 MiMo-V2-Flash:用更省 KV-cache 与更快解码的设计,在长上下文与智能体任务上尽量逼近顶尖模型表现。他们指出:一些闭源模型在某些单项(如推理或代码修复)非常强,但三项都强的开源通用模型仍稀缺,因此提出 GLM-4.5 系列,目标是统一 ARC 能力,并提供思考/不思考两种响应模式。作者基于 Qwen3-30B-A3B-Thinking 做系统化 post-train

    共 26 条
  • 1
  • 2
  • 3
  • 请选择