
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
版本参数规模架构类型上下文长度核心创新V17B / 67B密集 Transformer4K基线模型,类 Llama 结构V2236B总/21B激活MoE + MLA128KMLA(KV缓存压缩)+ DeepSeekMoEV3671B总/37B激活MoE + MLA128K无辅助损失负载均衡 + MTP + FP8训练V41.6T总/49B激活1M混合稀疏注意力 + 超连接 + Muon优化器。
也叫 Mode-Seeking。于是就出现了一个矛盾:训练时 Student 看到的是"完美的 prefix",推理时它看到的是"自己可能犯错的 prefix"。:这是最主流的应用,用 70B、405B 级别的大模型作为 Teacher,蒸馏出 7B、13B 级别的小模型,使其在对话、推理等任务上尽量接近大模型的能力。:Student 生成了错误的 prefix 时,Teacher 会在这个错误的
ROLL()是阿里巴巴/蚂蚁集团开源的分布式强化学习训练框架,专为大语言模型(LLM)后训练设计。它支持 PPO、GRPO 等主流 RL 算法,核心目标是高效、稳定地完成 RLHF(基于人类反馈的强化学习)流程。Actor(策略模型)、Critic(价值模型)、(冻结的参考策略)、(奖励模型)。
与此同时,Qwen 在这一阶段形成了完整的专用模型矩阵——Qwen2.5-Coder(代码)、Qwen2.5-Math(数学)、Qwen2.5-VL(视觉语言)等,其中 Qwen2.5-Math 使用了万亿规模的数学语料,Qwen2.5-Coder 则利用了 5.5 万亿 token 的代码语料。Qwen3 的关键创新是将思考模式(用于复杂的多步推理)和非思考模式(用于快速的上下文驱动响应)集成到
版本参数规模架构类型上下文长度核心创新V17B / 67B密集 Transformer4K基线模型,类 Llama 结构V2236B总/21B激活MoE + MLA128KMLA(KV缓存压缩)+ DeepSeekMoEV3671B总/37B激活MoE + MLA128K无辅助损失负载均衡 + MTP + FP8训练V41.6T总/49B激活1M混合稀疏注意力 + 超连接 + Muon优化器。
在游戏开发、计算机图形学、机器人学、VR/AR等领域,准确、高效地表示和操作三维空间中的旋转,是构建一切动态世界的基础。然而,“旋转”这个看似简单的概念,在数学和工程上有多种截然不同的表达方式,每一种都有其独特的优势和无法回避的“天坑”。你可能听说过“万向节死锁”,可能对四元数的“抽象”感到困惑,也可能好奇为什么AI领域偏爱一种叫的新奇玩意儿。本文将为你一次性梳理清楚欧拉角、轴角式、旋转矩阵、四元
在游戏开发、计算机图形学、机器人学、VR/AR等领域,准确、高效地表示和操作三维空间中的旋转,是构建一切动态世界的基础。然而,“旋转”这个看似简单的概念,在数学和工程上有多种截然不同的表达方式,每一种都有其独特的优势和无法回避的“天坑”。你可能听说过“万向节死锁”,可能对四元数的“抽象”感到困惑,也可能好奇为什么AI领域偏爱一种叫的新奇玩意儿。本文将为你一次性梳理清楚欧拉角、轴角式、旋转矩阵、四元
这篇论文主要对比了两个行业内非常有名的基线模型:AutoGPT 和 Voyager 。AutoGPT: 这是一个自然语言处理自动化工具,主要依赖纯文本。它由 GPT-4 驱动,通过处理文本形式的智能体状态、环境反馈和执行错误来管理和执行子目标 。Voyager: 这是一个在《我的世界》中非常经典的智能体,同样使用 GPT-4。它的特点是具有长期的程序化记忆和一个代码技能库 。但是,Voyager







