Wanderer X 个人主页

@wandererXX

Wanderer X

2023-01-06 18:42:21 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM】Deepseek

版本参数规模架构类型上下文长度核心创新V17B / 67B密集 Transformer4K基线模型，类 Llama 结构V2236B总/21B激活MoE + MLA128KMLA（KV缓存压缩）+ DeepSeekMoEV3671B总/37B激活MoE + MLA128K无辅助损失负载均衡 + MTP + FP8训练V41.6T总/49B激活1M混合稀疏注意力 + 超连接 + Muon优化器。

#人工智能

【LLM】OPD

也叫 Mode-Seeking。于是就出现了一个矛盾：训练时 Student 看到的是"完美的 prefix"，推理时它看到的是"自己可能犯错的 prefix"。：这是最主流的应用，用 70B、405B 级别的大模型作为 Teacher，蒸馏出 7B、13B 级别的小模型，使其在对话、推理等任务上尽量接近大模型的能力。：Student 生成了错误的 prefix 时，Teacher 会在这个错误的

#人工智能

【LLM】ROLL

ROLL（）是阿里巴巴/蚂蚁集团开源的分布式强化学习训练框架，专为大语言模型（LLM）后训练设计。它支持 PPO、GRPO 等主流 RL 算法，核心目标是高效、稳定地完成 RLHF（基于人类反馈的强化学习）流程。Actor（策略模型）、Critic（价值模型）、（冻结的参考策略）、（奖励模型）。

#人工智能

【面试】HR

算法岗位的 HR 面（人力资源面试）通常是面试流程的最后一环。与技术面侧重考察你的代码能力、数学基础和模型理解不同，

#面试

【LLM】Qwen

与此同时，Qwen 在这一阶段形成了完整的专用模型矩阵——Qwen2.5-Coder（代码）、Qwen2.5-Math（数学）、Qwen2.5-VL（视觉语言）等，其中 Qwen2.5-Math 使用了万亿规模的数学语料，Qwen2.5-Coder 则利用了 5.5 万亿 token 的代码语料。Qwen3 的关键创新是将思考模式（用于复杂的多步推理）和非思考模式（用于快速的上下文驱动响应）集成到

在游戏开发、计算机图形学、机器人学、VR/AR等领域，准确、高效地表示和操作三维空间中的旋转，是构建一切动态世界的基础。然而，“旋转”这个看似简单的概念，在数学和工程上有多种截然不同的表达方式，每一种都有其独特的优势和无法回避的“天坑”。你可能听说过“万向节死锁”，可能对四元数的“抽象”感到困惑，也可能好奇为什么AI领域偏爱一种叫的新奇玩意儿。本文将为你一次性梳理清楚欧拉角、轴角式、旋转矩阵、四元

#人工智能

旋转表达形式

#人工智能

STEVE

这篇论文主要对比了两个行业内非常有名的基线模型：AutoGPT 和 Voyager 。AutoGPT：这是一个自然语言处理自动化工具，主要依赖纯文本。它由 GPT-4 驱动，通过处理文本形式的智能体状态、环境反馈和执行错误来管理和执行子目标。Voyager：这是一个在《我的世界》中非常经典的智能体，同样使用 GPT-4。它的特点是具有长期的程序化记忆和一个代码技能库。但是，Voyager

#人工智能

【DL】公式速记

DDPM 是站在变分自编码器（VAE）和马尔可夫链的肩膀上推导出来的。在那个框架下，前向必须是马尔可夫链，后验推导极其依赖联合概率分解，因此不可避免地带入了随机项。在当时的理论框架内，DDPM 是非常严谨且完美的。DDIM 的作者跳出了马尔可夫的限制，发现只要边缘分布对齐，联合分布怎么构造都可以。这是一种对 DDPM 图模型的巧妙拓展。的定义以及优化目标均与 DDPM 完全相同。DDIM 的视

#机器学习 #人工智能

共 49 条

请选择