Shannon@ 个人主页

@2501_91903104

Shannon@

2025-05-06 08:53:43 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GR-2 技术报告：一种具备网络规模知识的生成式视频-语言-动作大模型用于机器人操作

本文提出GR-2——一种融合网络规模视频知识与生成式轨迹建模的通用机器人代理，核心突破包括：两阶段训练范式创新：预训练阶段：在3800万网络视频（500亿token）上学习未来帧预测，构建世界动态先验微调阶段：结合CVAE生成7维笛卡尔空间轨迹（位置+旋转+夹爪），实现动作-视频联合预测关键技术升级：多视角VQGAN离散编码（头部/腕部相机）支持复杂场景解析扩散模型背景替换+SAM物体插入增强泛化

#机器人

自然语言处理核心技术词嵌入（Word Embedding），从基础原理到大模型应用

为了解决这种序列到序列（sequence-to-sequence）的问题，比如机器翻译中输入输出长度不一致的情况，人们引入了编码器-解码器结构，并使用了循环神经网络（RNN）。这是标准的 Word2Vec 方法，它的核心是训练出一个“词典式”的嵌入矩阵 W，只捕捉单个词的语义。因此，机器翻译的关键在于：如何从纯文本中提取出一种通用的语义表示，使得不同语言的词可以通过这一表示实现对齐。通过前面的介绍

#自然语言处理 #人工智能

DeepSeek推理能力（Reasoning）：从奖励模型到规则引擎

本文系统梳理DeepSeek在推理能力（Reasoning）领域的技术演进：代码预训练奠基：DeepSeek-Coder通过纯代码数据训练，首次验证代码能力对通用推理的促进作用。数学推理突破：DeepSeekMath引入过程监督和GRPO算法（轻量强化学习），实现开源数学模型SOTA。形式化证明探索：DeepSeek-Prover结合定理证明引擎（如Lean），用形式化验证替代奖励模型反馈。规则反

#DeepSeek

Deepseek基座：Deepseek-v3核心内容解析

这篇是Deepseek正式受到大量关注的论文，可以看作是v2的scale up，参数规模达到671B，是当时非常出名的 DeepSeek-R1 的基座模型。相比前代 DeepSeek-V2（236B），V3 模型规模接近三倍，训练 token 数量达到 14.8T，远超 V2 的 8.1T。尽管模型规模巨大，DeepSeek-V3 的训练成本却非常低廉，使用，训练时长为；总花费仅，远低于同期其他开

#深度学习 #人工智能

【第一章】大模型预训练全解析：定义、数据处理、流程及多阶段训练逻辑

本文系统解析大模型预训练全流程：定义：通过大规模无标注语料的自监督学习（Next Token Prediction），使模型掌握通用知识和模式。数据处理：涵盖数据来源（网络/书籍）、清洗（去重/去噪）、分词（BPE等）及多阶段（PT/SFT/RM/PPO）的数据格式差异。训练逻辑：PT阶段：整段文本损失计算SFT阶段：仅计算Response部分的损失（通过-100屏蔽Prompt）统一使用交叉熵损

自然语言处理核心技术词嵌入（Word Embedding），从基础原理到大模型应用

#自然语言处理 #人工智能

Deepseek基座：Deepseek-v3核心内容解析

#深度学习 #人工智能

DeepSeek推理能力（Reasoning）：从奖励模型到规则引擎

#DeepSeek

Deepseek基座：Deepseek-v2核心内容解析

Deepseek v2可以看作是上面那一篇paper的scale up，不过也有一些非常重要的技术。从论文名字可以看出来“A Strong, Economical, and Efficient”，他们提出了进一步降低成本的技术DeepSeek-V2 是236B的混合专家模型（MoE），每个 token 激活21B，极大降低了推理成本。相比第一代的 DeepSeek 67B，虽然模型规模更大（接近其

#DeepSeek

Deepseek基座：DeepSeek LLM核心内容解析

DeepSeek LLM 的本质突破：以科学方法将工程复现转化为创新跳板——通过数据质量量化、超参数缩放定律、动态训练策略，为开源社区提供了一套可复现、可扩展的高效训练范式，奠定后续 DeepSeek-V2/V3/R1 的技术基因。

#人工智能

到底了