
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
四元数是复数(Complex Numbers)在四维空间的扩展。一个四元数由一个实部(Scalar,)和三个虚部(Vector,)组成:或者写成向量形式:在具身智能的工程实践中,为了描述旋转,我们只使用单位四元数 (Unit Quaternion)
四元数是复数(Complex Numbers)在四维空间的扩展。一个四元数由一个实部(Scalar,)和三个虚部(Vector,)组成:或者写成向量形式:在具身智能的工程实践中,为了描述旋转,我们只使用单位四元数 (Unit Quaternion)
1.在 20 分钟的通信闭环里,你发出的指令是基于“过去”的状态(10分钟前),执行的动作将发生在“未来”(10分钟后)。因为仿真器里的物理引擎(Physics Engine)是基于简化公式的,它无法完美模拟现实世界中复杂的空气动力学、软体形变、温度对电路的影响,以及延迟和随机噪声。我们在仿真器(Simulation)里训练机器人时,就像在一个没有延迟、没有噪声的完美真空中。你看到敌人,开枪,但什
1.在 20 分钟的通信闭环里,你发出的指令是基于“过去”的状态(10分钟前),执行的动作将发生在“未来”(10分钟后)。因为仿真器里的物理引擎(Physics Engine)是基于简化公式的,它无法完美模拟现实世界中复杂的空气动力学、软体形变、温度对电路的影响,以及延迟和随机噪声。我们在仿真器(Simulation)里训练机器人时,就像在一个没有延迟、没有噪声的完美真空中。你看到敌人,开枪,但什
网上关于 MCTS(蒙特卡洛树搜索)的原理讲解很多,但能从直觉到公式,再到代码落地讲透的却很少。本文将分 10 个章节,像剥洋葱一样拆解 MCTS。我们要抛弃复杂的深度学习框架,仅用纯 Python,从最基础的“多臂老虎机”原理讲起,推导 UCB 公式,直到手写出一个完整的、能玩井字棋的 AI。无论你是 DRL 初学者还是想探究 AlphaGo 原理的开发者,这篇文章都能带你彻底通关。

以前的 CoT(思维链)像是在教模型“应试”,必须有题目、有提示才肯推理。而 Quiet-STaR 的出现,标志着大模型开始学会了“像学者一样阅读”——在海量的互联网文本中,通过预测未来的文字,自发地学会了“三思而后行”。这篇博客将剥开复杂的数学外衣,通俗解读 DeepMind/Stanford 这一开创性工作:当 AI 拥有了看不见的“内心独白”,通往 AGI 的路是否缩短了一程?

大模型做数学题总是“一步错,步步错”?大家都知道“过程奖励模型(PRM)”效果好,但动辄几十万条的人工标注数据实在太贵了。 今天这篇博客将带你深度拆解北大与 DeepSeek 联合推出的 Math-Shepherd。它不仅提出了一种无需人类介入、基于蒙特卡洛思想的自动化数据构造方法,更在 GSM8K 和 MATH 榜单上全面碾压了传统方法。这不仅是数学推理的胜利,更是数据工程的一次教科书级示范。无

下面给出(针对有限状态—动作集合、贴现因子、有界奖励)。证明路线遵循“”,并兼顾异步坐标更新的事实。所用到的关键工具是:Bellman 最优算子是范数下的压缩、Robbins–Monro 步长条件、鞅差噪声与异步随机逼近的收敛定理。
长久以来,卷积神经网络(CNN)凭借其精心设计的归纳偏置(inductive biases),无可争议地统治着计算机视觉领域。然而,一篇名为《An Image is Worth 16x16 Words》的论文彻底改变了这一格局,它所提出的 Vision Transformer (ViT) 模型,成功地将源于自然语言处理(NLP)领域的 Transformer 架构直接应用于图像识别,并取得了惊人的

摘要:标准化流是一种通过可逆神经网络将简单分布(如高斯分布)变换为复杂分布的深度学习方法。其核心思想基于变量替换公式,利用雅可比行列式校正概率密度变化。通过叠加多层可逆变换结构(如耦合层),在保证高效计算的同时实现复杂分布建模。训练过程采用最大似然估计,直接优化真实数据在模型分布下的对数似然。相比GAN和VAE,标准化流能精确计算似然函数,在生成建模、概率推断等任务中具有独特优势。







