logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文笔记(一百二十六)Distracted Robot: How Visual Clutter Undermine Robotic Manipulation

摘要 本文提出了一种评估机器人操作策略在视觉杂乱场景中性能的新协议。通过心理物理学视角,作者采用统一的杂乱度量方法,综合考虑干扰物数量、特征、排列方式及环境因素,在仿真和真实环境中进行系统评估。实验发现视觉杂乱最多可使视觉-语言-动作(VLA)模型性能下降34%,且不同策略存在独特脆弱性。研究证实所提出的杂乱度量能有效预测性能退化,并分析了干扰物数量和遮挡的影响。尽管数据增强微调能提升性能,但无法

文章图片
#论文阅读
具身智能零碎知识点(四):联合嵌入预测架构(JEPAs)详解

**联合嵌入预测架构(JEPAs)** 是一种自监督学习框架,旨在通过**预测隐空间(Latent Space)的抽象特征**而非原始数据(如图像像素),来高效学习数据的本质规律。它结合了对比学习(对比嵌入)和预测建模的优势,目标是让模型在低维嵌入空间中捕捉数据的高层语义关系。

#pytorch#人工智能#python
具身智能零碎知识点(六):VAE 核心解密:重参数化技巧(Reparameterization Trick)到底在干啥?

摘要: 变分自编码器(VAE)通过编码器输出概率分布参数(均值μ和方差σ²),并从中采样潜在向量z,但采样操作的随机性导致梯度无法回传,阻碍训练。重参数化技巧通过将采样过程改写为确定性计算(z = μ + σ·ε,ε∼N(0,1)),将随机性转移至独立噪声ε,使梯度可顺利回传至编码器的μ和σ参数。代码中,编码器通常输出对数方差(logσ²),经指数和平方根运算得到σ,再结合标准正态噪声ε生成z。这

#机器学习#深度学习#人工智能
论文笔记(一百二十五)Denoising Particle Filters: Learning State Estimation with Single-Step Objectives(一)

摘要: 本文提出了一种基于去噪粒子滤波(DnPF)的新型状态估计方法,通过单步目标训练模型,避免了传统端到端训练的复杂性。该方法利用去噪分数匹配隐式学习测量模型,并结合动力学模型在推理阶段近似求解贝叶斯滤波方程。实验表明,DnPF在复杂机器人状态估计任务中性能优于传统方法,同时具备模块化优势,可无缝整合外部传感器模型而无需重新训练。这一框架融合了经典滤波器的可解释性与学习方法的灵活性,为高效、可扩

文章图片
#论文阅读
Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(7)

运行官方代码库中提供的Colab代码:vision-based environment(二)(7)

文章图片
#pytorch#人工智能#python +2
论文笔记(七十)DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(一)

我们推出了第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。然而,它也面临一些挑战,例如可读性差和语言混合问题。为了解决这些问题并进一步提升推理性

文章图片
#论文阅读
论文笔记(一百一)Robot Learning from a Physical World Model

本文提出PhysWorld框架,通过物理世界建模实现机器人从视频生成中学习。该框架结合视频生成与物理重建:给定单幅图像和任务指令,首先生成任务条件化视频,随后重建其背后的物理世界模型。通过以物体为中心的残差强化学习,将生成视频中的运动转化为符合物理规律的精确动作。这种方法无需真实机器人数据采集,实现零样本可泛化的机器人操控。实验表明,PhysWorld在多种真实任务中显著提升操控精度,优于现有方法

文章图片
#论文阅读
论文笔记(七十五)Auto-Encoding Variational Bayes

我们如何在具有连续潜变量的、有向概率模型中进行高效的推断与学习,同时应对后验分布不可解的情况与大规模数据集?我们提出了一种**随机变分推断与学习算法(stochastic variational inference and learning algorithm)**,该算法能够扩展至大规模数据集,并且在满足一些温和的可微性条件下,即使在后验分布不可解的情况下也能正常工作。我们的贡献是双重的。首先,

文章图片
#论文阅读#chrome#前端
论文笔记(七十)DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(三)

我们推出了第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。然而,它也面临一些挑战,例如可读性差和语言混合问题。为了解决这些问题并进一步提升推理性

文章图片
#论文阅读
论文笔记(七十)DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(二)

我们推出了第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,没有经过监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。然而,它也面临一些挑战,例如可读性差和语言混合问题。为了解决这些问题并进一步提升推理性

文章图片
#论文阅读
    共 123 条
  • 1
  • 2
  • 3
  • 13
  • 请选择