logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【第三十八周】VLN文献阅读

第二层为推理层,研究人员称之为认识大脑,这一层就是真正的决策者,它基于上一层的输入,一边做场景推理,一边给后面的动作层发指令,是整个模型的中枢系统,推理层的大模型基座是Qwen3-4B,这是阿里通义千问的最新大模型系列,4B 表示它的参数量约为 40 亿,它的语言理解、常识推理能力足够强,能处理复杂的导航逻辑,并且4B 的参数量足够小,可以部署在机器人的嵌入式设备(比如Jetson Orin)上,

【第四十四周】基于 SayCan + NLMap 的语义导航系统搭建与仿真验证

本周主要完成了一个基于 SayCan + NLMap 思想的语义导航系统的搭建与验证。系统能够:从图片中识别物体及颜色属性(DETR + CLIP)理解自然语言指令,解析为 pick / navigate / place 动作(DeepSeek)在 Webots 仿真环境中获取物体的 3D 坐标控制机器人移动到目标物体位置整体架构采用双进程通信:窗口1 运行 Webots 服务器,窗口2 运行语义

【第四十四周】基于 SayCan + NLMap 的语义导航系统搭建与仿真验证

本周主要完成了一个基于 SayCan + NLMap 思想的语义导航系统的搭建与验证。系统能够:从图片中识别物体及颜色属性(DETR + CLIP)理解自然语言指令,解析为 pick / navigate / place 动作(DeepSeek)在 Webots 仿真环境中获取物体的 3D 坐标控制机器人移动到目标物体位置整体架构采用双进程通信:窗口1 运行 Webots 服务器,窗口2 运行语义

【第四十四周】基于 SayCan + NLMap 的语义导航系统搭建与仿真验证

本周主要完成了一个基于 SayCan + NLMap 思想的语义导航系统的搭建与验证。系统能够:从图片中识别物体及颜色属性(DETR + CLIP)理解自然语言指令,解析为 pick / navigate / place 动作(DeepSeek)在 Webots 仿真环境中获取物体的 3D 坐标控制机器人移动到目标物体位置整体架构采用双进程通信:窗口1 运行 Webots 服务器,窗口2 运行语义

【第四十三周】论文阅读《Planning with the Views via Scene Self-Exploration》

另一个值得注意的发现是:通过IVP训练获得的“空间先验”可以迁移到其他视角相关的任务中。而我的当前工作更关注[请在此处填入你的任务,例如:“在未知环境中导航到指定物体”或“理解物体之间的空间关系”或“从第一人称视角描述场景内容”],涉及[具体能力差异,例如:“物体级别的语义理解”“路径可达性判断”“多物体交互推理”等]。这与我目前的训练方式不同——我使用的是[请填写你的数据来源,例如:“人工标注的

#论文阅读
【第四十一周】VLN

这周主要细看《PLANNING WITH AN EMBODIED LEARNABLE MEMORY》,以下简称EPM,EPM这篇论文主要是一个可学习记忆,直接输出文本化的环境表示(物体列表、坐标、描述),大语言模型可以直接读懂这个记忆,无需中间查询,VLM能够对记忆进行ADD、UPDATE、Remove、No update 四个操作,我的想法主要是让EPM作为一个高层的规划器,通过用户输入的自然语

【第二十五周】机器学习笔记

本周学习了推荐系统中的均值归一化方法及其重要性,该方法通过减去每部电影的平均评分来提升算法效率,并为未评分的新用户提供更合理的初始预测。同时,初步接触了使用 TensorFlow 实现协同过滤算法,了解了如何利用其自动求导功能简化模型优化过程,减少手动计算导数的工作量。一是理解了均值归一化的作用,它通过调整评分数据来加速算法运行,并让新用户的预测更贴近电影的平均评分,而非默认零值。二是学习了用 T

#机器学习#人工智能
【第三十九周】情感分析文献综述

社交媒体已成为公众情感表达与舆论形成的关键场所,但数据碎片化、复杂情绪以及多模态特性为情感与行为挖掘带来挑战。本文系统梳理了社交媒体情感挖掘的理论、方法、应用与批判。研究发现,该领域经历了从基于基本情绪理论的简单分类,到融合社交语境与深度学习模型,再到当前以大语言模型驱动、面向真实世界复杂语境的模式转变。以MindVote为代表的基准研究证实,基于真实社交媒体数据训练的模型优于传统结构化调查微调模

【第三十八周】VLN文献阅读

第二层为推理层,研究人员称之为认识大脑,这一层就是真正的决策者,它基于上一层的输入,一边做场景推理,一边给后面的动作层发指令,是整个模型的中枢系统,推理层的大模型基座是Qwen3-4B,这是阿里通义千问的最新大模型系列,4B 表示它的参数量约为 40 亿,它的语言理解、常识推理能力足够强,能处理复杂的导航逻辑,并且4B 的参数量足够小,可以部署在机器人的嵌入式设备(比如Jetson Orin)上,

【第三十七周】VLN文献阅读

在模型训练阶段,采用了流查询令牌,是一个辅助任务工具,作用是让模型学会预测未来,从而更懂环境的动态变化,它不是推理时必须的,推理时会被直接删除掉,不会拖慢机器人的运行速度,具体操作是训练时加入可学习令牌<q_2D>、<q_3D>,这两个令牌是模型里的特殊占位符,用来对2D语义和3D空间提问和预测,它们会回看前面所有帧的2D/3D特征,即反向查询上下文,然后预测出下一个时刻的2D/3D隐特征(隐特征

#人工智能
    共 23 条
  • 1
  • 2
  • 3
  • 请选择