logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【第四十一周】VLN

这周主要细看《PLANNING WITH AN EMBODIED LEARNABLE MEMORY》,以下简称EPM,EPM这篇论文主要是一个可学习记忆,直接输出文本化的环境表示(物体列表、坐标、描述),大语言模型可以直接读懂这个记忆,无需中间查询,VLM能够对记忆进行ADD、UPDATE、Remove、No update 四个操作,我的想法主要是让EPM作为一个高层的规划器,通过用户输入的自然语

【第二十五周】机器学习笔记

本周学习了推荐系统中的均值归一化方法及其重要性,该方法通过减去每部电影的平均评分来提升算法效率,并为未评分的新用户提供更合理的初始预测。同时,初步接触了使用 TensorFlow 实现协同过滤算法,了解了如何利用其自动求导功能简化模型优化过程,减少手动计算导数的工作量。一是理解了均值归一化的作用,它通过调整评分数据来加速算法运行,并让新用户的预测更贴近电影的平均评分,而非默认零值。二是学习了用 T

#机器学习#人工智能
【第三十九周】情感分析文献综述

社交媒体已成为公众情感表达与舆论形成的关键场所,但数据碎片化、复杂情绪以及多模态特性为情感与行为挖掘带来挑战。本文系统梳理了社交媒体情感挖掘的理论、方法、应用与批判。研究发现,该领域经历了从基于基本情绪理论的简单分类,到融合社交语境与深度学习模型,再到当前以大语言模型驱动、面向真实世界复杂语境的模式转变。以MindVote为代表的基准研究证实,基于真实社交媒体数据训练的模型优于传统结构化调查微调模

【第三十八周】VLN文献阅读

第二层为推理层,研究人员称之为认识大脑,这一层就是真正的决策者,它基于上一层的输入,一边做场景推理,一边给后面的动作层发指令,是整个模型的中枢系统,推理层的大模型基座是Qwen3-4B,这是阿里通义千问的最新大模型系列,4B 表示它的参数量约为 40 亿,它的语言理解、常识推理能力足够强,能处理复杂的导航逻辑,并且4B 的参数量足够小,可以部署在机器人的嵌入式设备(比如Jetson Orin)上,

【第三十七周】VLN文献阅读

在模型训练阶段,采用了流查询令牌,是一个辅助任务工具,作用是让模型学会预测未来,从而更懂环境的动态变化,它不是推理时必须的,推理时会被直接删除掉,不会拖慢机器人的运行速度,具体操作是训练时加入可学习令牌<q_2D>、<q_3D>,这两个令牌是模型里的特殊占位符,用来对2D语义和3D空间提问和预测,它们会回看前面所有帧的2D/3D特征,即反向查询上下文,然后预测出下一个时刻的2D/3D隐特征(隐特征

#人工智能
【第三十七周】VLN文献阅读

在模型训练阶段,采用了流查询令牌,是一个辅助任务工具,作用是让模型学会预测未来,从而更懂环境的动态变化,它不是推理时必须的,推理时会被直接删除掉,不会拖慢机器人的运行速度,具体操作是训练时加入可学习令牌<q_2D>、<q_3D>,这两个令牌是模型里的特殊占位符,用来对2D语义和3D空间提问和预测,它们会回看前面所有帧的2D/3D特征,即反向查询上下文,然后预测出下一个时刻的2D/3D隐特征(隐特征

#人工智能
【第三十三周】具身智能体领域的不足的解决方法

这周主要的是根据上周发现的不足,检索一些最近的文献,看看有没有解决问题的方法。

#人工智能#机器学习#深度学习
【第三十二周】具身智能体领域的不足和解决方法

摘要: 本文总结了具身智能体领域的六个关键问题及解决思路:1) 数据迁移问题可通过模块迁移或经验池共享解决;2) 感知-导航-交互割裂问题可采用统一架构、信息闭环或协同优化;3) 动态环境感知可通过动态语义地图、物体状态机或时序跟踪实现;4) 模糊指令处理结合LLM/VLM多模态询问;5) 记忆优化采用过期机制、任务生命周期或重要性加权;6) 数据集泛化需混合多场景训练。这些方案通过迁移学习、协同

#人机交互
【第三十一周】具身智能体领域总结

目前这些文章的研究领域是属于具身智能领域,所谓具身智能,在我看来,就是让智能体脱离抽象分析的层面,将其寄托于一个“身体”上,机器人通过这个身体,就像人类一样,自主感知、理解世界,并且能够对于不同任务要求,能够自主导航、自主识别、自主生成与物体交互的动作序列,与现实世界进行直接的接触。这些论文分为三个研究方向:分别是智能体3D场景感知、智能体自主导航策略、手-物交互与动作生成,下面将分别阐述这三个方

#人工智能
【第三十一周】具身智能体领域总结

目前这些文章的研究领域是属于具身智能领域,所谓具身智能,在我看来,就是让智能体脱离抽象分析的层面,将其寄托于一个“身体”上,机器人通过这个身体,就像人类一样,自主感知、理解世界,并且能够对于不同任务要求,能够自主导航、自主识别、自主生成与物体交互的动作序列,与现实世界进行直接的接触。这些论文分为三个研究方向:分别是智能体3D场景感知、智能体自主导航策略、手-物交互与动作生成,下面将分别阐述这三个方

#人工智能
    共 22 条
  • 1
  • 2
  • 3
  • 请选择