logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【机器人】CogNav 目标导航 | 认知过程建模 | LLM大模型

CogNav框架创新性地通过VLM和LLM协同解决具身AI中的目标物体导航难题。该框架构建包含场景图、地标图和占用图的异质认知地图,动态整合语义与空间信息。核心创新在于:1)用VLM实现多模态环境表征;2)通过LLM模拟人类五阶段认知过程(广泛搜索→目标确认);3)实现零样本、开放词汇的导航能力。实验表明,相比传统方法,CogNav在HM3D等数据集上成功率显著提升,且支持跨场景泛化。该工作为具身

文章图片
#机器人
DeepSeek-R1 本地电脑部署 Windows系统 【轻松简易】

本文分享在自己的本地电脑部署 DeepSeek,而且轻松简易,快速上手。借助Ollama工具,在Windows系统中进行大模型部署~

文章图片
#DeepSeek#windows
Mem0 | Mem0g | 长期记忆 | 可扩展 | AI代理

摘要:Mem0提出了一种可扩展的以内存为中心的算法,通过动态提取和检索关键对话信息,解决大语言模型固定上下文窗口的限制问题。其增强版Mem0g引入图结构记忆,捕捉对话元素间的复杂关系。实验表明,在LOCOMO基准测试中,相比OpenAI,该方法准确度提高26%,延迟降低91%,令牌使用减少90%。Mem0采用两阶段架构(提取+更新),通过轻量化上下文提取关键记忆;Mem0g则通过图结构增强记忆表示

文章图片
卡尔曼滤波器1——递归算法(笔记篇 + 代码实现)

前言本文是观看DR_CAN老师的视频后,简单总结了一下的笔记;这里主要讲卡尔曼滤波器与递归算法。卡尔曼滤波器卡尔曼滤波器,Kalmen Filter;可理解为是一种算法:最优化 递归 数字处理 算法。它更像一种观测器,而不是一般意义的滤波器。卡尔曼滤波器应用非常广泛,主要是因为很多事物存在不确定性,不确定性体现在三个方面:不存在完美的数学模型;系统存在扰动,或很难建模;测量传感器存在误差。案例1

【论文解读】单目3D目标检测 LPCG(ECCV 2022)

LPCG是一种用激光点云指导-单目3D目标检测的方法,通过点云数据生成海量粗略的3D标签,生成过程中不用对点云进行标注;降低3D标签的成本。同时这些海量“粗略的3D标签”位置是准确的,只是尺寸和朝向有些偏差;所以如何通过点云数据,直接生成粗略的3D标签是LPCG论文亮点。用这些海量“粗略的3D标签”,作为伪标签指导单目3D目标检测训练。这种方法可以应用到各种单目3D目标检测模型中,模型精度提升大,

文章图片
复现 FastVLM | 视觉语言模型 | 高效视觉编码 CVPR2025

苹果团队提出的FastVLM通过创新的FastViTHD混合编码器解决了高分辨率视觉语言模型(VLM)的效率问题。该模型采用5阶段混合架构,前3阶段使用RepMixer块进行局部特征提取,后2阶段采用自注意力机制捕捉全局依赖,通过渐进式下采样将视觉token减少16倍。相比传统ViT-L/14模型,FastVLM在保持同等性能(38项任务平均66.3分)的同时,模型尺寸缩小2.4倍,推理速度提升6

文章图片
#人工智能
【华为云-上云之路】网络AI模型开发(2)数据入湖、数据处理

本篇文章主要分享在华为云NAIE的数据服务中,进行数据入湖、数据处理。数据入湖简介我们在华为云开通“数据资产管理服务”后,把本地的数据上传到数据湖OBS中。流程1)先准备数据,以.csv为后缀的文件;2)进入数据资产管理服务,选择“治理工具”下面的“数据加载”,把本地的数据上传数据到湖OBS中。特点1)数据输入端:本地文件、租户OBS、数据湖OBS、HIVE、DWS等方式2)数据生产端:数据湖OB

双目立体视觉——华为云-云享MindTalks第十二期

前言前段时间在华为云-云享MindTalks第十二期中分享了双目视觉,个人的水平比较菜,分享时间也比较短,只能简单地分享一下基础和思路;制作PPT时主要参考了一些论文,同时也参考了一些网上的博客;目录单目视觉双目视觉1)双目摄像头2)打开双目摄像头3)双目测距4)立体视觉系统双目立体匹配(额外讲解)参考开始分享单目视觉双目视觉1)双目摄像头2)打开双目摄像头链接3)双目测距...

#华为云
Apollo-无人驾驶平台中多传感器标定

本文章来自:Apollo开发者社区原创:阿波君传感器标定是无人车最基础也是最核心的模块之一。作为软件层提供的第一项服务,标定质量和准确度极大地影响着感知、定位地图、PNC等模块。在 Apollo 开源自动驾驶平台中,我们提供了丰富的多传感器标定服务,如激光雷达、惯导、摄像头、多普勒雷达等多种传感器之间的标定。算法覆盖常规 Level 2-Level 4 级别自动驾驶...

【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图

DOV-SG 建了动态 3D 场景图,并使用LLM大型语言模型进行任务分解,从而能够在交互式探索过程中对 3D 场景图进行局部更新。来自RA-L 2025,适合长时间的 语言引导移动操作,动态开放词汇 3D 场景图。

文章图片
    共 163 条
  • 1
  • 2
  • 3
  • 17
  • 请选择