logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态大模型LLaVA的介绍、部署、推理及Lora微调

本文主要详细介绍了LLaVA模型的架构,并做了不同版本的对比。同时针对LLaVA-v1.6-Mistral-7B,做了模型的部署、推理以及Lora微调工作。最后,总结了此过程中可能遇到的常见错误,分析并给出了解决办法。

文章图片
#人工智能#深度学习#计算机视觉 +1
基于语义拓扑度量表示的LLM推理的无人机视觉语言导航模型

本文的主要贡献:(1)提出第一个基于LLM的端到端的无人机视觉语言导航框架,不需要训练;(2)提出语义拓扑度量表示STMR,这是一种包含拓扑、语义和度量信息的独特矩阵表示,可以增强LLM在室外环境中的空间感知推理能力;(3) 为未来的零样本无人机VLN工作建立了强有力的基线。

文章图片
#人工智能#深度学习#计算机视觉 +2
基于双语义感知递归全局自适应网络的视觉语言导航

本工作的主要贡献:(1)提出了一种双重语义增强结构,分别增强视觉和语言语义表征;(2)使用显式和隐式记忆传输通道来增强模型自适应记忆和推断导航状态的能力。

文章图片
#人工智能#深度学习#计算机视觉 +2
多模态大模型LLaVA的介绍、部署、推理及Lora微调

本文主要详细介绍了LLaVA模型的架构,并做了不同版本的对比。同时针对LLaVA-v1.6-Mistral-7B,做了模型的部署、推理以及Lora微调工作。最后,总结了此过程中可能遇到的常见错误,分析并给出了解决办法。

文章图片
#人工智能#深度学习#计算机视觉 +1
基于跨模态地图学习的视觉语言导航

本工作的主要贡献:(1)提出了一种用于VLN任务的新系统,将地图作为显式的中间表示进行学习;(2)预测语义图:在RGB-D图像和指令上应用跨模态注意力来学习在代理的视野之外产生幻觉信息,实现指令上的语义接地;(3)预测路径:在预测的语义图和指令上应用跨模态注意力来学习预测路径,实现指令的空间接地。

文章图片
#人工智能#深度学习#计算机视觉 +2
CityNav:基于地理信息的视觉语言导航模型

此工作的主要贡献:(1)开发了一种新型的基于网络的3D飞行模拟器,该模拟器在浏览器中运行,并与MTurk集成,以收集城市规模的大规模人类辅助生成的飞行轨迹;(2)收集了一个新颖的无人机视觉语言导航数据集CityNav,包含32637种语言目标描述和人类演示,利用真实城市及其地理信息的3D扫描;(3)提供了一个基线模型,其中包括一个表示地理信息的内部二维空间地图。

文章图片
#人工智能#深度学习#计算机视觉 +2
基于全局拓扑图和双尺度图Transformer的视觉语言导航

本工作的主要贡献有:(1)实时构建拓扑图,以便在全球行动空间中进行高效探索;(2)使用图Transformer对拓扑图进行编码,并学习与指令的跨模态关系,以便动作预测可以依赖于远程导航记忆。

文章图片
#人工智能#深度学习#计算机视觉 +2
基于语义显示映射和隐式记忆的迭代视觉语言导航

本工作的主要贡献如下:扩展高性能Transfrmer VLN代理的隐式记忆对于IVLN来说是不够的,但构建映射的代理可以从环境持久性中受益。具体来说:(1)对于离散模型,代理在图边上移动,观察清晰、框架良好的图像,提出一种最先进的Transformer代理,在解释指令时基于路径历史学习隐式记忆;(2)对于连续模型,代理在观察从离散全景图像重建的3D环境的噪声图像的同时,预测动作,提出了一种构建和解

文章图片
#人工智能#深度学习#计算机视觉 +2
基于自监督三维语义表示学习的视觉语言导航

本工作的主要贡献:(1)提出了一种新的学习和融合框架,为VLN任务引入了三维语义表示;(2)设计了一个区域查询前置学习任务,以自监督学习的方式帮助从未标记的三维语义重建中学习三维语义表示。

文章图片
#人工智能#深度学习#计算机视觉 +3
各类注意力机制详解

注意力机制是一种在神经网络的设计中被广泛使用的技术。在认知科学中,当信息输入规模超过大脑的处理能力时,人类倾向于有选择地将注意力集中于感兴趣的信息,并忽略其他信息。本文将详细介绍并梳理目前存在的各类注意力机制的原理,方便按需使用。

文章图片
#人工智能#深度学习#计算机视觉 +1
    共 13 条
  • 1
  • 2
  • 请选择