麦斯683 个人主页

@weixin_59980799

麦斯683

2024-10-09 13:12:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

TNT- Target-driveN Trajectory Prediction.论文阅读笔记

预测移动体的未来行为在真实世界应用中至关重要，但这一任务极具挑战性，因为智能体的意图及其对应的行为是未知的，并且本质上具有多模态特征。我们的核心见解是：在中等时间范围内，未来的多模态轨迹可以通过一组目标状态有效地捕捉。基于这一思路，我们提出了目标驱动的轨迹预测（TNT）框架。TNT 包含三个阶段，并可进行端到端训练：首先，通过编码智能体与环境及其他智能体的交互，预测其在未来 T 步可能的目标状态；

#论文阅读 #机器学习

MM-Embed- Universal Multimodal Retrieval with Multimodal LLMs. 论文阅读笔记

本文提出了一种基于多模态大语言模型（MLLM）的通用多模态检索系统MM-Embed。针对现有检索模型在跨模态任务中的局限性，作者创新性地采用LLaVa-Next等MLLM构建双编码器检索器，并提出模态感知的困难负样本挖掘方法，有效缓解了MLLM的模态偏差问题。通过对比学习训练和指令驱动设计，模型能够处理文本、图像及其组合形式的复杂查询。实验表明，MM-Embed在MBEIR多模态基准上取得SOTA

#论文阅读 #人工智能 #语言模型

CogVLM- Visual Expert for Pretrained Language Models. NIPS 2024 CogVLM：预训练语言模型的视觉专家论文阅读笔记

我们介绍CogVLM，一个强大的开源视觉语言基础模型。与流行的浅层对齐方法不同，后者将图像特征映射到语言模型的输入空间，CogVLM通过在注意力层和全局注意力层中引入可训练的视觉专家模块，弥合了预训练语言模型与图像编码器之间的差距。因此，CogVLM实现了视觉语言特征的深度融合，同时在自然语言处理任务上不牺牲任何性能。

#语言模型 #人工智能 #自然语言处理

到底了