
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
近年来,人工智能 (AI) 领域经历了爆炸式发展,深度学习作为核心驱动力,在计算机视觉 (CV) 和自然语言处理 (NLP) 领域均取得了里程碑式的突破!🎉 为了进一步拓展 AI 的能力边界,研究人员开始积极探索如何融合视觉和语言两大模态,构建能够理解、生成并跨越图像和文本的模型。视觉语言模型 (Vision-Language Models, VLMs) 正是在这一背景下应运而生,它致力于弥合视

本文提出了一种名为Dynam3D的动态分层3D表示模型,专为视觉语言导航(VLN)任务设计。传统基于视频的大模型在真实3D导航中面临对3D几何理解不足、缺乏长期记忆和环境适应性差等挑战。Dynam3D通过将2D视觉特征投影到3D空间,构建了包含“补丁-实例-区域”三个层级的动态3D表示。该模型能够在线编码和定位3D物体实例,并根据环境变化动态更新其记忆,从而实现了更强的空间几何理解和长期记忆能力。

claude code sub agent

GRPO是一种基于强化学习的在线训练算法,是对传统近端策略优化(PPO)的改进版本。它专门设计用于增强语言模型的数学推理能力,同时优化PPO的内存使用效率。

当前的视频多模态大模型(MLLMs)大多局限于语言理解和语义感知,缺乏真正的空间认知和对连续世界的建模能力。为此,本文提出了“空间超感知(Spatial Supersensing)”的概念,涵盖从流式事件认知到预测性世界建模的层级。作者推出了 VSI-SUPER 基准,包含长时程回忆(VSR)和持续计数(VSC)任务,以测试模型在无界视频流中的空间推理能力。

Qwen3 模型系列旨在提升大型语言模型的性能、效率和多语言能力,涵盖从0.6B到235B参数规模的密集型(Dense)和混合专家(MoE)架构。其核心创新包括统一的思考模式与非思考模式框架,支持动态模式切换和思考预算机制,优化计算资源分配。模型通过知识迁移减少小规模模型的计算需求,并在架构上引入QK-Norm和细粒度专家切分等技术。预训练采用三阶段策略,涵盖通用、推理和长上下文训练,后训练则包括

人工智能的浪潮席卷而来,多模态模型已成为 AI 领域的核心驱动力。它们如同拥有多重感官的智能体,能够理解和生成文本、图像、音频、视频等多元信息,在各个领域展现出前所未有的潜力。然而,与模型能力的飞速提升形成鲜明对比的是,多模态模型评测体系的相对滞后。

图片Token压缩技术不仅仅是一项优化技巧,它正在成为多模态大模型的**核心引擎**。它将模型从海量冗余数据中解放出来,使其更轻、更快、更专注。

PPO 是一种非常流行的强化学习算法,以其稳定性和样本效率而闻名。它属于策略梯度(Policy Gradient)方法的一种,但通过一些巧妙的技巧解决了传统策略梯度方法中步长选择困难、容易导致策略崩溃的问题。

本文提出了一种名为JanusVLN的新型视觉语言导航(VLN)框架。受人脑左右半球功能分工的启发,该框架创新性地设计了“双重隐式记忆”系统,将负责理解“是什么”的语义记忆与负责感知“在哪里”的空间几何记忆进行解耦和分离。这种设计允许智能体仅通过普通RGB摄像头就能高效地理解3D空间,解决了传统方法中存在的空间信息丢失、计算冗余和内存爆炸等问题。实验证明,JanusVLN在不需要额外3D数据的情况下








