logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NeurIPS 2025 | 华中科大等提出NAUTILUS:首个大规模水下多模态模型,破解深海“看图说话”难题

在NautData测试集上,集成了VFE模块的NAUTILUS(以Qwen2.5-VL为基础)在全部八项任务上,性能相比原始的Qwen2.5-VL都有了一致性的提升,并在大多数任务上超越了包括LLaVA-1.5在内的其他基线模型。这个VFE模块是一个即插即用的组件,它的设计思想借鉴了水下成像的物理先验知识。总的来说,NAUTILUS这项工作通过“构建大规模专属数据集”和“设计基于物理先验的即插即用

Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括。最后在VNbench上,VI

#音视频
为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA

CV君认为,NVIDIA这次的工作不仅在模型性能上取得了巨大突破,更重要的是,他们将代码、预训练权重和基准测试全部开源,极大地降低了研究和应用物理AI的门槛。NVIDIA设计了一套复杂的视频处理流水线,对来自不同真实世界来源的原始视频进行筛选、标注和去重,构建了一个为训练世界模型而优化的超大规模数据集。Cosmos-Predict2.5是这次发布的核心,它是一个强大的视频生成模型,能够将文本、图像

#人工智能
NeurIPS 2025 | 山大等提出VT-FSL:让LLM看图说话生成新样本,刷新10项SOTA

但这里有个痛点:模型补充的知识很可能是凭空“脑补”的,和实际给它的那几张图片对不上号,导致指导信息有噪声,效果自然大打折扣。这强制使得三种模态的表示在特征空间中高度对齐和一致,从而实现了全局和非线性的信息融合,远比简单的特征拼接或相加要鲁棒得多。让机器像人类一样,只看几张图片就能认识一个全新的事物,这是计算机视觉领域一个非常经典且富有挑战性的任务,我们称之为“小样本学习”(Few-Shot Lea

文章图片
#人工智能#算法
小红书 hi lab 开源最强多模态大模型 dots.vlm1,性能对标闭源 Gemini 2.5 Pro和Seed-VL1.5

小红书 hi lab 推出的 dots.vlm1 多模态大模型以全链条自研和开源姿态,综合性能首次对标并逼近 Gemini 2.5 Pro、Seed-VL1.5 等闭源最强大模型,不仅在视觉-文本复杂场景中展现卓越,文本编码推理能力也保持主流水平。在文本任务(AIME、GPQA、LiveCodeBench 等)上,dots.vlm1 达到了与主流 LLM 相当的水准,具备通用数学推理和代码能力,但

CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

我们在 PyTorch 中实现了 FoundationStereo 模型,使用混合数据集进行训练,包括我们提出的 FSD 数据集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公开数据集。训练时使用 22 次 GRU 迭代更新,而在后续实验中(除非特别说明),我们使用相同的基础模型进行零样本推理,

NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确

通过插值替代近似预测的噪声。假设我们很幸运的取到了那个理想的高斯噪声(即可以以这个高斯噪声为起点生成原图片的那个高斯噪声),那么以这个高斯噪声和原图片插值得到的noisy latent上模型预测的速度(这种 “直接插值生成” 的方式,相当于跳过了传统方法中 “递推近似” 的中间环节,从根源上避免了误差的逐步累积,确保每个时间步的带噪声潜变量都严格贴合真实噪声分布。DNAEdit提出了一种在RF建模

首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度

随着大语言模型(LLMs)在自然语言处理和数学问答任务中取得显著进展,其在解决GSM8K、MATH等数据集上的表现令人瞩目。这一开创性赛事标志着人工智能在数学推理领域迈入一个追求严谨性、可验证性与无歧义性的新阶段,同时以实质性奖励加速大模型在严谨数学场景中的落地与突破。:通过形式化验证,为构建可信赖、可审计的AI推理系统提供技术路径,是迈向“可验证AI”(Verifiable AI)的重要一步。:

#人工智能
CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛

然而,这张图片和文本中添加了针对大模型特别设计的对抗扰动,绕过了多模态大模型的安全限制,诱导大模型产生违反其设计初衷或安全准则的输出。但与初赛不同的是,复赛的待攻击模型将额外引入1个黑盒大模型,并引入6种更具有挑战性的风险类别的基础有害文本指令,对于所设计对抗攻击算法的迁移性与鲁棒性有着更高的要求。像这种直接在多模态大模型的图文对输入中增加相关扰动,使多模态大模型产生违规输出的攻击手段,就是对多模

#安全#网络
思路打开,换个方式解决算力和数据问题

算力和数据问题着实让很多开发人员困扰,尤其在大模型背景下,日益庞大的数据、算力需求和有限的预算形成鲜明的矛盾。此处来分享两个方案的思路,希望有所启发。>> 破解计算机视觉的数据集问题:AIGC合成数据生成方案计算机视觉 AI 应用的模型训练数据集要求较高。真实世界的数据往往无法完全获取到泛化AI模型所需要的所有可能场景和边缘案例,而且涉及到数据隐私、数据质量、数据存量等问题,获得这些数

#人工智能
    共 774 条
  • 1
  • 2
  • 3
  • 78
  • 请选择