logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【世界模型】UrbanWorld: An Urban World Model for 3D City Generation

本文提出UrbanWorld,首个生成式城市世界模型,可自动创建高真实度、可交互的三维城市环境。通过渐进式扩散渲染和城市专用多模态大语言模型(Urban MLLM),UrbanWorld支持从开放地图数据或语义布局生成定制化城市环境。实验表明,该方法在五项视觉指标上达到最优真实度,并能有效支持智能体的感知与导航任务。该开源框架(https://github.com/Urban-World/Urba

文章图片
#3d
【世界模型】UrbanWorld: An Urban World Model for 3D City Generation

本文提出UrbanWorld,首个生成式城市世界模型,可自动创建高真实度、可交互的三维城市环境。通过渐进式扩散渲染和城市专用多模态大语言模型(Urban MLLM),UrbanWorld支持从开放地图数据或语义布局生成定制化城市环境。实验表明,该方法在五项视觉指标上达到最优真实度,并能有效支持智能体的感知与导航任务。该开源框架(https://github.com/Urban-World/Urba

文章图片
#3d
【世界模型】UrbanWorld: An Urban World Model for 3D City Generation

本文提出UrbanWorld,首个生成式城市世界模型,可自动创建高真实度、可交互的三维城市环境。通过渐进式扩散渲染和城市专用多模态大语言模型(Urban MLLM),UrbanWorld支持从开放地图数据或语义布局生成定制化城市环境。实验表明,该方法在五项视觉指标上达到最优真实度,并能有效支持智能体的感知与导航任务。该开源框架(https://github.com/Urban-World/Urba

文章图片
#3d
Breaking the Synthetic Barrier: Towards Stable and Generalizable Real-World Image Dehazing

本文提出了一种突破合成数据限制的图像去雾新方法。针对现有算法在真实场景中因领域差距导致的性能下降问题,创新性地设计了多级子空间分布适配器(MSDA)和双域同步优化(DDSO)策略。MSDA通过层级化子空间建模,在感知、结构和语义三个层面实现跨域特征对齐;DDSO则联合利用合成数据的监督信息和真实数据的分布特性进行同步优化。实验表明,该方法在多个数据集上显著提升性能,在RTTS数据集上的FADE指标

文章图片
#计算机视觉#深度学习
Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-Learning

密集视频描述旨在检测未剪辑视频中的所有事件并生成描述。本文提出名为多概念循环学习(MCCL)的密集视频描述网络,其目标为:(1) 在帧级别检测多概念并利用这些概念提供时序事件线索;(2) 在描述网络内建立生成器与定位器之间的循环协同学习机制,以提升语义感知与事件定位能力。具体而言,我们对每帧进行弱监督概念检测,并将检测到的概念嵌入整合至视频特征中以提供事件线索。此外,引入视频级概念对比学习以生成更

文章图片
#深度学习#人工智能
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding

本文提出了一种基于孪生学习的弱监督视频段落定位方法SiamGTR,通过联合对齐和回归实现无需时间标注的视频段落定位。该方法包含两个共享权重的分支:增强分支利用伪视频生成伪边界监督进行回归训练,推理分支则学习顺序引导的跨模态特征对齐。实验表明,该方法在弱监督或半监督条件下优于现有技术,实现了高效的单阶段定位。该工作首次探索了弱监督视频段落定位任务,为减少视频理解中的标注成本提供了新思路。

文章图片
#人工智能#深度学习
Exploring Low-Resource Medical Image Classification with Weakly Supervised Prompt Learning

本文提出了一种弱监督提示学习方法MedPrompt,用于自动生成医学文本提示以解决低资源医学图像分类问题。该方法包含无监督预训练的视觉语言模型和弱监督提示学习模型,仅需类别标签即可自动生成高质量提示,显著降低对专家人工设计的依赖。实验表明,在四个医学基准数据集上,MedPrompt在全监督学习中均优于人工提示模型;在零样本和小样本任务中,三个数据集达到最优性能,另一个实现可比结果。该方法提示生成模

文章图片
#深度学习#计算机视觉#人工智能
【世界模型】Emu3: Next-Token Prediction is All You Need

本文提出Emu3,一种基于单一Transformer的多模态模型,通过下一个标记预测任务统一处理图像、文本和视频数据。Emu3将不同模态数据统一标记化后联合训练,在生成和感知任务上均超越主流专用模型,包括超越SDXL和LLaVA-1.6等标杆模型,同时支持高保真视频生成。该方法摒弃复杂的多模态架构,仅依赖标记预测范式,展现出强大的通用性和扩展潜力。实验表明,该框架不仅适用于语言模型,还可作为构建通

文章图片
#人工智能
Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multi

本文提出MLLM4WTAL,一种利用多模态大型语言模型(MLLM)增强弱监督时序动作定位(WTAL)性能的新范式。针对传统WTAL方法存在的不完整定位和过完整定位问题,设计了关键语义匹配(KSM)和完整语义重构(CSR)两个模块:KSM通过MLLM提供的关键语义先验定位动作核心区间,CSR则利用完整语义先验挖掘动作完整范围。通过双先验交互蒸馏策略使两个模块相互优化,有效解决了各自缺陷。实验表明,该

文章图片
#深度学习#计算机视觉
Anomize: Better Open Vocabulary Video Anomaly Detection

开放词汇视频异常检测(Open Vocabulary Video Anomaly Detection,OVVAD)旨在检测并分类基础和新颖的异常事件。然而,现有方法在应对新颖异常时面临两大挑战。其一是检测歧义性(detection ambiguity):模型难以为不熟悉的异常赋予准确的异常分数;其二是分类混淆(categorization confusion):新颖异常常被误分类为视觉上相似的基础

文章图片
#深度学习
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择