logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【ICLR26匿名投稿】EAGLE:让多模态大模型“说清楚自己在看啥、靠啥写字”

相比基于梯度的可解释方法(如 IGOS++、Grad-CAM), EAGLE 显存占用减少约 70%~80%, 在 Qwen2.5-VL 7B 上运行仅需。这意味着即使模型答对了,我们也不知道它是“真懂”还是“瞎蒙”。给多模态大模型装上了“显微镜”, 让我们第一次能看清:每一个词,是看图得出的,还是靠想象写出来的。—— 不知道生成内容到底是“看图得出的”还是“语言模型自己编的”。: 找出“最少的一

【ICLR26匿名投稿】Look&Learn:让注意力变成分割器的视觉语言模型新范式!

🌟 不需要IoU、BCE、Dice → 不破坏注意力概率分布 🌟 Scale-invariant,适合稀疏注意力!Look&Learn证明:LLM不仅能理解图像,它还能像人一样“说的同时看准”——注意力即分割器!Understanding–Grounding Gap(理解–定位鸿沟)✔ 不改变网络结构 ✔ 不加入分割头 ✔ 不损害语言能力 ✔。✔ 后训练阶段也可直接使用(Post-traini

#语言模型#人工智能#深度学习 +2
【DeepSeek-OCR系列第一篇】Language Modelling with Pixels【ICLR23】

PIXEL 让模型“看懂”文字,为突破词表瓶颈、支持全球语言建模,提供了更通用的解决方案。上验证了 PIXEL,并与同规模 BERT 直接对比(预训练语料相同,仅英语)。在英文 GLUE 任务上,PIXEL 虽略低于 BERT,但依然取得了良好表现;在阿拉伯语、中文、日文、科普特语等非拉丁文字上,PIXEL明显优于 BERT;ICLR 2023|PIXEL:当语言模型不再用词,而是“看”懂文字。I

#语言模型#人工智能#自然语言处理
【南京理工大学-ICCV25】Controllable-LPMoE:大模型微调也要“可控”与“高效”!

📌 在 COD、SOD、PS、SLS、SD、GD 全面表现领先 📌 IoU、Dice、Fwm 等指标均大幅提升 📌 训练资源大幅缩减。但问题来了👇 ✔ 参数巨大(100M+) ✔ 显存占用高 ✔ 训练速度慢 ✔ 下游任务适应性有限。它不是“微调大模型”,而是“让大模型主动理解任务”——低成本,高表现,适配未来多任务分割时代。动态先验引导的微调范式(Dynamic Priors-based

【ICLR26匿名投稿】MIGA:让无限帧视频生成重回技术巅峰通过免训练技术

目前主流的「训练自由」(train-free)延长方案,如 FreeNoise、FreeLong、FreePCA,通过重排噪声或融合频域信息,成功突破了基础模型的帧数限制。MIGA 通过“噪声分布对齐 + 时序一致性建模”,在不训练的前提下,让基础模型实现高一致性的无限帧长视频生成,推动长视频生成迈向实用化。FIFO-Diffusion 虽提出了基于噪声队列的自回归生成机制,实现了理论上的无限帧,

#音视频
【ICLR26匿名投稿】Lumina-OmniLV:统一百项低层视觉任务的多模态框架

仍处于“任务碎片化”阶段:去噪(Denoising)、去雨(Deraining)、超分(Super-Resolution)、风格迁移(Stylization)……每个任务都要单独训练模型。随着 GPT-4V、InternVL、OmniGen 等多模态大模型的爆发,高层视觉任务(High-level Vision)——如图像理解、生成、编辑——迎来了统一框架的时代。混合编码(text+image 同

【ICLR26匿名投稿】MMSeg:让“图像提示分割”更聪明——多模态、多视角驱动的无训练分割新范式

最终得到一组多模态融合的提示点(positive/negative prompts),输入 SAM 进行掩码生成。让图像提示分割从“单模态模糊”走向“多模态精准”, 在完全无训练条件下,实现可与训练模型媲美的分割性能。带来了“零样本分割”的浪潮——输入一个提示点或文字,就能切出物体边界。通过“视觉 + 文本”两条独立分支定位目标,再用多视角增强和共识优化生成高质量分割。—— 视觉-only 方法易

#人工智能#深度学习#计算机视觉 +2
【ICLR26匿名投稿】FuseAgent:让AI学会“看图融合”的视觉智能体

图像融合(Image Fusion)是自动驾驶、遥感、计算摄影等核心任务之一, 旨在将来自不同传感器或不同曝光条件的多张图像融合成一张视觉上最优的结果。同时,FuseAgent 在视觉效果上显著减少鬼影(ghosting)和结构畸变(distortion), 输出结果更清晰、自然、层次感更强。🔄 IQR 关注“图像自身是否好看”, RQR 关注“融合结果是否合理”, 二者结合,让智能体既追求质量

#人工智能
【ICLR26匿名投稿】Vision as LoRA:让LLM原生看图的轻量方案

图像经由独立的视觉编码器(Vision Encoder, 如ViT)提取特征,再通过连接器(Connector)对齐语言模型(LLM)。VoRA 正是为此而生——在保持 LLM 原结构的同时,引入轻量视觉理解能力。仅更新视觉 LoRA 层,通过知识蒸馏(knowledge distillation)高效传递视觉先验,减少大规模数据依赖。:语言与视觉参数耦合,训练不稳定,甚至出现灾难性遗忘(cata

【DeepSeek-OCR系列第三篇】Pix2Struct:让视觉语言理解回归像素本身【ICML23】

相比 GIT2(12.9B 图文对),Pix2Struct 预训练数据更小,但跨域迁移更强。👉 这导致模型难以泛化,工程复杂、跨域能力弱,也难以构建统一的视觉语言理解框架。与 T5 的“文本到文本”类似,它是 “像素到文本”的通用框架。: Pix2Struct 用“截图+像素解析”打破多模态割裂, 是迈向。通过模型输入像素截图,输出 HTML 简化结构(类似图像转标记语言);但现实中,我们接触到

    共 50 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择