logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

谷歌放大招!Gemini 3.5重磅发布,多模态全面升级!

第二轮,「把小提琴手传送到这张图片的环境里」,附一张雪山草地的参考图,场景瞬间切换,动作、光影全部适配新环境。93个子Agent并行工作,发出超15000次模型请求,处理26亿个token,12小时后,一个完全空白的项目变成了功能完整的OS内核。Hassabis亲自登台宣布,「我们正迈出下一个重要的一步——Gemini Omni,这是一个可从任何输入创建内容的全新模型」。第一个是工作场景,输入一条

#人工智能
ICML 2026 | Heima:面向多模态大模型的思维链压缩与隐式推理框架

这背后其实有一个很有意思的判断:人类写出来的推理文本,未必是模型内部 “思考” 的唯一形式。该方法将冗长的文本 CoT 压缩为少量抽象的 “thinking tokens”,让模型在隐空间中完成高效推理,在大幅减少生成 token 数量的同时,尽可能保留 CoT 推理带来的能力提升。Heima 提供了一种新的多模态大模型高效推理思路:与其让模型显式生成冗长的自然语言 CoT,不如将中间推理过程压缩

#人工智能#计算机视觉
ICCV 2025 | 小模型也能更“懂”多模态!LLaVA-KD:多模态大语言模型蒸馏框架

现有方法主要通过采用轻量级LLM骨干网络,同时沿用大型MLLM(l-MLLM)的传统“两阶段”训练范式,即预训练(PT)与有监督微调(SFT),以实现视觉与语言特征的跨模态对齐与理解。该方法设计了三阶段训练流程,包括用于增强多模态对齐的蒸馏预训练(DPT)、知识获取的有监督微调(SFT)以及知识迁移的蒸馏微调(DFT)。此外,我们提出创新性的蒸馏策略,将多模态蒸馏(MDist)与关系蒸馏(RDis

#语言模型#人工智能#机器学习 +1
清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【自动驾驶和Transformer】交流群作者:穆尧(源:知乎,已授权)| 编辑:CVer公众号https://zhuanlan.zhihu.com/p/659675174在CVer微信公众号后台回复:MPC,可以下载本论文pdf,学起来!面对复杂多变的交通场景,基于学习的方法已成为了实现高级别自动驾驶系统的主流

#语言模型#人工智能#自然语言处理
ICCV 2025 程明明团队提出DenseVLM:基于多模态大模型的开放词汇密集预测

通过利用 P-VLM 检索到的区域-类别关系 (k, c),我们为 U-VLM 建立了一对一映射,以将区域特征与其对应的类别向量关联起来。为了区分前景和背景的语义区域,我们根据预定义的两个类别集,将这些区域-类别关系解耦为两个不同的组:前景对象 Thing (U) 和背景区域 Stuff (V)。相比之下,我们的方法 DenseVLM 明显优于这些模型,在 COCO 上 Top-1 Mask-T

ICLR 2025 | 北大彭宇新团队开源细粒度多模态大模型Finedefics

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号:CVer2233,小助手会拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!转载自:机器之心本文是北京大学彭宇新教授团队在细粒度多模态大模型领域的最新研究成果,相关论文已被

X-SAM:从分割一切到任意分割!X-SAM:统一图像分割多模态大模型

通过创新的 VGD 分割任务、统一架构设计和渐进式训练策略,X-SAM 在保持各项任务竞争性能的同时,实现了更广泛的任务覆盖范围,为图像分割研究开辟了新方向,并为构建通用视觉理解系统奠定了重要基础。二是将 VGD 分割扩展到视频中,引入视频中的时序信息,构建创新的视频分割任务,为视频理解技术发展提供新的可能性。为支持多样化数据源的有效训练,X-SAM 采用统一训练策略,支持跨数据集联合训练。针对图

#人工智能#计算机视觉
ECCV 2024 | 新突破!DepictQA:图像质量感知的多模态大语言模型

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【Mamba/多模态/扩散】交流群添加微信号:CVer111,小助手会拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!作者:1335(已授权CVer转载)https://zhuanlan.zhihu.com

#语言模型#人工智能#计算机视觉 +2
北京大学提出FakeShield:基于多模态大语言模型的可解释图像篡改检测定位

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【Mamba/多模态/扩散】交流群添加微信号:CVer111,小助手会拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!本文系CVer粉丝投稿 | 来源:CVer随着生成式AI技术的快速发展,图像伪造和篡改变

#语言模型#人工智能#计算机视觉 +1
ECCV 2024 最佳论文候选!PointLLM:使大语言模型理解点云

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【Mamba/多模态/扩散】交流群添加微信号:CVer111,小助手会拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!转载自:数字炼丹师PointLLM是一种旨在实现大模型在3D对象上应用的多模态大语言模型

#语言模型#人工智能#深度学习 +1
    共 1423 条
  • 1
  • 2
  • 3
  • 143
  • 请选择