logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(2025,LLM,下一 token 预测,扩散微调,L2D,推理增强,可扩展计算)从大语言模型到扩散微调

L2D 通过结合扩散模型的推理增强能力,使大语言模型能够更高效地利用计算资源,提高复杂任务的推理能力。这项研究为未来的大语言模型微调提供了一条新的方向,通过引入扩散计算框架,使模型能够智能调整计算资源,提高推理质量

文章图片
#语言模型#人工智能#自然语言处理
(2025|Meta FAIR,自回归语言建模+非自回归流匹配视频建模,VLM 生成)TV2TV:交错式语言和视频生成的统一框架

本文介绍了 TV2TV,一个将视频生成分解为交错式文本和视频生成过程的统一建模框架。通过以交错方式生成文本和视频,可将视频生成的大部分语义复杂性卸载到模型的文本生成组件,并实现了生成过程中更灵活有效的用户控制。

文章图片
#音视频
(2025|DeepSeek-AI,原生稀疏注意力 / NAS,动态路径选择,硬件优化)硬件对齐且原生可训练的稀疏注意力

本文提出 NSA(原生稀疏注意力),它通过算法创新和硬件优化相结合,实现高效的长文本建模。NSA 采用动态分层稀疏策略,结合粗粒度的 token 压缩和精细粒度的 token 选择,在保留全局上下文感知的同时确保局部精度。

文章图片
#人工智能#计算机视觉
(2025|Kimi,MoE,长 CoT,RL,MoonViT)Kimi-VL 技术报告

Kimi-VL 是一款在多模态与纯文本预训练/微调之间实现平衡的视觉语言模型,基于 MoE 架构,兼具扩展性与效率。Kimi-VL 在多模态、长上下文和高分辨率任务中表现出强大的适应性与效率,具有良好的研究与产业应用前景。

文章图片
#计算机视觉
(2025|上海 AI Lab & 南大,图像到图像生成,DiT,流匹配)DiffThinker:基于扩散模型的生成式多模态推理

DiffThinker 是一种生成式多模态推理范式。通过运用扩散模型,将多模态推理从传统的以文本为中心的符号映射重构为原生的生成式图像到图像任务,使模型能够在视觉空间中进行推理,获得更优越的逻辑一致性与空间精确度。

文章图片
#人工智能
(2025|ICML|丹麦技术大学,潜在扩散/LDM,隐式神经表示/INR,超网络)Hyper-Transforming LDM

本文提出 LDMI,结合了 INR 的表达力与 LDM 的生成能力。HD 解码器使用 Transformer 架构支持概率建模,克服了 MLP 超网络的扩展性与确定性局限。LDMI 可灵活迁移已有模型至函数生成任务,适用于图像、3D、气候等多模态数据,支持高分辨率重建与生成

文章图片
#深度学习#人工智能
(2024|CVPR|Meta,VistaLLM,图像分割,多任务 VLM)设计通用的粗到精视觉语言模型

本文提出 VistaLLM,一个通用视觉系统,能够在单图像和多图像输入的情况下,同时处理 粗粒度和细粒度的视觉-语言任务。该模型利用指令引导的图像编码器和梯度感知自适应采样技术来优化输入处理,并使用新构建的数据集(CoinIt) 进行训练

文章图片
#语言模型#人工智能#计算机视觉
(2025|上交,Agent 泛化,VLM 推理 + 世界模型推演 + RL,PhysCode)IPR-1:交互式物理推理器

IPR 是一种通过将以物理为中心的潜在动作空间与预测引导的 VLM 优化相结合来用预测强化物理推理的范式,使得物理和因果规律直接从交互后果中提炼,而非来自静态语料库。IPR 相较于基于 VLM、基于预测和基于强化学习的基线都产生了稳健的增益,并显示出对未见游戏的强大零样本迁移能力。

文章图片
#人工智能
(2025|Nvidia & 斯坦福,VLA,游戏视频-动作数据集,流匹配)NitroGen:面向通用游戏智能体的开放式基础模型

NitroGen 是一种扩展视频游戏智能体基础预训练的方法,利用公开数据源构建了网络规模的视频-动作数据集,并通过成功训练多游戏策略实证了其有效性。NitroGen 在微调实验中显示出积极的泛化迹象。

文章图片
#游戏
(2025|NUS&人大&复旦&北大,Agent,LLM,RAG,上下文,记忆形式/功能/动态)AI Agent时代的记忆:综述

尽管近两年 agent memory 相关研究爆发式增长,但该领域呈现出明显的概念碎片化问题。基于此,本文提出以 “形式–功能–动态” 为核心的统一分析框架,系统梳理 agent memory 的结构形态、功能角色与演化机制。

文章图片
#人工智能
    共 123 条
  • 1
  • 2
  • 3
  • 13
  • 请选择