logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型后训练新突破!普林斯顿陈丹琦团队:RL 靠On-Policy数据,实现 “少遗忘+高增益” 双优

语言模型(Language Model, LM)在进行下游任务的后训练(Post-Training)时,常常面临灾难性遗忘(Catastrophic Forgetting)的问题,即模型在学习新任务的同时丢失了原有的知识能力。本文提出从策略数据(On-Policy Data) 的角度系统分析并缓解遗忘现象。通过在多类任务、多种模型上的实验,论文发现RL因其使用当前策略生成的数据进行训练,相较于SF

文章图片
#人工智能#机器学习
图像编辑新突破!天大&快手提出GRAG:4 行代码改造DiT注意力层,实现图像编辑 “指令跟随-原图保真” 双优

Diffusion Transformer、MM-Attention、可控图像编辑、GRAG、天津大学、快手Kolors、分组相对注意力引导(Group Relative Attention Guidance, GRAG)、多模态注意力(Multi-Modal Attention, MM-Attention)、图像编辑(Image Editing)、视觉语言模型(Vision-Language M

文章图片
#人工智能#机器学习
NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损

关键词:视觉令牌剪枝、多模态大语言模型、全局上下文保留、注意力机制偏差、HoloV框架、自适应令牌分配、视觉上下文重提取、位置偏差、注意力分散

文章图片
#人工智能
NeurIPS‘2025高分入选!扩散模型+Transformer,效率与质量双线飙升!

从架构演进看,Transformer凭借自注意力机制擅长建模跨模态语义关联,扩散模型通过渐进去噪过程生成高保真连续数据。然而,传统融合方案面临根本性挑战——Transformer对离散token的依赖造成视觉细节损失,扩散模型缺乏对复杂语义的逻辑推理能力。CDiT通过因果扩散注意力机制与时变语义注入,在视频生成任务中不仅将时序一致性误差降低47%,更实现了文本-视频的精准语义对齐,为多模态大模型提

文章图片
#transformer#深度学习#人工智能
OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!

OCR 场景下的 LVLM 幻觉与感知不足: 生成式大视觉语言模型(LVLM)在端到端文档解析上虽统一优雅,但容易“看图添字”,即输出图像中不存在的内容;与此同时,通用 LVLM 更偏重推理而非细粒度感知,在文本/表格/公式等 OCR 任务上常不如面向单任务训练的“专家模型”。论文第 1 页摘要与第 1 节、以及表 1(第 2 页)给出了“印章识别”中的典型幻觉例子。

文章图片
#语言模型
3D开放世界Agent新突破!字节Lumine在《原神》中展现人类级效率

本论文提出了Lumine模型,它基于视觉语言模型构建,能够通过像素输入实时生成键盘鼠标操作,并自适应地进行推理。实验表明,Lumine在《原神》中完成了长达五小时的主线任务,并成功零样本泛化到其他游戏中,展现了强大的通用性。

文章图片
#3d#人工智能
中国科学院信工所发布首篇LLM智能体幻觉综述:分类体系、方法与未来方向,300+论文资源开源

关键词:大语言模型;幻觉;幻觉成因;幻觉检测;幻觉缓解;幻觉基准;幻觉指标

文章图片
LLM Agent训练新范式!阿里 AgentEvolver三协同机制,攻克任务稀缺与探索低效难题,性能碾压传统 RL 方法

自进化代理(Self-Evolving Agent)、自我提问(Self-Questioning)、自我导航(Self-Navigating)、自我归因(Self-Attributing)、强化学习(Reinforcement Learning)、任务生成(Task Generation)

文章图片
#人工智能
AAAI 2026 Oral|生成式推荐重磅!快手Align³GR双 SCID+渐进 DPO,工业部署收入提升1.4%

本论文提出了Align({}^{3})GR框架,通过统一token级、行为级和偏好级对齐来优化推荐效果。实验显示,该框架在公开数据集上**Recall@10和NDCG@10分别提升了17.8%和20.2%**,并在工业场景中显著提高了业务收入。

文章图片
#人工智能#机器学习
    共 19 条
  • 1
  • 2
  • 请选择