LLM炼丹炉个人主页

@LLMliandanlu

LLM炼丹炉

2025-10-10 14:35:01 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型后训练新突破！普林斯顿陈丹琦团队：RL 靠On-Policy数据，实现 “少遗忘+高增益” 双优

语言模型（Language Model, LM）在进行下游任务的后训练（Post-Training）时，常常面临灾难性遗忘（Catastrophic Forgetting）的问题，即模型在学习新任务的同时丢失了原有的知识能力。本文提出从策略数据（On-Policy Data）的角度系统分析并缓解遗忘现象。通过在多类任务、多种模型上的实验，论文发现RL因其使用当前策略生成的数据进行训练，相较于SF

#人工智能 #机器学习

图像编辑新突破！天大&快手提出GRAG：4 行代码改造DiT注意力层，实现图像编辑 “指令跟随-原图保真” 双优

Diffusion Transformer、MM-Attention、可控图像编辑、GRAG、天津大学、快手Kolors、分组相对注意力引导（Group Relative Attention Guidance, GRAG）、多模态注意力（Multi-Modal Attention, MM-Attention）、图像编辑（Image Editing）、视觉语言模型（Vision-Language M

#人工智能 #机器学习

NeurIPS 2025 | 港科大&上交大HoloV：多模态大模型“瘦身”新突破，剪枝88.9%视觉Token，性能几乎无损

关键词：视觉令牌剪枝、多模态大语言模型、全局上下文保留、注意力机制偏差、HoloV框架、自适应令牌分配、视觉上下文重提取、位置偏差、注意力分散

#人工智能

一文看懂AI 智能体与代理性 AI 的核心差异，这篇顶刊综述6个维度讲清两者核心概念！

一文看懂AI 智能体与代理性 AI 的核心差异

#人工智能

NeurIPS‘2025高分入选！扩散模型+Transformer，效率与质量双线飙升！

从架构演进看，Transformer凭借自注意力机制擅长建模跨模态语义关联，扩散模型通过渐进去噪过程生成高保真连续数据。然而，传统融合方案面临根本性挑战——Transformer对离散token的依赖造成视觉细节损失，扩散模型缺乏对复杂语义的逻辑推理能力。CDiT通过因果扩散注意力机制与时变语义注入，在视频生成任务中不仅将时序一致性误差降低47%，更实现了文本-视频的精准语义对齐，为多模态大模型提

#transformer #深度学习 #人工智能

OCR “去幻觉” 新纪元！通义点金 OCR-R1 搞定模糊盖章+跨页表格，攻克 OCR 三大痛点！

OCR 场景下的 LVLM 幻觉与感知不足：生成式大视觉语言模型（LVLM）在端到端文档解析上虽统一优雅，但容易“看图添字”，即输出图像中不存在的内容；与此同时，通用 LVLM 更偏重推理而非细粒度感知，在文本/表格/公式等 OCR 任务上常不如面向单任务训练的“专家模型”。论文第 1 页摘要与第 1 节、以及表 1（第 2 页）给出了“印章识别”中的典型幻觉例子。

#语言模型

3D开放世界Agent新突破！字节Lumine在《原神》中展现人类级效率

本论文提出了Lumine模型，它基于视觉语言模型构建，能够通过像素输入实时生成键盘鼠标操作，并自适应地进行推理。实验表明，Lumine在《原神》中完成了长达五小时的主线任务，并成功零样本泛化到其他游戏中，展现了强大的通用性。

#3d #人工智能

中国科学院信工所发布首篇LLM智能体幻觉综述：分类体系、方法与未来方向，300+论文资源开源

关键词：大语言模型；幻觉；幻觉成因；幻觉检测；幻觉缓解；幻觉基准；幻觉指标

LLM Agent训练新范式！阿里 AgentEvolver三协同机制，攻克任务稀缺与探索低效难题，性能碾压传统 RL 方法

自进化代理（Self-Evolving Agent）、自我提问（Self-Questioning）、自我导航（Self-Navigating）、自我归因（Self-Attributing）、强化学习（Reinforcement Learning）、任务生成（Task Generation）

#人工智能

本论文提出了Align({}^{3})GR框架，通过统一token级、行为级和偏好级对齐来优化推荐效果。实验显示，该框架在公开数据集上**Recall@10和NDCG@10分别提升了17.8%和20.2%**，并在工业场景中显著提高了业务收入。

#人工智能 #机器学习

共 19 条

请选择