
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
语言模型在具体环境中作为代理应用时,常常会遇到内在知识与环境知识之间的错位,导致执行动作时频繁出错。论文提出了基于探索的错误纠正学习(E2CL)框架,使语言模型代理能够通过有效的反馈,驱动探索和纠正来与环境对齐。

如何有效地扩展强化学习(RL)以处理长视频的复杂推理任务?论文提出了一种新的多模态强化学习框架MR-SP,专门针对长视频的推理,提高了模型在处理长时间序列数据时的效率和效果。

如何通过开放、可复现的数据中心化方法缩小开源多模态大模型在复杂视觉推理能力上与闭源模型的差距?论文提出MMFineReason——首个基于强教师模型蒸馏、覆盖STEM/谜题/图表等难域、含1.8M样本与5.1B推理token的高质量开源多模态推理数据集,并验证其可显著提升小参数模型的推理性能与泛化能力。

论文主要调研了与LLM角色扮演相关的领域,并从多个方面进行了综合分析,不仅概述了当前的方法和挑战,还为未来提高角色扮演的深度和真实性的研究提出了途径。

在视觉语言模型(VLM)中缺乏可复现的强化学习(RL)训练框架和标准化评估方法。论文提出了一个透明的、从头实现的RL训练框架和一个综合评估方案,旨在提高VLM的训练效果和评估的一致性。

如何让大语言模型代理自动获取可迁移的领域专用技能,避免手动编写技能的扩展瓶颈和现有自动化方法产生的脆弱碎片化结果?论文提出Trace2Skill框架,通过并行分析多样执行轨迹并层次化整合经验教训,生成可跨模型规模和任务领域迁移的高质量声明式技能。

如何有效评估深度研究代理(Deep Research Agents)的报告生成质量和信息检索能力?论文提出了DeepResearch Bench,一个针对深度研究代理的综合性基准,以系统评估其能力。

当前模型在多模态评估中,是否真正反映了对不同主题的深刻、多方面的理解,还是仅仅依赖于表面线索和统计模式?论文提出了一个更鲁棒的多学科多模态理解基准MMMU-Pro,以更准确和严格地评估模型的多模态理解和推理能力。

如何有效评估大语言模型(LLM)代理记忆性能的问题。论文提出了一个统一的基准框架MemoryAgentBench,以评估记忆代理的四个核心能力。

如何利用多模态大语言模型(MLLM)生成多模态数据,以减少对人工标注和高成本商业模型的依赖?论文提出了一个名为Genixer的数据生成管道,能够利用现有的MLLM生成高质量的视觉指令调优数据,并贡献了两个开源数据生成模型以及两个高质量的多模态数据集。








