
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如何在大语言模型(LLM)的训练中改善输出的多样性,而不降低其连贯性和准确性?论文提出了一种名为Group-Aware Policy Optimization (GAPO)的强化学习方法,通过在训练过程中基于组级别的奖励函数来促进输出的多样性。

如何量化大语言模型(LLM)推理过程中的信念固执现象,以评估其判断的准确性和理性?论文提出了一种名为“Martingale Score”的新指标,以无监督的方式度量LLM推理中的信念固执现象,并且该指标能够与真实世界的表现相关联。

如何更有效地识别视觉语言模型中的冗余视觉标记以提升计算效率?论文提出了一种基于信息流的动态剪枝框架FlowCut,有效提升了视觉语言模型的推理效率。

如何在图像和视频中进行细粒度的对象指代和时空理解?论文提出了一个统一的区域级多模态大型语言模型PixelRefer,能够支持多种对象指代任务,并实现灵活的时空理解。

如何利用合成数据中的实体信息来提升搜索代理的监督学习效果?论文提出了一种新的框架E-GRPO,通过引入基于实体的奖励函数,显著提高了搜索代理的策略优化效果。

如何优化检索以提高检索增强生成(RAG)系统的性能?论文提出了一种名为R3的检索框架,通过强化对比学习(RCL)优化RAG环境中的检索过程,显著提升了检索性能。

如何有效训练语言模型在复杂推理任务中学习,从专家的演示中获取知识?论文提出了监督强化学习(SRL)框架,以解决标准强化学习和监督微调在困难推理任务中的不足,通过细粒度的相似度奖励实现有效学习。

如何有效的评估生成性研究综合系统的性能?论文提出了DeepScholar-bench,一个实时基准数据集及其自动评估框架,用于全面评估生成性研究综合系统。

如何在检索增强生成(RAG)系统中有效识别和处理知识冲突,以提升生成的上下文真实性?论文提出了CLEAR框架,通过细粒度的知识修剪、隐藏状态探测、冲突感知的微调策略,有效提高了RAG系统在存在知识冲突时的上下文忠实性。

如何提高大语言模型(LLM)在推理过程中的效率,同时保持准确性?论文提出了动态推理边界自我意识框架(DR.SAF),实现了大语言模型推理效率的显著提升。








