
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如何通过系统-2对齐来提高大语言模型在处理复杂推理任务时的安全性和鲁棒性?论文探索了通过提示工程、监督微调和强化学习等方法来实现系统-2对齐,以增强模型的安全性和推理能力。

本文主要是一篇关于利用大语言模型(LLM)在Text-to-SQL任务中的应用综述,分为提示工程和模型微调两个主要部分。

如何在大语言模型(LLM)的训练中改善输出的多样性,而不降低其连贯性和准确性?论文提出了一种名为Group-Aware Policy Optimization (GAPO)的强化学习方法,通过在训练过程中基于组级别的奖励函数来促进输出的多样性。

如何量化大语言模型(LLM)推理过程中的信念固执现象,以评估其判断的准确性和理性?论文提出了一种名为“Martingale Score”的新指标,以无监督的方式度量LLM推理中的信念固执现象,并且该指标能够与真实世界的表现相关联。

如何更有效地识别视觉语言模型中的冗余视觉标记以提升计算效率?论文提出了一种基于信息流的动态剪枝框架FlowCut,有效提升了视觉语言模型的推理效率。

如何在图像和视频中进行细粒度的对象指代和时空理解?论文提出了一个统一的区域级多模态大型语言模型PixelRefer,能够支持多种对象指代任务,并实现灵活的时空理解。

如何利用合成数据中的实体信息来提升搜索代理的监督学习效果?论文提出了一种新的框架E-GRPO,通过引入基于实体的奖励函数,显著提高了搜索代理的策略优化效果。

如何优化检索以提高检索增强生成(RAG)系统的性能?论文提出了一种名为R3的检索框架,通过强化对比学习(RCL)优化RAG环境中的检索过程,显著提升了检索性能。

如何有效训练语言模型在复杂推理任务中学习,从专家的演示中获取知识?论文提出了监督强化学习(SRL)框架,以解决标准强化学习和监督微调在困难推理任务中的不足,通过细粒度的相似度奖励实现有效学习。

如何有效的评估生成性研究综合系统的性能?论文提出了DeepScholar-bench,一个实时基准数据集及其自动评估框架,用于全面评估生成性研究综合系统。








