
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如何提高大语言模型(LLM)在函数调用任务中的能力,以便更有效地生成正确的函数调用和处理复杂的参数选择问题。论文提出了一种新的增强型强化学习方法FunRL,通过熵增强的优势估计显著提升了LLM的函数调用能力。

在领域特定的持续学习任务中,如何有效地进行自动化的指令调优,特别是在数据质量和系统级约束方面的挑战。论文提出了一种自动化的持续指令调优框架,能够在不干扰服务的情况下,实现无缝的模型更新,提升数据质量,并有效应对系统部署中的约束。

如何在大语言模型(LLM)的微调过程中动态选择最有效的指令,以最大化模型性能?论文提出了一种名为RAISE的动态指令选择框架,通过任务目标驱动的获取函数和多样性约束机制,显著提升了模型在特定任务上的性能。

大型推理模型在复杂信息检索和科学报告生成中的能力不足。论文提出了WebThinker框架,增强了大型推理模型的深度研究能力,使其能够自主进行网络探索和报告生成。

当前大语言模型(LLM)在推理过程中面临“过早放弃思考”,即模型在未充分探讨某个思路时便切换到新的思路,从而影响推理效果。论文提出了一种名为SmartSwitch的推理框架,通过检测和干预下意识的思维切换,来促进对有潜力思路的更深入探索,显著提升了LLM在数学推理任务中的表现。

如何增强大语言模型(LLM)在多工具协作推理中的能力?论文提出了一种名为Tool-Star的框架,通过强化学习和工具综合设计,提升了LLM的多工具协作推理能力。

大语言模型(LLM)在直接偏好对齐方法中面临冗长性和似然位移。论文提出了一种基于比较oracle的方法,通过有效处理噪声偏好对来改善LLM的性能,并提供了收敛性保证。

大语言模型(LLM)在生成响应时如何有效地分析用户意图以防止有害输出的问题。论文提出了一种增强的安全对齐方法ERPO,通过事先推理偏好优化,提升模型的安全性和有效性。

如何评估和改进在复杂推理场景下的奖励模型 (Reward Models, RMs) 的性能?论文提出了一个综合框架,通过学习思考方法改进生成奖励模型,并引入了新的评估基准 Libra Bench 和生成奖励模型系列 Libra-RM。

如何有效识别和生成具有挑战性的数学问题,以提高大型推理模型的复杂推理能力?论文提出了ScaleDiff框架,通过精准识别和生成困难数学问题,显著提升了模型在复杂推理任务中的表现。








