
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如何设计一个自主的人工智能研究代理,以有效处理复杂的研究任务并增强其推理和信息检索能力?论文提出了一种新颖的代理训练框架Tongyi DeepResearch,使得大语言模型(LLM)具备自主研究能力,显著提升了性能并减少了参数数量。

在电商领域中,如何评估大语言模型(LLM)能力的可靠性和效率?论文提出了一个新的基准数据集ECKGBench,利用知识图谱探索LLM在电商中的能力,并提供了一种评估模型知识边界的方法。

如何在显著降低训练与推理计算开销的前提下,构建性能媲美大模型的轻量级开放权重多模态推理模型?论文提出Phi-4-reasoning-vision-15B,通过高质量数据治理、动态高分辨率视觉编码器设计及混合推理机制,在仅200B训练token下实现SOTA能效比。

如何在多奖励强化学习中避免奖励信号崩溃,从而提高训练的精确性和稳定性?论文提出了一种名为GDPO的训练方法,通过分开归一化每个奖励,增强了多奖励优化的精度和训练收敛性。

如何有效控制强化学习中的策略熵动态,以避免熵崩溃和提高模型性能?论文提出了CE-GPPO算法,通过保持超出剪切区间的梯度,以精细控制政策熵并确保更新稳定性,从而改善了强化学习的探索与利用平衡。

如何在视觉语言模型中提高效率,同时保持性能,使得模型智能地判断何时需要高分辨率图像以回答问题?论文提出VisionThink,采用强化学习和LLM作为评判者的策略,实现了视觉语言模型的智能高效化。

如何高效利用离政策数据进行大语言模型(LLM)的强化微调以提升推理能力?论文提出了一种名为Reincarnating Mix-policy Proximal Policy Optimization (ReMix)的方法,使得策略相关的强化学习方法能够有效地利用离线策略数据,从而在提高推理能力的同时降低训练成本。

如何提高大语言模型(LLM)的形式化数学证明能力?论文提出了一种基于LLM的形式数学证明器综合框架,整合了大规模数学预训练、形式化数学语料库构建、利用反馈来进行强化学习和蒙特卡洛树搜索。

传统强化学习从人类反馈(RLHF)中获取奖励信号存在稀疏和延迟问题。论文提出了R3HF方法,通过细粒度的奖励再分配机制,减少了人类标注的需求,提高了RLHF的效率和性能。

小型语言模型是否能够有效地教导大型语言模型进行系统推理?论文提出了LightReasoner框架,通过小型模型与大型模型之间的对比,显著提高了大型语言模型在推理任务上的表现并降低了训练资源的需求。








