logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

阿里:通义千问DeepResearch技术报告

如何设计一个自主的人工智能研究代理,以有效处理复杂的研究任务并增强其推理和信息检索能力?论文提出了一种新颖的代理训练框架Tongyi DeepResearch,使得大语言模型(LLM)具备自主研究能力,显著提升了性能并减少了参数数量。

文章图片
#人工智能#自然语言处理#语言模型
阿里:图谱检索的LLM电商基准

在电商领域中,如何评估大语言模型(LLM)能力的可靠性和效率?论文提出了一个新的基准数据集ECKGBench,利用知识图谱探索LLM在电商中的能力,并提供了一种评估模型知识边界的方法。

文章图片
#人工智能#自然语言处理#语言模型
微软:小模型高效多模态推理

如何在显著降低训练与推理计算开销的前提下,构建性能媲美大模型的轻量级开放权重多模态推理模型?论文提出Phi-4-reasoning-vision-15B,通过高质量数据治理、动态高分辨率视觉编码器设计及混合推理机制,在仅200B训练token下实现SOTA能效比。

文章图片
#人工智能#自然语言处理#语言模型
英伟达:多奖励归一化强化学习GDPO

如何在多奖励强化学习中避免奖励信号崩溃,从而提高训练的精确性和稳定性?论文提出了一种名为GDPO的训练方法,通过分开归一化每个奖励,增强了多奖励优化的精度和训练收敛性。

文章图片
#人工智能#自然语言处理#语言模型
快手:梯度策略优化强化学习的熵管理

如何有效控制强化学习中的策略熵动态,以避免熵崩溃和提高模型性能?论文提出了CE-GPPO算法,通过保持超出剪切区间的梯度,以精细控制政策熵并确保更新稳定性,从而改善了强化学习的探索与利用平衡。

文章图片
#人工智能#自然语言处理#语言模型
港中文:通过强化学习压缩LLM视觉分辨率

如何在视觉语言模型中提高效率,同时保持性能,使得模型智能地判断何时需要高分辨率图像以回答问题?论文提出VisionThink,采用强化学习和LLM作为评判者的策略,实现了视觉语言模型的智能高效化。

文章图片
#人工智能#自然语言处理#语言模型
天津大学:LLM混合策略强化学习

如何高效利用离政策数据进行大语言模型(LLM)的强化微调以提升推理能力?论文提出了一种名为Reincarnating Mix-policy Proximal Policy Optimization (ReMix)的方法,使得策略相关的强化学习方法能够有效地利用离线策略数据,从而在提高推理能力的同时降低训练成本。

文章图片
#人工智能#自然语言处理#语言模型
DeepSeek:LLM通过反馈做强化学习和树搜索

如何提高大语言模型(LLM)的形式化数学证明能力?论文提出了一种基于LLM的形式数学证明器综合框架,整合了大规模数学预训练、形式化数学语料库构建、利用反馈来进行强化学习和蒙特卡洛树搜索。

文章图片
#人工智能#自然语言处理#语言模型
浙大:奖励重分配优化LLM强化学习

传统强化学习从人类反馈(RLHF)中获取奖励信号存在稀疏和延迟问题。论文提出了R3HF方法,通过细粒度的奖励再分配机制,减少了人类标注的需求,提高了RLHF的效率和性能。

文章图片
#人工智能#自然语言处理#语言模型
港大:小模型指导大模型训练

小型语言模型是否能够有效地教导大型语言模型进行系统推理?论文提出了LightReasoner框架,通过小型模型与大型模型之间的对比,显著提高了大型语言模型在推理任务上的表现并降低了训练资源的需求。

文章图片
#人工智能#自然语言处理#语言模型
    共 510 条
  • 1
  • 2
  • 3
  • 51
  • 请选择