logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

上海AI Lab:科学推理大模型

如何将多领域科学知识与大语言模型(LLM)结合,以实现科学推理和领域间的通用化?论文提出了一种结合多种表示形式预训练与指令驱动对齐的科学推理大语言模型,实现了跨领域通用化与任务的一体化支持。

文章图片
#人工智能#自然语言处理#语言模型
普林斯顿:奖励模型在LLM强化学习中的作用

在通过人类反馈的强化学习(RLHF)中,如何评估和优化奖励模型,特别是探讨奖励模型的准确性与奖励方差之间的关系,以及这些因素如何影响优化效率。论文从优化的角度分析奖励模型的特性,提出准确的奖励模型不一定是更好的教师,并且不同的语言模型可能对不同的奖励模型有不同的响应。

文章图片
#人工智能#自然语言处理#语言模型
西交利物浦:金融agent协作框架FinDebate

如何在金融分析中利用多代理协作提高报告的准确性、连贯性和实用性?论文提出了一种名为FinDebate的多代理协作框架,集成了领域特定的文献检索与生成(RAG)模块和安全的协作辩论机制,以生成高质量的金融分析报告。

文章图片
#人工智能#自然语言处理#语言模型
字节:优化LLM在传统强化学习的不足

大语言模型(LLM)在强化学习(RL)中存在训练效率和效果问题,尤其是在复杂推理任务中的表现。论文提出了一个开源的强化学习系统,命名为DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization),并展示了其在AIME 2024竞赛中的出色表现,超过了之前的最佳结果。此外,论文还介绍了四个关键技术来提升RL在长链推理(long-CoT)场

文章图片
#人工智能#自然语言处理#语言模型
普林斯顿:奖励模型在LLM强化学习中的作用

在通过人类反馈的强化学习(RLHF)中,如何评估和优化奖励模型,特别是探讨奖励模型的准确性与奖励方差之间的关系,以及这些因素如何影响优化效率。论文从优化的角度分析奖励模型的特性,提出准确的奖励模型不一定是更好的教师,并且不同的语言模型可能对不同的奖励模型有不同的响应。

文章图片
#人工智能#自然语言处理#语言模型
上财:LLM通过强化学习进行金融推理

通用推理模型在金融领域应用中面临挑战,包括金融数据的碎片化、推理逻辑的不确定性以及业务泛化能力的不足。论文提出了Fin-R1,一个专门针对金融推理的大型语言模型,通过重建高质量的金融推理数据集和采用两阶段训练框架,成功解决了上述问题,并在多个金融应用中表现出色。

文章图片
#人工智能#自然语言处理#语言模型
阿里:多模态大模型Qwen3-Omni发布

如何构建一个多模态系统以实现各模态之间性能整体提升?论文提出了Qwen3-Omni模型,通过联合多模态训练,消除了模态间的性能退化,并显著增强了一体化的转换能力。

文章图片
#人工智能#自然语言处理#语言模型
阿里:agent环境构建与经验学习

如何通过环境构建和代理经验学习来推动通用代理智能的发展?论文提出了一个系统性的方法,结合环境扩展和代理经验学习,以提升语言代理的能力,达到更高的智能表现。

文章图片
#人工智能#计算机视觉#语言模型
阿里:agent环境构建与经验学习

如何通过环境构建和代理经验学习来推动通用代理智能的发展?论文提出了一个系统性的方法,结合环境扩展和代理经验学习,以提升语言代理的能力,达到更高的智能表现。

文章图片
#人工智能#计算机视觉#语言模型
阿里:Agent对齐训练框架

如何通过持续预训练来提高智能体的能力和对齐效果?论文提出了一种名为“Agentic Continual Pre-training (Agentic CPT)”的中间扩展层,旨在为智能体行为提供预先对齐的基础模型。

文章图片
#人工智能#自然语言处理#语言模型
    共 162 条
  • 1
  • 2
  • 3
  • 17
  • 请选择