大模型任我行个人主页

@weixin_46739757

大模型任我行

2024-09-29 15:26:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

上海AI Lab：科学推理大模型

如何将多领域科学知识与大语言模型（LLM）结合，以实现科学推理和领域间的通用化？论文提出了一种结合多种表示形式预训练与指令驱动对齐的科学推理大语言模型，实现了跨领域通用化与任务的一体化支持。

#人工智能 #自然语言处理 #语言模型

普林斯顿：奖励模型在LLM强化学习中的作用

在通过人类反馈的强化学习（RLHF）中，如何评估和优化奖励模型，特别是探讨奖励模型的准确性与奖励方差之间的关系，以及这些因素如何影响优化效率。论文从优化的角度分析奖励模型的特性，提出准确的奖励模型不一定是更好的教师，并且不同的语言模型可能对不同的奖励模型有不同的响应。

#人工智能 #自然语言处理 #语言模型

西交利物浦：金融agent协作框架FinDebate

如何在金融分析中利用多代理协作提高报告的准确性、连贯性和实用性？论文提出了一种名为FinDebate的多代理协作框架，集成了领域特定的文献检索与生成（RAG）模块和安全的协作辩论机制，以生成高质量的金融分析报告。

#人工智能 #自然语言处理 #语言模型

字节：优化LLM在传统强化学习的不足

大语言模型（LLM）在强化学习（RL）中存在训练效率和效果问题，尤其是在复杂推理任务中的表现。论文提出了一个开源的强化学习系统，命名为DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization），并展示了其在AIME 2024竞赛中的出色表现，超过了之前的最佳结果。此外，论文还介绍了四个关键技术来提升RL在长链推理（long-CoT）场