logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ActionStudio:轻量级动作模型数据与训练框架

动作模型对于实现自主代理执行复杂任务至关重要。然而,由于代理环境的多样性和代理数据的复杂性,训练大规模动作模型仍然具有挑战性。尽管兴趣日益增长,现有的基础设施对可扩展、特定代理的微调支持有限。我们介绍了ActionStudio,一个轻量且可扩展的数据和训练框架,专为动作模型设计。ActionStudio通过标准化格式统一了异构代理轨迹,支持多种训练范式,包括LoRA、全微调和分布式设置,并集成了强

文章图片
#人工智能#自然语言处理
MiMo-VL 技术报告

小米开源视觉语言模型MiMo-VL-7B取得突破性进展 小米团队近日开源了MiMo-VL-7B系列视觉语言模型,包含SFT和RL两个版本,在多项基准测试中表现优异。该模型通过四阶段预训练(2.4万亿token)和混合策略强化学习(MORL)方法训练而成,在40项评估任务中有35项超越Qwen2.5-VL-7B。特别在GUI定位任务中,MiMo-VL-7B-RL以56.1的成绩创下OSWorld-G

#人工智能
多智能体系统中的神经编排:一种用于多领域任务环境中最优智能体选择的深度学习框架

多智能体系统(MAS)是模拟涉及自主交互实体的复杂现实场景的基础。然而,传统的MAS架构通常存在僵化的协调机制,难以适应动态任务。我们提出了MetaOrch,这是一种用于多领域任务环境中最优智能体选择的神经编排框架。我们的系统采用监督学习方法,对任务上下文、智能体历史和预期响应质量进行建模,以选择每个任务中最合适的智能体。一种新颖的模糊评估模块沿完整性、相关性和置信度三个维度对智能体响应进行评分,

文章图片
#深度学习#人工智能
通过稀疏自编码器引导CLIP的视觉变压器

索尼亚·约瑟夫1,2 普拉内特·苏雷什1,2 伊桑·戈德法布3 伦茨·胡费4 乔希·甘德尔曼5 罗伯特·格雷厄姆2 丹尼洛·比佐克1,2 沃伊切赫·萨梅克4 布莱克·亚伦·里查兹1,21Mila 2麦吉尔大学 3独立研究员 4弗劳恩霍夫HHI 5加州大学伯克利分校sonia.joseph@mila.quebec(通讯作者)虽然视觉模型功能强大,但其内部机制仍不为人所理解——这一挑战在语言模型中已被

文章图片
#人工智能
推理-SQL:用SQL定制奖励的强化学习,让Text-to-SQL学会动脑子

我们这套方法最亮眼的成绩单: - 在BIRD基准测试上,我们14B参数的模型直接碾压了更大的商业模型——比o3-mini高4%,比Gemini-1.5-Pro-002高3% - 推理成本直降93%,但效果反而更好,就像用五菱宏光的油钱开出了特斯拉的加速 - 模型自己琢磨出的推理方式,比人工设计的”解题模板”更管用。关键发现: - 7B模型加了我们这套奖励机制后,性能直接飙升6.77% - 在Spi

文章图片
#sql#数据库#人工智能
KIMINA-Prover 预览:迈向使用强化学习的大规模形式推理模型

我们介绍了 Kimina-Prover Preview,这是一个大型语言模型,开创了形式定理证明中以推理驱动的探索范式,如本预览版本所示。该模型通过 Qwen2.5-72B 的大规模强化学习管道进行训练,在 Lean 4 证明生成方面表现出色,采用了我们称之为形式推理模式的结构化推理模式。这种方法使模型能够模仿人类在 Lean 中的问题解决策略,迭代生成和改进证明步骤。Kimina-Prover

文章图片
#人工智能
将价值重新引入强化学习:通过统一LLM推理器与验证器实现更好的测试时间扩展

Kusha SareenMila, McGill UniversityMorgane M MossMila, Université de MontréalAlessandro SordoniMicrosoft Research, MilaRishabh Agarwal *Mila, McGill UniversityArian Hosseini *Google DeepMind, Mila####

文章图片
#人工智能#算法
SQL-R1:通过强化学习训练自然语言到SQL推理模型

自然语言到SQL(NL2SQL)通过将自然语言查询转换为结构化的SQL语句,实现了与数据库的直观交互。尽管最近在增强数据库应用中的人机交互方面取得了进展,但在涉及多表连接和嵌套查询的复杂场景中的推理性能仍然存在显著挑战。目前的方法主要利用监督微调(SFT)来训练NL2SQL模型,这可能限制了其在新环境(如金融和医疗领域)中的适应性和可解释性。为了提高NL2SQL模型在上述复杂情况下的推理性能,我们

文章图片
#sql#数据库
R1-Searcher++:通过强化学习激励LLM动态知识获取

大型语言模型(LLMs)功能强大,但由于其静态知识容易产生幻觉。检索增强生成(RAG)通过注入外部信息来帮助解决这一问题,但当前方法通常成本高昂、泛化能力差或忽略模型的内部知识。本文中,我们介绍了R1-Searcher++,这是一种新颖的框架,旨在训练LLM以自适应地利用内部和外部知识源。R1-Searcher++采用两阶段训练策略:初始SFT冷启动阶段用于初步格式学习,随后是RL动态知识获取阶段

文章图片
#人工智能
通过自主车辆实现水下声学跟踪的多智能体强化学习扩展

自主车辆(AV)为科学任务提供了成本效益高的解决方案,例如水下追踪。最近,强化学习(RL)作为一种在复杂海洋环境中控制AV的强大方法崭露头角。然而,将这些技术扩展到车队——这对于多目标跟踪或快速、不可预测运动的目标至关重要——带来了显著的计算挑战。多智能体强化学习(MARL)以样本效率低下而闻名,尽管像Gazebo的LRAUV这样高保真度的模拟器可以提供比实时快100倍的单机器人模拟,但它们对多车

文章图片
#人工智能
    共 556 条
  • 1
  • 2
  • 3
  • 56
  • 请选择