logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI论文】UI-R1: 通过强化学习增强GUI代理的动作预测

近期,DeepSeek-R1通过基于规则的奖励强化学习(RL)展示了大型语言模型(LLMs)中推理能力的涌现。基于这一理念,我们首次探索了基于规则的强化学习如何增强多模态大型语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。为此,我们精心整理了一个规模虽小但质量极高的数据集,包含136项具有挑战性的任务,涵盖了移动设备上的五种常见动作类型。同时,我们还引入了一种统一的基于规则

文章图片
#人工智能
【AI论文】SuperGPQA: 跨285个研究生学科的大型语言模型评估扩展

实验结果表明,当前最先进的LLMs在不同知识领域(例如,以推理为重点的模型DeepSeek-R1在SuperGPQA上取得了最高的61.82%准确率)的表现仍有显著提升空间,凸显了当前模型能力与通用人工智能之间存在的巨大差距。其次,项目团队提出了一种新颖的人机协作过滤机制,通过迭代精炼的方式消除琐碎或模糊的问题,从而提高了评估的针对性和有效性。实验结果表明,在不同轮次的评估中,模型的表现具有较高的

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】GLM-4.1V-Thinking:迈向具备可扩展强化学习的通用多模态推理

【研究摘要】本研究推出GLM-4.1V-Thinking视觉语言模型,通过三阶段训练框架(大规模预训练、监督微调、课程采样强化学习RLCS)显著提升多模态推理能力。模型在28个基准测试中表现优异,尤其在长文档理解和STEM推理任务上媲美GPT-4o等闭源模型。研究亮点包括:1)构建涵盖100亿图像-文本对的多样化数据集;2)创新RLCS框架实现跨领域能力协同提升;3)开源9B参数模型在多项任务超越

文章图片
#人工智能
【AI论文】Eagle 2.5:增强前沿视觉-语言模型的长上下文后训练

我们介绍了Eagle 2.5,这是一个用于长上下文多模态学习的前沿视觉语言模型(VLM)系列。我们的工作解决了长视频理解和高分辨率图像理解中的挑战,为这两项任务引入了一个通才框架。所提出的训练框架结合了自动降级采样和图像区域保留,这两种技术可以保持上下文完整性和视觉细节。该框架还包括许多针对长上下文数据训练的管道效率优化。最后,我们提出了Eagle-Video-110K,这是一个新颖的数据集,集成

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】深度分析(DeepAnalyze):面向自主数据科学的智能体式大型语言模型

《DeepAnalyze-8B:面向自主数据科学的智能体式大模型》 摘要:本文提出DeepAnalyze-8B,首个专为自主数据科学设计的智能体式大语言模型。该模型通过创新的课程学习训练范式,模拟人类分析师的学习轨迹,实现从原始数据到深度报告的端到端自动化流程。研究采用基于数据支撑的轨迹合成框架构建训练数据,使8B参数的模型在12个基准测试中超越基于工作流且构建在专有大模型上的智能体。实验表明,D

文章图片
#语言模型#人工智能#自然语言处理
【AI论文】SmolVLA:一种经济高效机器人视觉-语言-动作模型

摘要:本研究提出SmolVLA——一种小型高效的视觉语言动作模型,解决了现有视觉语言动作(VLA)模型参数量大、训练成本高的问题。通过优化模型架构设计(跳层处理、视觉标记缩减、交替注意力机制)和利用481个社区数据集进行预训练,SmolVLA参数少于5亿,能在单GPU训练并部署至消费级设备。创新性地引入异步推理堆栈实现感知-动作解耦,提升控制速率。实验表明,在LIBERO和Meta-World模拟

文章图片
#人工智能
【AI论文】随机鹦鹉在大型语言模型(LLM)之肩:物理概念理解的总结性评估

为了评估LLM对物理概念的理解,本文设计了一项名为PhysiCo的任务。该任务通过网格格式的输入来抽象描述物理现象,从而避免了记忆问题。网格中的每个元素都代表了对物理概念的不同层次理解,从核心现象到应用实例,再到网格世界中其他抽象模式的类比。

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】背包强化学习(Knapsack RL):通过优化预算分配解锁大语言模型的探索能力

摘要:本研究针对大型语言模型(LLMs)强化学习中的探索预算分配问题,提出创新解决方案KnapsackRL。该框架将任务探索建模为背包问题,通过动态规划为不同难度任务分配差异化预算:简单任务减少资源,复杂任务最高可获得93次模拟推演(传统均匀分配仅16次)。实验表明,该方法使有效梯度比例提升20%-40%,在数学推理基准测试中平均提高2-4分,特定任务最高提升9分,性能相当情况下可节省50%计算资

文章图片
#语言模型#人工智能#自然语言处理
【AI论文】MIRIX:基于大语言模型(LLM)智能体的多智能体记忆系统

《MIRIX:模块化多智能体记忆系统的突破性进展》 摘要:本研究提出MIRIX记忆系统,突破现有AI智能体记忆能力的根本局限。通过六种精心设计的记忆类型(核心、情景、语义、程序性、资源记忆和知识库)和多智能体框架,MIRIX实现了多样化长期用户数据的持久保存与准确检索。实验表明,在多模态基准测试ScreenshotVQA中,MIRIX准确率比RAG基线提升35%,存储需求减少99.9%;在长对话测

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】Diffuman4D:利用时空扩散模型从稀疏视角视频中合成4D一致的人类视图

摘要:本文提出Diffuman4D方法,通过滑动迭代去噪机制增强4D扩散模型的时空一致性,实现稀疏视角视频的高质量视图合成。该方法定义4D潜在网格编码图像、位姿和姿态信息,采用滑动窗口在时空维度交替去噪,使信息充分流动。实验证明,在DNA-Rendering和ActorsHQ数据集上,该方法生成的视频在PSNR、SSIM等指标上显著优于现有技术,保持更好的时空连贯性,同时控制GPU内存消耗。研究还

文章图片
#人工智能
    共 460 条
  • 1
  • 2
  • 3
  • 46
  • 请选择