
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
近期,DeepSeek-R1通过基于规则的奖励强化学习(RL)展示了大型语言模型(LLMs)中推理能力的涌现。基于这一理念,我们首次探索了基于规则的强化学习如何增强多模态大型语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。为此,我们精心整理了一个规模虽小但质量极高的数据集,包含136项具有挑战性的任务,涵盖了移动设备上的五种常见动作类型。同时,我们还引入了一种统一的基于规则

实验结果表明,当前最先进的LLMs在不同知识领域(例如,以推理为重点的模型DeepSeek-R1在SuperGPQA上取得了最高的61.82%准确率)的表现仍有显著提升空间,凸显了当前模型能力与通用人工智能之间存在的巨大差距。其次,项目团队提出了一种新颖的人机协作过滤机制,通过迭代精炼的方式消除琐碎或模糊的问题,从而提高了评估的针对性和有效性。实验结果表明,在不同轮次的评估中,模型的表现具有较高的

【研究摘要】本研究推出GLM-4.1V-Thinking视觉语言模型,通过三阶段训练框架(大规模预训练、监督微调、课程采样强化学习RLCS)显著提升多模态推理能力。模型在28个基准测试中表现优异,尤其在长文档理解和STEM推理任务上媲美GPT-4o等闭源模型。研究亮点包括:1)构建涵盖100亿图像-文本对的多样化数据集;2)创新RLCS框架实现跨领域能力协同提升;3)开源9B参数模型在多项任务超越

我们介绍了Eagle 2.5,这是一个用于长上下文多模态学习的前沿视觉语言模型(VLM)系列。我们的工作解决了长视频理解和高分辨率图像理解中的挑战,为这两项任务引入了一个通才框架。所提出的训练框架结合了自动降级采样和图像区域保留,这两种技术可以保持上下文完整性和视觉细节。该框架还包括许多针对长上下文数据训练的管道效率优化。最后,我们提出了Eagle-Video-110K,这是一个新颖的数据集,集成

《DeepAnalyze-8B:面向自主数据科学的智能体式大模型》 摘要:本文提出DeepAnalyze-8B,首个专为自主数据科学设计的智能体式大语言模型。该模型通过创新的课程学习训练范式,模拟人类分析师的学习轨迹,实现从原始数据到深度报告的端到端自动化流程。研究采用基于数据支撑的轨迹合成框架构建训练数据,使8B参数的模型在12个基准测试中超越基于工作流且构建在专有大模型上的智能体。实验表明,D

摘要:本研究提出SmolVLA——一种小型高效的视觉语言动作模型,解决了现有视觉语言动作(VLA)模型参数量大、训练成本高的问题。通过优化模型架构设计(跳层处理、视觉标记缩减、交替注意力机制)和利用481个社区数据集进行预训练,SmolVLA参数少于5亿,能在单GPU训练并部署至消费级设备。创新性地引入异步推理堆栈实现感知-动作解耦,提升控制速率。实验表明,在LIBERO和Meta-World模拟

为了评估LLM对物理概念的理解,本文设计了一项名为PhysiCo的任务。该任务通过网格格式的输入来抽象描述物理现象,从而避免了记忆问题。网格中的每个元素都代表了对物理概念的不同层次理解,从核心现象到应用实例,再到网格世界中其他抽象模式的类比。

摘要:本研究针对大型语言模型(LLMs)强化学习中的探索预算分配问题,提出创新解决方案KnapsackRL。该框架将任务探索建模为背包问题,通过动态规划为不同难度任务分配差异化预算:简单任务减少资源,复杂任务最高可获得93次模拟推演(传统均匀分配仅16次)。实验表明,该方法使有效梯度比例提升20%-40%,在数学推理基准测试中平均提高2-4分,特定任务最高提升9分,性能相当情况下可节省50%计算资

《MIRIX:模块化多智能体记忆系统的突破性进展》 摘要:本研究提出MIRIX记忆系统,突破现有AI智能体记忆能力的根本局限。通过六种精心设计的记忆类型(核心、情景、语义、程序性、资源记忆和知识库)和多智能体框架,MIRIX实现了多样化长期用户数据的持久保存与准确检索。实验表明,在多模态基准测试ScreenshotVQA中,MIRIX准确率比RAG基线提升35%,存储需求减少99.9%;在长对话测

摘要:本文提出Diffuman4D方法,通过滑动迭代去噪机制增强4D扩散模型的时空一致性,实现稀疏视角视频的高质量视图合成。该方法定义4D潜在网格编码图像、位姿和姿态信息,采用滑动窗口在时空维度交替去噪,使信息充分流动。实验证明,在DNA-Rendering和ActorsHQ数据集上,该方法生成的视频在PSNR、SSIM等指标上显著优于现有技术,保持更好的时空连贯性,同时控制GPU内存消耗。研究还








