logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI论文】FlowRL:为大型语言模型(LLM)推理匹配奖励分布

摘要:本研究提出FlowRL方法,通过流量平衡匹配完整奖励分布(而非仅最大化奖励)来解决大语言模型强化学习中多样性不足的问题。传统方法(如PPO/GRPO)易过度优化主导奖励信号而忽略低频有效路径。FlowRL将标量奖励转换为归一化目标分布,通过最小化反向KL散度促进多样化探索。实验显示,在数学推理任务中FlowRL比GRPO/PPO分别提升10.0%/5.1%,在代码推理任务中持续表现更优。该方

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】ScaleCUA:借助跨平台数据扩展开源计算机使用代理(系统/工具)规模

视觉语言模型(Vision-Language Models,VLMs)使得能够自主操作图形用户界面(Graphical User Interfaces,GUIs)的计算机使用智能体(Computer Use Agents,CUAs)成为可能,展现出巨大潜力,然而,由于缺乏大规模、开源的计算机使用数据和基础模型,相关进展受到限制。在本研究中,我们推出了ScaleCUA,这是朝着扩大开源计算机使用智能

文章图片
#人工智能
【AI论文】ScaleCUA:借助跨平台数据扩展开源计算机使用代理(系统/工具)规模

视觉语言模型(Vision-Language Models,VLMs)使得能够自主操作图形用户界面(Graphical User Interfaces,GUIs)的计算机使用智能体(Computer Use Agents,CUAs)成为可能,展现出巨大潜力,然而,由于缺乏大规模、开源的计算机使用数据和基础模型,相关进展受到限制。在本研究中,我们推出了ScaleCUA,这是朝着扩大开源计算机使用智能

文章图片
#人工智能
【AI论文】Hala技术报告:大规模构建以阿拉伯语为中心的指令与翻译模型

摘要:本研究提出Hala系列阿拉伯语指令与翻译模型,采用创新的"翻译-调优"流程构建。通过FP8量化将AR↔EN教师模型压缩至近2倍吞吐量,生成高质量双语数据用于微调轻量级模型LFM2-1.2B,进而构建百万级阿拉伯语指令语料库。研发350M-9B不同参数规模的模型,结合球面线性插值技术优化性能。在阿拉伯语基准测试中,Hala在纳米级(≤2B)和小型(7-9B)类别均取得领先成

文章图片
#人工智能
【AI论文】ReSum:通过上下文摘要解锁长视野搜索智能

摘要:本研究提出ReSum范式解决大语言模型(LLM)网页智能体在复杂查询中的上下文窗口限制问题。通过定期摘要交互历史为紧凑推理状态,ReSum实现无限探索能力。配套开发的ReSumTool-30B摘要模型和ReSum-GRPO训练算法(结合GRPO强化学习与分段轨迹优化),使智能体适应摘要条件下的推理。实验显示,ReSum较ReAct范式平均提升4.5%,经ReSum-GRPO训练后提升达8.2

文章图片
#人工智能
【AI论文】ReSum:通过上下文摘要解锁长视野搜索智能

摘要:本研究提出ReSum范式解决大语言模型(LLM)网页智能体在复杂查询中的上下文窗口限制问题。通过定期摘要交互历史为紧凑推理状态,ReSum实现无限探索能力。配套开发的ReSumTool-30B摘要模型和ReSum-GRPO训练算法(结合GRPO强化学习与分段轨迹优化),使智能体适应摘要条件下的推理。实验显示,ReSum较ReAct范式平均提升4.5%,经ReSum-GRPO训练后提升达8.2

文章图片
#人工智能
【AI论文】SAIL-VL2技术报告

摘要:SAIL-VL2是一款开源视觉语言基础模型,在2B和8B参数规模下实现了多项突破:1)创新性地构建数据整理流水线提升多模态数据质量;2)采用渐进式训练框架(预训练视觉编码器→多模态预训练→SFT-RL混合范式);3)结合稠密LLM与稀疏MoE架构。该模型在106个数据集中表现优异,尤其在MMMU和MathVista等高难度推理任务上达到最优,OpenCompass评测中SAIL-VL2-2B

文章图片
#人工智能
【AI论文】GenExam:一项跨学科文生图测试

摘要: 本研究提出首个跨学科文生图考试基准GenExam,包含10个学科的1000个样本,配备真实图像答案和细粒度评分标准。通过四级分类体系设计考试风格提示语,对生成图像的语义正确性和视觉合理性进行严格评估。实验显示,GPT-Image-1等先进模型的严格得分不足15%,多数模型接近0%,凸显基准的挑战性。该研究填补了现有生成测试忽视绘图类考试的空白,为评估模型知识整合与生成能力提供新范式,推动A

文章图片
#人工智能
【AI论文】通过持续预训练扩展智能体(Agent)规模

摘要:Hunyuan3DStudio提出了一种端到端AI驱动的3D内容创作平台,旨在简化游戏就绪资产的生成流程。该平台通过七个核心技术模块实现从概念到引擎集成的全流程自动化,包括可控图像生成、高保真几何生成、纹理合成等功能。实验表明,生成的3D资产在视觉质量和技术规范上都满足主流游戏引擎要求,显著降低了创作门槛。不过,系统仍面临数据依赖性、复杂场景处理等挑战。未来将重点优化数据多样性、用户交互体验

文章图片
#人工智能
【AI论文】通过持续预训练扩展智能体(Agent)规模

摘要:Hunyuan3DStudio提出了一种端到端AI驱动的3D内容创作平台,旨在简化游戏就绪资产的生成流程。该平台通过七个核心技术模块实现从概念到引擎集成的全流程自动化,包括可控图像生成、高保真几何生成、纹理合成等功能。实验表明,生成的3D资产在视觉质量和技术规范上都满足主流游戏引擎要求,显著降低了创作门槛。不过,系统仍面临数据依赖性、复杂场景处理等挑战。未来将重点优化数据多样性、用户交互体验

文章图片
#人工智能
    共 341 条
  • 1
  • 2
  • 3
  • 35
  • 请选择