logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从云端到终端,从大模型到机器人:智源众智FlagOS 1.5引领开放计算生态迈向成熟

9月26-27日,在北京举办的首届FlagOS开放计算开发者大会上,北京智源人工智能研究院(简称“智源研究院”)携手18个共创团队、超过60个全球生态合作伙伴,正式发布开源大模型智算基座“众智FlagOS 1.5”,已经支持了16家厂商超过20多款芯片,作为一个面向多种AI芯片的统一开源系统软件栈,众智FlagOS 1.5的发布标志着全球人工智能底层技术生态正迈向一个以“开放计算”为核心理念的协同

#机器人
智源开源 Reason-RFT:用强化学习重塑视觉推理,突破 VLM 泛化瓶颈

RoboBrain 是智源研究院推出的面向真实物理环境的“通用具身大脑”系统,集感知、推理与规划于一体,构建了从大脑认知到小脑控制的完整技术体系,包括具身大脑基座模型RoboBrain 2.0、面向3D轨迹生成的RoboBrain-SpatialTrace、用于强化学习稠密奖励生成的RoboBrain-Dopamine、通用小脑VLA模型RoboBrain-X0 Pro,以及灵巧手基座模型Robo

文章图片
#人工智能
智源开源 Reason-RFT:用强化学习重塑视觉推理,突破 VLM 泛化瓶颈

RoboBrain 是智源研究院推出的面向真实物理环境的“通用具身大脑”系统,集感知、推理与规划于一体,构建了从大脑认知到小脑控制的完整技术体系,包括具身大脑基座模型RoboBrain 2.0、面向3D轨迹生成的RoboBrain-SpatialTrace、用于强化学习稠密奖励生成的RoboBrain-Dopamine、通用小脑VLA模型RoboBrain-X0 Pro,以及灵巧手基座模型Robo

文章图片
#人工智能
智源全面开源RoboBrain 2.0与RoboOS 2.0:刷新10项评测基准,多机协作加速群体智能

RoboBrain 2.0以卓越的多模态感知、精细的空间推理及强大的长时规划能力,赋能机器人在具身环境中进行交互推理、多智能体协作及高效任务规划,助力复杂物理场景的智能感知与决策。通过这一阶段的训练,模型能够生成推理链,支持复杂任务的逐步推理和决策,从而在具身情境中实现更高效、更准确的推理和规划能力。:整合标准视觉问答、区域级查询、OCR视觉问答及多轮视觉对话,优化语言表达的多样性与语义一致性,通

文章图片
#开源#人工智能
FlagEval 7月榜丨新增29个模型评测结果,智源发布评估技术报告《AI大模型能力全景扫描》

智源研究院将长期以来在大模型评测的方法、流程和技术等维度的探索与实践,形成了第一期智源评估技术报告《AI大模型能力全景扫描》,持续推进大模型行业的蓬勃发展,报告建议支持开源开放建设,加强评测标准建设,强化协同研究,鼓励创新,推进行业应用,重视安全风险,优化监管,搭建产业生态。本次评测发现,大语言模型,国产模型主观能力整体有所提升;视觉语言新模型的能力有所提升,从本次指标上观察来看,使用强大的语言模

文章图片
#人工智能
智源悟界·Emu3.5:开启多模态世界大模型新纪元

DiDA 将传统的串行逐 token 生成过程,转变为一个多步并行的预测过程,在不牺牲性能的前提下,将每张图片的推理速度提升了近 20 倍,首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。作为悟界·Emu 系列的最新成员,Emu3.5 延续了将图像、文本和视频等多模态数据统一建模的核心思想,并实现了从“下一Token 预测”(Next-Token Prediction)到“下一状态预测”(Nex

文章图片
#人工智能
单图高精度6D位姿估计方法开源,让机器人“一眼看懂”陌生物体

为此,团队设计了一套粗到精的联合迭代优化策略,将尺度恢复融入端到端位姿估计流程,先快速初始化位姿(粗对齐),再通过迭代优化最终达到毫米级精度(精对齐)。当先验信息缺失(如无CAD模型、无多视角数据)时,系统不再被动等待理想输入,而是主动“生成-对齐”,利用生成式 AI 补全物体的完整3D结构,并通过几何与尺度的联合优化,将其精准锚定在真实空间中。实验过程:左列为锚点图像,中列为生成的 3D 模型,

文章图片
#机器人
智源开源EditScore:为图像编辑解锁在线强化学习的无限可能

北京智源人工智能研究院 VectorSpace Lab 团队近日发布了全新的高保真奖励模型系列——EditScore,旨在为指令引导的图像编辑任务提供精确、可靠的奖励信号,从而为强化学习在 AIGC 领域的深入应用铺平道路,真正解锁其强大潜力。

文章图片
#人工智能
图像生成新范式:智源推出全能视觉生成模型 OmniGen

近年来,许多文生图模型在生成式 AI 的浪潮中脱颖而出。然而,这些出色的专有模型仅能基于文本生成图像。当用户产生更灵活、复杂、精细等的图像生成需求时,往往需要额外的插件和操作。例如,若想参考任一姿态生成图像,常规方法是:用姿态检测器从参考图像中估计姿态作为条件输入,并加载对应的 Controlnet 插件,最后提取条件输入的特征馈入扩散模型生成图像。此外,若想基于合照中的特定人物生成新图像,流程更

文章图片
#人工智能
    共 29 条
  • 1
  • 2
  • 3
  • 请选择