logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

智源多模态大模型登Nature,生成式人工智能路线统一到自回归

就此,智源提出了Emu3,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的 Transformer。在此研究基础上,悟界·Emu3.5进一步通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了“预测下一个状态”的范

文章图片
#人工智能#回归#数据挖掘
机器人为什么总在“最后一厘米”失败?RoboBrain 2.5 给出解法

与此同时,通过在这一阶段引入数据 replay,将第一阶段的部分数据混入训练,抑制“学精确能力时遗忘通用能力”的风险,实现“通用不掉线、精确再跃迁”的协同增益。为赋能具身智能技术研发,智源已经构建出以具身大脑为核心,自底向上全栈具身智能技术体系,包括能够跨异构本体数据采集以及标准化一站式平台,具身大小脑以及VLA等具身基座模型,还有具身智能评测等,为具身技术生态提供了一套可复现、可对齐的公共基础设

文章图片
#机器人#人工智能
机器人为什么总在“最后一厘米”失败?RoboBrain 2.5 给出解法

与此同时,通过在这一阶段引入数据 replay,将第一阶段的部分数据混入训练,抑制“学精确能力时遗忘通用能力”的风险,实现“通用不掉线、精确再跃迁”的协同增益。为赋能具身智能技术研发,智源已经构建出以具身大脑为核心,自底向上全栈具身智能技术体系,包括能够跨异构本体数据采集以及标准化一站式平台,具身大小脑以及VLA等具身基座模型,还有具身智能评测等,为具身技术生态提供了一套可复现、可对齐的公共基础设

文章图片
#机器人#人工智能
机器人为什么总在“最后一厘米”失败?RoboBrain 2.5 给出解法

与此同时,通过在这一阶段引入数据 replay,将第一阶段的部分数据混入训练,抑制“学精确能力时遗忘通用能力”的风险,实现“通用不掉线、精确再跃迁”的协同增益。为赋能具身智能技术研发,智源已经构建出以具身大脑为核心,自底向上全栈具身智能技术体系,包括能够跨异构本体数据采集以及标准化一站式平台,具身大小脑以及VLA等具身基座模型,还有具身智能评测等,为具身技术生态提供了一套可复现、可对齐的公共基础设

文章图片
#机器人#人工智能
技术详解 | 众智FlagOS1.6:一套系统,打通多框架与多芯片上下适配

2026年1月,北京智源人工智能研究院联合20余家机构推出开源系统软件栈FlagOS 1.6版本,旨在解决AI芯片生态割裂问题。

文章图片
#后端#架构#人工智能 +4
智源开源FlagOS升级:首次实现DeepSeek-R1满血版多种芯片高效快速部署

它给用户带来以下几个重要价值。是由智源牵头,与多个厂商共同打造的面向多元AI芯片的统一、开源的系统软件技术栈,包括支持多种AI芯片的高效并行训推框架FlagScale、支持多种AI芯片架构的高性能算子库FlagAttention和FlagGems,以及支持多种AI芯片的统一通信库FlagCX等关键技术。智源秉承科学严谨的方法,发布的多芯片版本,在各个芯片服务器上,均与英伟达芯片上的DeepSeek

#开源
BGE系列再升级:代码检索及多模态向量模型刷新多项领域基准

检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型BGE-Code-v1,多模态向量模型BGE-VL-v1.5以及视觉化文档向量模型BGE-VL-Screenshot。这些模型取得了代码及多模态检索的最佳效果,并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等领域内

#人工智能
智源开源多模态向量模型BGE-VL:多模态检索新突破

BGE系列模型自发布以来广受社区好评。近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。BGE-VL借助大规模合成数据MegaPairs训练而成。MegaPairs 结合多模态表征模型、多模态大模型和大语言模型,在海量图文语料库中高效挖掘多模态三元组数据。。本次发布的版本涵盖 2600

#人工智能#深度学习
智源悟界·Emu3.5:开启多模态世界大模型新纪元

DiDA 将传统的串行逐 token 生成过程,转变为一个多步并行的预测过程,在不牺牲性能的前提下,将每张图片的推理速度提升了近 20 倍,首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。作为悟界·Emu 系列的最新成员,Emu3.5 延续了将图像、文本和视频等多模态数据统一建模的核心思想,并实现了从“下一Token 预测”(Next-Token Prediction)到“下一状态预测”(Nex

文章图片
#人工智能
2025北京智源大会开幕|智源发布“悟界”系列大模型,解码物理世界交互新范式

2025年6月6日,第七届“北京智源大会”在中关村展示中心开幕。北京智源大会是智源研究院主办的“AI内行学术盛会”,以“全球视野、思想碰撞、前沿引领”为特色,汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2025北京智源大会邀请到了图灵奖得主、深度学习代表人物Yoshua Bengio,图灵奖得主、强化学习之父Richard S. Sutton,图灵奖得主Joseph Sifakis、

文章图片
#人工智能#科技
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择