
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
就此,智源提出了Emu3,基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练一个单一的 Transformer。在此研究基础上,悟界·Emu3.5进一步通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了“预测下一个状态”的范

与此同时,通过在这一阶段引入数据 replay,将第一阶段的部分数据混入训练,抑制“学精确能力时遗忘通用能力”的风险,实现“通用不掉线、精确再跃迁”的协同增益。为赋能具身智能技术研发,智源已经构建出以具身大脑为核心,自底向上全栈具身智能技术体系,包括能够跨异构本体数据采集以及标准化一站式平台,具身大小脑以及VLA等具身基座模型,还有具身智能评测等,为具身技术生态提供了一套可复现、可对齐的公共基础设

与此同时,通过在这一阶段引入数据 replay,将第一阶段的部分数据混入训练,抑制“学精确能力时遗忘通用能力”的风险,实现“通用不掉线、精确再跃迁”的协同增益。为赋能具身智能技术研发,智源已经构建出以具身大脑为核心,自底向上全栈具身智能技术体系,包括能够跨异构本体数据采集以及标准化一站式平台,具身大小脑以及VLA等具身基座模型,还有具身智能评测等,为具身技术生态提供了一套可复现、可对齐的公共基础设

与此同时,通过在这一阶段引入数据 replay,将第一阶段的部分数据混入训练,抑制“学精确能力时遗忘通用能力”的风险,实现“通用不掉线、精确再跃迁”的协同增益。为赋能具身智能技术研发,智源已经构建出以具身大脑为核心,自底向上全栈具身智能技术体系,包括能够跨异构本体数据采集以及标准化一站式平台,具身大小脑以及VLA等具身基座模型,还有具身智能评测等,为具身技术生态提供了一套可复现、可对齐的公共基础设

2026年1月,北京智源人工智能研究院联合20余家机构推出开源系统软件栈FlagOS 1.6版本,旨在解决AI芯片生态割裂问题。

它给用户带来以下几个重要价值。是由智源牵头,与多个厂商共同打造的面向多元AI芯片的统一、开源的系统软件技术栈,包括支持多种AI芯片的高效并行训推框架FlagScale、支持多种AI芯片架构的高性能算子库FlagAttention和FlagGems,以及支持多种AI芯片的统一通信库FlagCX等关键技术。智源秉承科学严谨的方法,发布的多芯片版本,在各个芯片服务器上,均与英伟达芯片上的DeepSeek
检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型BGE-Code-v1,多模态向量模型BGE-VL-v1.5以及视觉化文档向量模型BGE-VL-Screenshot。这些模型取得了代码及多模态检索的最佳效果,并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等领域内
BGE系列模型自发布以来广受社区好评。近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩充了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。BGE-VL借助大规模合成数据MegaPairs训练而成。MegaPairs 结合多模态表征模型、多模态大模型和大语言模型,在海量图文语料库中高效挖掘多模态三元组数据。。本次发布的版本涵盖 2600
DiDA 将传统的串行逐 token 生成过程,转变为一个多步并行的预测过程,在不牺牲性能的前提下,将每张图片的推理速度提升了近 20 倍,首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。作为悟界·Emu 系列的最新成员,Emu3.5 延续了将图像、文本和视频等多模态数据统一建模的核心思想,并实现了从“下一Token 预测”(Next-Token Prediction)到“下一状态预测”(Nex

2025年6月6日,第七届“北京智源大会”在中关村展示中心开幕。北京智源大会是智源研究院主办的“AI内行学术盛会”,以“全球视野、思想碰撞、前沿引领”为特色,汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2025北京智源大会邀请到了图灵奖得主、深度学习代表人物Yoshua Bengio,图灵奖得主、强化学习之父Richard S. Sutton,图灵奖得主Joseph Sifakis、








