Sora引发行业震动,中国开源方案破局突围

2024年2月,OpenAI 推出的文生视频模型Sora引发全球关注,其精良逼真的画质堪比影视CG效果,甚至有人预言它将颠覆电影工业。然而,Sora却选择了闭源策略,其技术细节成为黑箱,这让许多研究者望而却步。但谁都没想到,三个月后,一支来自北京大学的科研团队却用中国开源方案打破了这一僵局。

命运的齿轮就此转动,华为与这支北大团队的“缘分”也就此开启。

在 2024年鲲鹏昇腾开发者大会上,华为官宣和清华大学、北京大学、上海交通大学、浙江大学、中国科学技术大学5所顶尖高校合作成立鲲鹏昇腾科教创新卓越中心,围绕前沿技术合作、创新课题资助、顶级专业竞赛支持等维度展开合作,双方共同目标就是培养卓越研究人才,为计算产业孵化根植中国的创新成果。

一个月后,华为率先与北京大学举办签约仪式,北京大学 鲲鹏昇腾科教创新卓越中心(后文简称为“卓越中心”)正式落地。该卓越中心为视图生成、AI Agent、计算平台优化与创新、科学智能、工业仿真、生命科学等科研课题提供支持。当时,时任北京大学信息工程学院助理教授、博士生导师的袁粒,正在带领团队筹备开源版Sora,但受限于算力和数据的要求,项目进展缓慢。

袁粒表示:“视频生成不仅需要处理高分辨率和高帧率的数据,还依赖于复杂的神经网络架构以及大规模且多样化的训练数据集,这些因素都对计算资源提出了极高的要求。视频生成每次实验和迭代优化都需要大量的GPU资源,使得算力成为项目推进的关键瓶颈。尽管团队在高校内已拥有一些算力支持,但在大模型时代,如果要实现类似Sora视频生成,原有的算力资源远远不够。”

于是为了解决算力瓶颈,双方一拍即合,借助北京大学 鲲鹏昇腾科教创新卓越中心开展合作,短短一个月后,Open-Sora Plan在昇腾支持下正式推出,兼容文生图和文生视频,生成的视频精致流畅,媲美电影效果。

更重要的是Open-Sora Plan完全开源,开发者可基于自己的需求进行模型定制,大大提升了开发效率,因此Open-Sora Plan一经发布立即引起国内外 AI 开发者的关注,很快冲上 GitHub Trending 全球榜单第一,收获 12000+Star,获得 14 万多次访问。

北大与昇腾的“双向奔赴”,从“0”到“1”突破

一项技术的发展,既需要像袁粒团队这样的年轻科研人奋力奔跑,也需要全行业的众擎易举。正如袁粒在采访中多次强调,Open-Sora Plan项目的成功,不仅在于技术层面的突破,更在于这种全球范围内的合作,为项目的发展提供了强大动力。

迁移昇腾生态后,北大团队发现,昇腾打造了性能卓越且易于使用的 AI 基础软硬件平台,为开发者提供坚实的 AI 算力底座。目前有 50 多个业界主流大模型基于昇腾孵化及适配,可以说,昇腾已支撑起近一半的中国原创大模型。

经过一段时间的体验,团队发现昇腾生态具有高度的开放性和包容性,例如,通过CANN的支持,昇腾实现高效能的并行计算,显著加快大规模数据集的处理速度,这对于需要大量计算资源的科学研究尤为重要。Ascend C接口类库简化AI应用的开发流程,不仅降低开发者的入门门槛,还提高了开发效率。此外,算子加速库进一步优化算法运行性能,为科研人员提供更为灵活的选择。更重要的是,昇腾全面支持业界各类框架、加速库及三方社区生态,并提供全流程迁移工具,可快速实现大模型和应用的适配,目前已支持ChatGLM、LLaMA2、GPT、BLOOM等业界主流大模型。

而接下来的训练中,北大团队发现昇腾在训练推理能力也表现出色:比如使用torch_npu进行开发时,整体代码都可以无缝在昇腾NPU上训练和推理;需要进行模型切分时,昇腾MindSpeed分布式加速套件提供了丰富的大模型分布式算法及并行策略;另外,在大规模训练中,使用MindSpeed和昇腾硬件的稳定性远高于其他计算平台,可以连续一周不中断。

因此,短短一个月后,Open-Sora Plan就正式推出,获得了业内的极大认可。

袁粒回忆道:“当时我们进行计算平台选型时,在尝试多个平台后,我们最后坚定选择了昇腾。从最初的怀疑到刚接触的还行,再到深入接触后,昇腾的成长速度和生态丰富程度远远超出了我的预期,深入合作后发现与Open-Sora Plan也比较适配,我们越用越顺手。”

这得益于产品的易用性,大大降低了开发者的入门门槛。虽然团队成员是从零开始接触昇腾,但上手使用的速度却相当快。袁粒从中观察到,昇腾的学习门槛在逐步降低,社区内容的支持也正逐渐丰富,这是昇腾生态逐步完善实现的结果。

校企联动,让Open-Sora Plan长出加速度

也正因如此,Open-Sora Plan展现出了惊人的进化速度。2024 年 4 月初,Open-Sora Plan v1.0 正式发布。仅仅一个月后,在 5 月迎来了 v1.1 版本的更新。10 月底,最新的 v1.3 版本发布,带来了创新性的特性,推出了社区首个视频生成领域可行的稀疏化 3D Attention——Skiparse Attention,该技术有效提升了模型在处理时空信息时的效率和准确性,进一步优化了视频生成质量和性能;同时延续并强化了对多种分辨率和时长视频生成的支持。

在今年鲲鹏昇腾开发者大会(KADC 2025)上,袁粒团队联合兔展团队共同发布了Open-Sora Plan V1.5版本并预告了V2.0统一架构的多种能力。据介绍,相比上一代V1.3模型,该模型的功能更加完善,性能显著提升,尤为值得一提的是,该模型百分百依托昇腾MindSpeed MM多模态大模型套件进行训练和优化,同时采用了更先进的Diffusion Transformer结构SUV,突破了上一版本的计算复杂度和性能上限,实现了电影级的视频生成质量。同时V2.0版本实现了从单模态到多模态统一架构创新,并基于昇腾通过统一框架让视觉、语言、空间信息多源深度协同推理,增强视觉对复杂文本提示词的理解精准度,实现了文本和单张图片生成动态视频并支持下游各种任务,如检测分割、深度估计、风格迁移等,充分体现了昇腾在大模型时代的技术支撑能力和自主创新潜力。

该项目的合作模式发挥多方力量,达到1+1>2的效果。一方面,有力推进了创新科研成果孵化。Open-Sora Plan依托北大强大的科研力量,全力突破模型架构、算法创新等关键技术瓶颈。高校的科研团队凭借深厚的学术积累和前沿的研究理念,不断探索视频生成技术的新边界。同时,借助昇腾AI软硬件平台,为模型训练提供了坚实的后盾,保障了训练的稳定性与高效性,大大加速了视频生成技术的迭代速度。

另一方面,通过深度的校企合作,有效的人才培养机制,成功培养出一批复合型人才,成功构建起“技术-人才-场景”的闭环。在联合实验室,学生既能接触到北大教授的学术前沿,又能参与企业真实项目开发。值得注意的是,袁粒带领的团队平均年龄仅 23 岁,就已产出爆款项目。高校人才深度参与到项目之中,在实践中不断成长和学习,不仅掌握了先进的模型技术,还了解了产业的实际需求,为产业储备了一大批懂模型、能落地的复合型人才,为产业的长远发展注入了源源不断的活力,真正实现从科研突破到产业应用的价值转化。

携手高校,培育产学研融合的人才沃土

从闭源到开源,从实验室到产业,Open-Sora Plan的故事,是一场高校深耕与产教融合的胜利。它证明了:当高校科研与产业生态深度绑定时,技术突破不再是孤军奋战,而是群体智慧的结晶。

科技的未来,离不开基础技术的持续突破和人才的涌现,还有生态链各方的协同合作。大道不孤,众行致远。Open-Sora Plan基于开源初心,集结昇腾等多方力量参与到项目建设中。

“我们每天与昇腾团队交流讨论,一起头脑风暴,共同进行代码和算法开发。他们的专业建议和底层算子开发支持,使我们的工作更加高效。我们还会每周进行定期评审和会议讨论,确保项目的稳步推进。” 袁粒表示。

如今,Open-Sora Plan 已成为产教融合的标杆案例,也被复制到了智能制造、数字医疗、文创等多个领域。    

从闭源阴影到开源曙光,从技术突围到人才孵化,Open-Sora Plan 用两年时间为校企联合打样。这个诞生于高校实验室的项目,正在成为全球 AI 人才的 "黄埔军校",用开源精神和创新实践,为中国在 AI 时代的人才竞争中开辟出一条独特路径。

Logo

加入「COC·上海城市开发者社区」,成就更好的自己!

更多推荐