OpenAI王炸Sora模型技术报告详解

2024年2月16日凌晨,OpenAI发布了首个视频生成模型Sora,效果炸裂,虽然不是大家期待已久的GPT-5,但意义我觉得不亚于一年前发布的GPT-4。对比 AI 视频里 Runway、Pika、Google 和 Meta 这些主流玩家， Sora 的特别之处在于：能够生成具有多个角色、特定类型动作和主题背景的复杂视频，时长为一分钟的高保真视频。可以在单个生成的视频中创建多个镜头，模拟复杂的摄

笑口常锴

2724人浏览 · 2024-02-16 21:12:24

笑口常锴 · 2024-02-16 21:12:24 发布

前言

2024年2月16日凌晨,OpenAI发布了首个视频生成模型Sora,效果炸裂,虽然不是大家期待已久的GPT-5,但意义我觉得不亚于一年前发布的GPT-4。
在这里插入图片描述
对比 AI 视频里 Runway、Pika、Google 和 Meta 这些主流玩家， Sora 的特别之处在于：

能够生成具有多个角色、特定类型动作和主题背景的复杂视频，时长为一分钟的高保真视频。
可以在单个生成的视频中创建多个镜头，模拟复杂的摄像机运镜，同时准确地保持角色和视觉风格。
最重要的是，它不仅理解用户在 prompt 中要求的内容，还能自己理解这些事物在现实世界中的存在方式。

以下是本篇文章正文内容为报告翻译版， Sora详细的技术报告刚OpenAI发布了，相关从业人员感兴趣都要了解一下，毕竟走在前沿的还是OpenAI啊。里面有训练思路以及Sora详细的技术特征，同时还产生了类似涌现的能力。

报告核心内容：
（1）我们将所有类型的视觉数据转化为统一表示的方法，从而能够大规模训练生成模型。
（2）对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节。

训练过程

Sora 的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。

从技术上看，Sora和DALLE-3一样都是采用扩散模型架构，即从一个随机噪音开始逐步去噪生成一个视频，这个一个比较成熟的技术方案。不过最近谷歌的几个视频生成工作如VideoPoet是采用基于Transformer的自回归方案。在文生图领域，扩散模型是主导，那么在视频生成领域自回归会不会更胜一筹，这个还有待未来的验证。

同时Sora的模型采用Transformer，像ViT一样将图像或者视频转成patches（类似文本tokens）送入Transformer模型。采用Transformer的一个优势是有很好的scaling性能。我估计这里为了减少计算量，还可能会采用latent diffusion，类似Meta之前的DiT。从最新的技术报告上看，确实是先用Visual Encoder将视频转到latent空间，然后再分解成patches：

在这里插入图片描述

对于给定的压缩输入视频，提取一系列时空区块，它们在变换器模型中充当标记（token）。这种方案同样适用于图像，因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着 Sora 训练计算量的增加，样本质量有了显著提升。

Sora训练时没有对素材进行裁切，使得Sora能够直接为不同设备以其原生纵横比创造内容。

针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。

Sora还使用 DALL·E 3 的recaption技巧，即为视觉训练数据生成高度描述性的caption，这让Sora能够更忠实地遵循生成视频中用户的文本指令，而且会支持长文本，这个应该是OpenAI独有的优势。还利用 GPT 将简短的用户提示转换为更长的详细字幕，然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。

在这里插入图片描述

技术特点

许多先前的工作已经研究了使用各种方法对视频数据进行生成建模，包括循环网络、生成对抗网络，自回归变压器和扩散模型，这些作品通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora 是视觉数据的通用模型，它可以生成不同时长、长宽比和分辨率的视频和图像，最多可达一分钟的高清视频。

我们发现，视频模型在大规模训练时表现出许多有趣的涌现能力。这些功能使 Sora 能够模拟物理世界中人、动物和环境的某些方面。这些属性的出现对3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

三维空间的连贯性：
Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

长期连续性和物体持久性
视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现，Sora通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，我们的模型可以保留人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，在整个视频中保持它们的外观。

与世界互动
Sora 有时可以以简单的方式模拟影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。

模拟数字世界
Sora还能够模拟人工过程，例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家，同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。

这些功能表明，继续扩大视频模型的规模，是开发物理和数字世界以及其中的物体、动物和人的高功能模拟器的一条大有可为的途径。

我们相信，Sora今天所拥有的能力表明，视频模型的持续扩展是一条有前途的道路，可以开发物理和数字世界以及生活在其中的物体、动物和人的模拟器。

论文关键点

OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型，这些模型同时在视频和图像上进行训练，处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点：