上篇文章我们介绍了Sora能做什么、有什么优劣势以及可能的应用前景,这篇文章我们基于Sora的官方技术文档介绍Sora的技术原理。
01 Sora基于扩散模型和Transformer架构
Sora是文生视频大模型,比起文生文、文生图,文生视频无疑更加复杂。但从技术原理来说,Sora实际上是将扩散模型和Transformer架构融合,建立了一种diffusion Transformer模型。
1. 扩散模型
扩散模型 (Diffusion Models) 是一类新的最先进的生成模型,可生成各种各样的高分辨率图像。基于扩散模型的示例架构有 GLIDE、DALLE-2、Imagen和完全开源的 stable diffusion。以去噪扩散概率模型 (Denoising Diffusion Probabilistic Model, DDPM)为例,其核心思想是通过一系列小步骤训练一个深度学习模型去除图像中的噪声。如果我们从完全随机的噪声开始,理论上我们能够不断应用该模型,直到获得一幅看上去就像是从训练集中采样出来的图像。
2. Transformer架构
Transformer架构擅长处理文本数据,这些数据本身是有顺序的。Transformer架构的大语言模型包括编码器和解码器,编码器将一个文本序列作为输入,解码器负责产生另一个文本序列作为输出。解码器不仅考虑了之前解码生成的词,还综合了编码器的上下文信息,从而更准确地预测下一个词。解码器以一种token流的方式持续输出,直到完成任务。例如,将一个输入的英语句子翻译成西班牙语,或者根据一句话生成一篇文章。
02 将视频数据转化为时空块
Sora研发受到大语言模型(LLM)的启发。LLM范式的成功部分得益于使用token,token巧妙地统一了文本的多种形式——代码、数学和各种自然语言。在文生视频模型研发工作中,OpenAI提出了时空块(spacetime latent patch)概念,统一了多种类型的视频和图片,可作为视频Transformer的token使用。
如下图所示,OpenAI训练了一个用于降低视觉数据维度的视频压缩网络(Video
compression network),首先将原始视频压缩到一个低维潜在空间中,并分解成一系列的时空块。
基于时空块的表示方式使得Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。
03 在低维潜在空间中生成视频然后映射回像素空间
Sora在这个压缩的潜在空间中生成视频。在推理时,可以通过在适当大小的网格中随机初始化时空块来控制生成视频的大小。
Sora是一个扩散模型,基于给定初始噪声块输入和文本提示词等条件信息,可以预测出原始的“干净”块。然后继续基于已经生成的视频块和文本条件不断预测生成新的块,从而实现视频的动态变化。
还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。
04 时空块技术可以提升视频适配性和构图质量
由于采用时空块的存储方式,Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。Sora 可以采样和生成宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。
针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。比如,其他模型会将所有训练视频裁剪为正方形,会导致有时会生成仅部分可见主体的视频。而相比之下,Sora 的视频取景有很大提升。
05 Sora采用的文本处理技术
在语言理解层面,OpenAI 发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。训练文本到视频的生成系统需要大量配有相应文本提示的视频。Sora将在DALL·E 3中引入的重新字幕技术(re-captioning technique)应用到了视频上。该技术首先训练一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。
与DALL·E 3相似,Sora也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。
06 Scaling
Law再次显灵
OpenAI表示,transformer在各个领域都表现出了卓越的扩展特性,包括语言建模、计算机视觉、图像生成以及视频生成。下图展示了训练过程中,在相同的样本下,随着训练计算规模的增加,视频质量显著提高。
OpenAI发现,视频模型在大规模训练时表现出许多有趣的新兴功能,使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——纯粹是模型缩放现象。
因此,OpenAI 将视频生成模型,命名为“世界模拟器”(world simulators),或称之为“世界模型”——可以理解为让机器像人类理解世界的方式一样学习。
07 结语
Sora技术并不是从石头里蹦出来,它仍然是很多技术的综合和海量数据训练涌现出的奇迹。作为一种diffusion Transformer模型,它使用时空块来处理视频和图片数据,并通过扩散模型来预测生成的时空块,通过transformer架构保证这一预测更加合理和连续。