Sora的背景与概述

Sora是什么?简单来说,就是OpenAI用GPT的能力来做视频文本对齐,通过将多个高分辨率视频素材进行降维处理,然后进行密集训练,最后达到一个想看什么就生成什么视频的效果。Sora的底层采用的是Transformer架构,建立在过去的DALL·E和GPT的研究基础之上,采用了DALL·E3的重述技术,因此能更好地遵循用户的文本描述,并具有极强的扩展性。

Sora的发布意味着什么?
Sora的发布意味着什么?

能为我们做些什么?

Sora能为我们做什么呢?我们只需要一段文本描述,就可以生成60秒1080P的视频,不光场景细腻,角色的表情也栩栩如生。此外,Sora还能从静态图像中生成动画或拓展现有视频,从而创造多个画面,并且能够保持角色和视觉风格的一致性。

存在的一些问题

尽管Sora具有令人惊叹的功能,但也存在一些问题。该模型会混淆提示的空间细节,并且难以准确模拟复杂场景中的物理现象。比如,老人吹蜡烛前后,火苗没有丝毫变化。它也无法理解一个事例中包含的因果关系,比如酒杯摔碎,但是液体的流动和玻璃的破裂关系。

Sora的发布意味着什么?
Sora的发布意味着什么?

Sora的基本原理

OpenAI官方公布的Sora的技术文档没有透露太多关于Sora的技术细节,但大致介绍了Sora的基本原理:通过大量的学习视频来理解现实世界的动态变化,并用计算机视觉技术来模拟这些变化,创造出全新的视觉内容。Sora所学习的不仅仅是视频里面的画面、像素点,同时也在学习视频里面那个世界的“物理规律”

自我学习物理规律

Sora似乎能够理解视频中的各种物理规律,这种理解世界的方式被称为世界模型。人类与世界交互的方式就是通过世界模型来预测世界的反应。Sora通过学习视频,不仅记住了画面中的细节,还掌握了其中的物理规律。

通用人工智能

Sora的出现可能意味着通用人工智能(AGI)正在加速到来。OpenAI最终想要构建的是一个通用的物理世界模拟器,而Sora只是验证了这条道路的可行性。通往通用人工智能的道路上,除了需要算法,还需要大量的算力。因此,为了实现这一目标,OpenAI筹集了大量资金来重塑全球AI芯片的基础设施。

结语

Sora的发布标志着行业的革命性变革。从视频生成到理解物理规律,再到通用人工智能的探索,这一连串的创新举措将引领人工智能领域迈向新的高度。随着技术的不断进步,我们或许将见证人工智能在未来的巨大飞跃。