不止于“视频生成”,Sora何以定位“世界模拟器” | 德外视窗
连续两年开工时节,都被Open AI霸屏,去年就有若干厂商涉足多模态视频生成大模型的研发,今年又火出天际的Sora到底火在哪里?
首先,从定位上,在Open AI的报告里宣称:SORA定位为世界模拟器,Open AI认为视频生成模型的持续扩展是构建物理世界通用模拟器的一条有前途的道路,可以开发物理和数字世界,以及生活在其中的物体、动物和人的模拟器。
简单说来,Sora的核心功能在于“视频生成”“视频合成”与“图片生成”。与之前的Runway Gen2、Pika相比,优势主要在于:
-
Sora具有更长的生成时间能力,可以生成一分钟长的视频,而其他大模型一般只能生成几秒钟的视频; -
Sora具有更自由的视频尺寸能力,支持宽屏、竖屏以及介于两者之间的所有尺寸的视频生成; -
Sora支持向前或向后扩展视频,比如向后扩展可以在视频的基础上创造不同的开头,保持同样的结尾,生成的过程非常连续。 -
Sora还具有涌现出真实物理世界模拟的能力,可以生成更真实的物理世界的视频。
在讨论Sora即将影响的领域之前,让我们一起来看看官方的技术报告如何解读Sora的实现原理与应用场景,努力做到知其然、知其所以然、知其所以必然。
来源:openai.com,Digital Twins’ Future等。
编辑:王一婷
Hello 2024
「Sora主要技术原理」
用于视频生成的缩放 Transformer
Sora 是个扩散模型,给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的“干净”patches。重要的是,Sora 是一个扩散 Transformer。Transformer 在各个领域都表现出了卓越的缩放特性,包括语言建模、计算机视觉、和图像生成。
在这项工作中,OpenAI 发现扩散 Transformers 也可以有效地缩放为视频模型。下面,OpenAI 展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显著提高。
可变的持续时间,分辨率,宽高比
过去的图像和视频生成方法通常需要调整大小、进行裁剪或者是将视频剪切到标准尺寸,例如 4 秒的视频分辨率为 256x256。相反,该研究发现在原始大小的数据上进行训练,可以提供以下好处:
首先是采样的灵活性:Sora 可以采样宽屏视频 1920x1080p,垂直视频 1920x1080p 以及两者之间的视频。这使 Sora 可以直接以其天然纵横比为不同设备创建内容。Sora 还允许在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型 —— 所有内容都使用相同的模型。
与DALL·E 3类似,研究团队还利用GPT将短用户提示转换为更详细的说明文本,并将其发送到视频模型中。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。
Hello 2024
「Sora主要功能」
以图像和视频作为提示
我们已经看到了文本到视频的诸多生成示例。实际上,Sora 还可以使用其他输入,如已有的图像或视频。这使 Sora 能够执行各种图像和视频编辑任务 — 创建完美的循环视频、静态图像动画、向前或向后延长视频时间等。
· 为 DALL-E 图像制作动画
只要输入图像和提示,Sora 就能生成视频。下面展示了根据 DALL-E 2 和 DALL-E 3 图像生成的视频示例:
· 视频内容拓展
· 视频到视频编辑
连接视频
Sora可以在两个输入视频之间逐渐进行转场,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中间的视频在左侧和右侧的相应视频之间自动创建过渡帧。
图像生成能力
Sora 还能生成图像。为此,OpenAI 将高斯噪声 patch 排列在时间范围为一帧的空间网格中。该模型可生成可变大小的图像,最高分辨率可达 2048x2048。
涌现仿真能力
OpenAI 发现,视频模型在经过大规模训练后,会表现出许多有趣的涌现能力。这些能力使 Sora 能够模拟物理世界中的人、动物和环境的某些方面。这些特性并没有针对3D、物体等方面的显性归纳偏差,纯粹是规模效应现象。
· 三维一致性
Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。
· 长序列连贯性和目标持久性
视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。OpenAI 发现,虽然 Sora 并不总是能有效地模拟短距离和长距离的依赖关系,但它在很多时候仍然能做到这一点。
例如,即使人、动物和物体被遮挡或离开画面,Sora 模型也能保持它们的存在。同样,它还能在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
· 与世界互动
Sora 有时可以模拟以简单方式影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续,或者一个人可以吃汉堡并留下咬痕。
· 模拟数字世界
Sora还能够模拟人工过程,例如视频游戏。Sora 可以通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。这些功能可以通过向 Sora 提及“Minecraft”来零样本触发相关功能。
Hello 2024
「Sora志在数字孪生的终局?」
作为一款模拟器,Sora 目前还存在许多局限性。例如,它不能准确模拟许多基本交互的物理现象,如玻璃碎裂后液体才能流出,桌面上才有玻璃碎片等。其他交互,如吃食物,并不总能产生正确的物体状态变化。官方主页列举了该模型的其他常见失效模式,例如长时间样本中出现的不一致性或物体的自发出现。
由此看来,Open AI致力于打造一款通用的世界模拟器,志在构建世界模型,最终通过“数字孪生”的预测和自治推动整个世界的“数智化”升级,这会是一场全新的“数智革命”。
财联社报道称:从某种意义上讲,对人工智能的利用将会在国家之间、机构之间,甚至包括人与人之间形成新的代差和新的数字鸿沟,并推动人类从农业文明、工业文明走向数字文明。因此能否充分学习和利用人工智能会对人类产生分化,甚至对人类文明产生巨大影响。
看到这里也不必焦虑,这个未来的到来毕竟还有很远的路要走,在世界的发展进化中,“未知”与“机遇”始终并存,我们需要做就是:
在“复杂世界”的基础上,能够认知“未知世界”的特征与挑战,并有能力去拥抱“未知世界”的挑战,将“未知”转化为“机会”,并从“未知”中获益。——陈春花
转载引用声明:
请原文转载或不加修改地引用文中数据、结论及数据说明,并注明来源。除此之外的任何自行加工与解读均不代表CTR观点,对由此产生的不良影响,CTR保留诉诸法律的权利。
推荐阅读
More Sharing
抱团交流
一个集大神卖家与逗趣同行于一体的交流群,扫码添加客服微信(备注“进群”哦)。

目前100000+人已关注加入我们












下一篇:TikTok再陷诉讼风波,违规或面临6%年收入罚款!
文章为作者独立观点,不代表AMZ520立场。如有侵权,请联系我们。