OpenAI 推出最新的视频模型Sora

OpenAI 正在推出一种新的视频生成模型,名为 Sora。这家人工智能公司表示,Sora “可以根据文本指令创建现实且富有想象力的场景。”文本到视频模型允许用户创建长达一分钟的逼真视频——所有这些都基于他们编写的提示。

根据 OpenAI 的介绍性博客文章,Sora 能够创建“具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景”。该公司还指出,该模型可以理解物体“在物理世界中如何存在”,以及“准确地解释道具并生成引人注目的角色来表达充满活力的情感。”

图片来源:OpenAI

该模型还可以基于静止图像生成视频,以及填充现有视频上缺失的帧或扩展它。 OpenAI 博客文章中包含的 Sora 生成的演示包括淘金热期间加利福尼亚州的空中场景、一段看起来像是从东京火车内部拍摄的视频等等。许多模型都有一些明显的人工智能迹象——比如博物馆视频中可疑移动的地板——OpenAI 表示,该模型“可能难以准确模拟复杂场景的物理原理”,但总体结果令人印象深刻。

几年前,像 Midjourney 这样的文本到图像生成器处于模型将文字转换为图像的能力的最前沿。但最近,视频开始以惊人的速度进步:Runway和 Pika 等公司展示了自己令人印象深刻的文本到视频模型,而谷歌的 Lumiere 也被认为是 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似,Lumiere 为用户提供文本转视频工具,还允许他们从静态图像创建视频。

Sora 目前仅适用于正在评估模型潜在危害和风险的“红队成员”。 OpenAI 还允许一些视觉艺术家、设计师和电影制作人获取反馈。它指出,现有模型可能无法准确模拟复杂场景的物理原理,并且可能无法正确解释某些因果实例。

本月早些时候,OpenAI 宣布将在其文本转图像工具 DALL-E 3 中添加水印,但指出它们可以“轻松删除”。与其他人工智能产品一样,OpenAI 将不得不应对虚假的人工智能真实视频被误认为真实的后果。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注