首页 > 业界 > 关键词  > Sora最新资讯  > 正文

一文读懂文生视频模型Sora、Sora使用入口+sora使用教程、应用前景

2024-02-20 11:20 · 稿源:中国站长站

OpenAI 宣布了一款名为 Sora 的新生成式人工智能系统,该系统可以根据文本提示生成短视频。虽然 Sora 尚未向公众开放(部分用户已获得内测资格),但迄今为止发布的高质量样本已经引起了兴奋和担忧的反应。

OpenAI 发布的样本视频(该公司称这些视频是由 Sora 直接制作,未经修改)显示了提示的输出,例如“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频”和“加利福尼亚州的历史镜头”淘金热期间”。

乍一看,由于视频、纹理、场景动态、摄像机运动的高质量以及良好的一致性,通常很难看出它们是由人工智能生成的。

image.png

OpenAI 首席执行官 Sam Altman 还在 X(以前的 Twitter)上发布了一些根据用户建议的提示生成的视频,以展示 Sora 的功能。本文你将了解:

  • Sora 是什么?Sora如何运作?
  • Sora与其它AI视频软件对比
  • Sora使用入口网址、使用教程
  • Sora应用前景
  • Sora风险和道德问题

Sora 是什么?Sora如何运作?

Sora是一个基于大规模训练的文本控制视频生成扩散模型。它能够生成长达1分钟的高清视频,涵盖广泛的视觉数据类型和分辨率。Sora通过在视频和图像的压缩潜在空间中训练,将其分解为时空位置补丁,实现了可扩展的视频生成。Sora还展现出一些模拟物理世界和数字世界的能力,如三维一致性和交互,揭示了继续扩大视频生成模型规模来发展高能力模拟器的前景。

Sora 在所谓的“扩散变压器模型”中结合了文本和图像生成工具的功能。

Transformer 是Google 于2017年首次推出的一种神经网络。它们因在 ChatGPT 和 Google Gemini 等大型语言模型中的使用而闻名。

另一方面,扩散模型是许多人工智能图像生成器的基础。他们的工作原理是从随机噪声开始,迭代到适合输入提示的“干净”图像。

image.png

视频可以由一系列这样的图像制作。然而,在视频中,帧之间的连贯性和一致性是必不可少的。

Sora 使用 transformer 架构来处理帧之间的关联。虽然 transformers 最初设计用于在代表文本的标记中寻找模式,但 Sora 使用代表空间和时间的小块的标记。

Sora与其它AI视频软件对比

剩余75%的图文内容打赏作者后可查看

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天