大佬拆解Sora工作原理看完你就知道Sora为什么这么牛了

2024-02-21 11:18 · 稿源：站长之家

站长之家（ChinaZ.com）2月21日消息:Sora是一款独特的视频生成工具，其工作原理深入浅出，值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理，通俗易懂。

Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始，逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧，确保视频中的动作流畅自然。

Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧，而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧，而是处理空间（发生的事情）和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。

时空立方体:

通过这种方式，Sora将视频视为一个包含空间和时间维度的巨大立方体，然后再将其切割成更小的立方体，每个立方体代表空间和时间的片段。

剖析描述并确定了核心要素:

• 物体（盛开的花朵、阳光普照的窗台）

• 行动（随着时间的推移而增长）

• 位置（郊区环境）

• 甚至艺术风格（定格动画美学）

为了能够将这些补丁有意义地组合成一个连贯的视频，Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用，甚至包括不同艺术风格的信息。借助这些知识，Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。

在视频生成的下一阶段，扩散模型开始对每个嘈杂、抽象的补丁进行处理，逐渐精细化，直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系，确保视频中的动作流畅自然，停动画风格在整个视频序列中保持一致。

尽管Sora能够执行各种与视频相关的任务，并展现出惊人的视频生成能力，但仍有一些挑战需要克服。例如，它在模拟一些基础物理互动的精确性方面还有待提高，有时会产生不自然的效果，如人物的手势看起来不够真实。尽管如此，Sora在视频生成技术方面展示了巨大的潜力，为未来的人工智能应用开辟了新的可能性。

拆解原文地址:https://twitter.com/thatguybg/status/1759935959792312461

猜你想看：

Sora怎么用？sora提示词大全：超100个Sora专属提示词

sora怎么用？sora从哪里下载？sora提示词教程附30个sora提示词案例

Sora怎么用？附详细Prompts及使用入口地址

（举报）

相关推荐
大家在看

关键词：

Sora

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐号称字节版“Sora”的Dreamina，能有几分像Sora?

AI复活又整出新活了。知乎联合两位答主根据灭绝动物的手绘画或照片，用AI还原了它们生前的状态，视频共计还原了13种已经灭绝的动物。随着AI技术的不断进步和产品的迭代更新，我们期待Dreamina未来能为用户提供更完善的创作体验。

Dreamina
荐抵制过AI的好莱坞能接受Sora？

AI生成视频模型Sora刚诞生一个月，创建者OpenAI计划将之推向好莱坞，建议将Sora应用到电影制作中。OpenAI一直与洛杉矶多家影视公司和媒体的高管积极沟通。Sora还有很长的路要走。

AI生成视频模型 Sora OpenAI
Sora官方发布首支MV《Worldweight》

Sora官方发布了首支MV《Worldweight》《Worldweight》MV成为热议话题。注：图为MV画面该MV由艺人AugustKamp创作的音乐配以Sora生成的视觉画面，呈现出一幅令人印象深刻的音乐世界。他们强调了对AI技术在艺术创作中使用的审慎和规范性。

Sora AI头条
荐Sora还没赚到钱，“AI复活”先来割韭菜

“AI复活短视频制作，轻松火爆全平台，公域私域双重变现操作。这类视频涨粉快，基本上小红书一个月就能涨一万以上粉丝，抖音做得好的话一个星期就能涨到一万粉丝有这类需求的人都很愿意花钱去制作视频。抛开“AI复活”项目可能涉及的伦理及法律问题不谈，该话题在这段时间的持续发酵和火爆，也从侧面印证了生成式AI技术的落地前景。

Sora AI赚钱
荐Adobe将Sora、Runway、Pika，集成在PR中

4月15日晚，全球多媒体巨头Adobe在官网宣布，将OpenAI的Sora、Pika、Runway等著名第三方文生视频模型，集成在视频剪辑软件PremierePro中。Adob也会将自身研发的Firefly系列模型包括视频、图片等集成在PR中;通过AI驱动的音频功能已普遍可用，可以使音频的编辑更快、更轻松、更直观。通过将生成式AI深度融合到PR的核心工作流程中，我们正在解决视频编辑人员每天遇到的真正制作痛点，

Adobe Sora
音乐圈巨震！刚刚，Sora发布首支MV《Worldweight》

OpenAI官方账号发布了一支名为《Worldweight》的音乐视频，由艺术家AugustKamp作曲，借助Sora制作的MV画面，引发了广泛关注。这首作品不仅是AugustKamp音乐创作的具象展现，也是Sora在AIGC技术上的又一突破。这种从实到虚的变化，不仅令人感慨万千，也引发了对未来艺术创作方向的深思。

Sora
荐剑指Sora！120秒超长AI视频模型免费开玩

近日，PicsartAIResarch等团队联合发布了StreamingT2V，可以生成长达1200帧、时长为2分钟的视频，一举超越Sora。作为开源世界的强大组件，StreamingT2V可以无缝兼容SVD和animatediff等模型。也许未来的某一天，那里也会是我们人类的生存空间。

Sora AI视频
一览科技罗江春解读Sora技术：内容产业如何搭乘AI快车？

在AI技术不断推动社会进步的今天，内容产业正站在一个新的历史起点上。一览科技创始人、CEO罗江春在近期关于Sora的讨论中，为我们揭示了Sora等视频生成模型对行业的潜在影响。科学发展到这个阶段，有一些焦虑和忧虑很正常，当然我们也要奋起直追。

AI技术内容产业视频生成模型
一句话P视频成现实！OpenAI Sora加入Adobe全家桶

近日Adobe宣布计划在年内推出由生成式AI加持的PR，遗憾的是官方并未公布具体时间。根据Adobe官方演示，AI加持的PR实现了一句话就能P视频，用户只需输入文本提示词，就能添加、改变和删除物体，增加辅助镜头，甚至还能把某个镜头延长几帧。PS的AI功能思路上和P有些类似，都是通过文字提示词，让一些人类觉得麻烦的细节处理起来更加简单，例如添加内容、移除或替换图像的一部分、扩展图像等等。
北大字节提出图像生成新范式VAR 超越Sora核心组件DiT

北大与字节跳动AILab联合提出了一种图像生成新范式——VAR，这一新方法的核心在于预测下一级分辨率非传统的预测下一个token。VAR的提出不仅在图像生成质量上超越了Sora的核心组件DiffusionTransformer在推理速度上也实现了20倍以上的提升。VAR的开源也体现了学术界与工业界合作的积极成果，有助于推动整个AI领域的发展和创新。

VAR AI头条

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

大佬拆解Sora工作原理 看完你就知道Sora为什么这么牛了

今日大家都在搜的词：

热文

站长商机

大佬拆解Sora工作原理看完你就知道Sora为什么这么牛了