“打假”Sora爆火短片：史上发布，背地里全靠人工驱动

2024-05-07 17:05 · 稿源：头号AI玩家公众号

声明:本文来自于微信公众号头号AI玩家（ID:AIGCplayer），作者:石濑，授权站长之家转载发布。

Sora，又翻车了。

还记得早前OpenAI联动视觉艺术家、电影制作人和设计师等专业创意人士用Sora整活的7支视频吗?

其中，多媒体制作公司shy kids打造的短片《Air Head（气球人）》(以下简称为气球人)因情节完整、叙事性强，引发广泛讨论。在国内各大平台上，网友们更是毫不吝啬地夸赞这部作品，甚至有人誉之为“Sora史上最佳发布”。

4月26日，X博主“Bilawal Sidhu”发文称，《气球人》并非Sora一键直出，实际制作过程中使用了大量转描技术（Rotoscoping）和人工后期创建的视觉特效。

截至目前，该条Sora“打假贴”在X上浏览量破190万。

美国喜剧演员兼动画制作人Sway Molina在评论区留言表示，他现在对OpenAI产生了信任问题。

还有网友指出，OpenAI在发布这些视频时，并没有说明视频经过后期编辑，有误导观众之嫌。

Sora是OpenAI开发的首个文生视频模型，自今年2月份发布以来，便引起了业界的广泛关注和讨论。

据“头号AI玩家”观察，从运营官方社交媒体账号，到联动专业创作者、行业KOL，乃至TED等知名机构，几乎每隔一段时间，OpenAI就会放出Sora生成的创意视频，保持话题热度，吊足大家胃口。

OpenAI官方运营的TikTok账号

然而，除了OpenAI官方发布的技术报告和演示视频，大多数人并没有实际体验Sora的机会。最近，《气球人》制作团队接受了在线媒体平台Fxguide的采访，基于他们使用Sora的亲身体验，揭示了Sora在视频生成方面的局限。

挤掉泡沫后，Sora的真实体验究竟如何?一线AIGC创作者又是如何看待此次Sora翻车的?

与Sora交互靠“抽卡”，
需要详细撰写提示词

《气球人》的制作团队由三位成员组成:Sidney Leeder担任制片人，Walter Woodman同时担任编剧和导演，而Patrick Cederberg则负责后期制作。他们都来自多媒体制作公司Shy Kids，该公司旗下作品不仅获得过艾美奖提名，还曾入围奥斯卡奖。

即使在这样专业的团队手中，使用Sora的体验也堪称“曲折”。

为了保持短片画面一致性，Shy Kids采用的工作流大致可分为两个部分:先与Sora交互生成原始素材，再通过专业影视制作工具如AE（After Effects）进行后期编辑和修改。

用户与Sora的互动主要通过文本提示实现，其中ChatGPT负责将用户输入的文本转换为更长的字符串，来触发视频片段的生成。截至4月中旬，Sora尚未支持多模态输入。

首先，惨遭“打假”的是，Sora在实际使用中并没有表现出如宣传片所示那样保持主体一致性的超强能力。

负责后期制作的Patrick透露，在制作《气球人》时，团队采取的解决办法是“在文本提示中尽可能详细地描述对象”，如角色的服装和气球类型。

Patrick，图源:fxguide.com

由于Sora没有提供任何功能来帮助用户控制不同镜头内容的一致性，制作团队使用Sora的整体体验仍是“抽卡”，即便使用相同的提示词，第一次和第二次运行生成的结果也大有不同。

原因在于，AI模型（如Sora）生成视频时，并非简单复制现有图像或视频片段，而是基于训练数据学习到的物体特征。

这些特征构成了物体的“潜在空间（Latent Space）”。在深度学习领域中，潜在空间是对物体概念的一种压缩和抽象的表示。

Patrick举了一个例子。

如果你要求Sora生成一个厨房长镜头，桌上有一个香蕉。在这种情况下，AI需要隐式地理解“香蕉”可能包含的特征，如“黄色”、“弯曲”和“有深色的末端”等。

由于潜在空间是压缩的，它远小于实际可能存在的所有香蕉图像的集合。这意味着AI可以高效地生成香蕉图像，无需维护一个庞大的“香蕉图像库（banana stock library）”。

每次AI运行并生成内容时，都是对潜在空间进行不同的解释或取样，这就是为什么使用相同的提示，每次生成的香蕉图像都有可能不同。

因此，提供详尽具体的“显示”指令，即“在文本提示中尽可能详细地描述对象”，可以帮助AI更好地理解你需要什么样的画面。

后期工作量只增不减，
三人耗费近两周完成《气球人》

据介绍，Shy Kids的方法论是像拍摄纪录片一样进行后期制作和编辑，先围绕剧本生成大量镜头，然后从这些素材中编织出一个新故事，而不是严格按照剧本制作。

对于最终出现在短片中的镜头，Patrick估算他们生成了数百个片段，每个时长大约10秒到20秒，原始素材与最终成品的比例大概是300:1。

人工智能不行，只好人工来凑。

1.角色一致性?成吨后期堆出来的

Sora无法确保黄色气球头在每个镜头中都保持相同，尽管提示词要求的是一个黄色气球，但它给出的生成结果要么颜色不对，要么气球上会出现一个人脸。

Sora输出的原始画面

由于真实影像中许多气球都配有绳子，Sora还会将绳子与气球关联在了一起，导致生成的气球人胸前都有一根绳子，并不符合制作团队对气球人形象的想象。

以上“画面瑕疵”都需要在后期制作中移除。

2.镜头渲染时间长，全靠人工后期提升分辨率

《气球人》虽然使用了Sora生成的素材，但其中很多都经过了调色和再处理。出于效率和质量的考虑，制作团队采用的是以低分辨率生成初始片段，然后使用AI工具Topaz进行分辨率提升。

Patrick解释说，Sora支持最高720P分辨率的操作，1080P也已经推出，但渲染时间较长。为了加快速度，他们以480P分辨率生成了《气球人》的全部内容。

Sora支持不同时间段的镜头渲染，如3秒、5秒、10秒、20秒，最长可达一分钟。渲染时间会根据一天中的时间以及云使用需求而变化。

Patrick提到，一般情况下，每次渲染需等待大约10到20分钟。团队倾向于渲染完整的20秒片段，以便在后期制作中有更多机会进行剪辑或编辑，从而提高获得满意画面的几率。

3.理解摄像机运动是AI的盲区

除了分辨率，Sora还允许用户选择宽高比，比如肖像模式或风景模式。这一功能运用在了短片中揭示主角真实身份的关键镜头中。但Sora无法原生渲染“摇摄”等这类镜头运动，在这个镜头中，制作团队先是以肖像模式渲染了这个镜头，然后通过后期裁剪手动创建了向上摇摄的效果。

对于生成式AI工具来说，训练数据附带的元数据是一个宝贵的信息来源。例如，如果在静态照片上进行训练，相机元数据将提供镜头尺寸、光圈大小以及模型训练所需的许多其他关键信息。

然而，电影镜头中的“跟踪”、“摇摄”、“倾斜”或“推进”等概念，都无法通过元数据捕捉。

Patrick指出，Sora在早期版本中对摄影机角度的生成相当随机，输入“摄像机摇摄”的提示，也只有大约60%的机会得到正确的响应。

“九个不同的人可能会有九种不同的方法来描述电影拍摄现场的一个镜头，而且OpenAI的研究人员在邀请艺术家使用这个工具之前，并没有真正像电影制作者那样思考。”Patrick补充道。

无法理解影像制作的专业术语，Sora并非个例。几乎所有主要的AI视频生成公司都面临着同样的挑战。尽管AI视频公司Runway在提供描述相机运动的用户界面方面较为先进，但其渲染的片段质量和长度却不及Sora。

4.灯光和调色:后期特效拉满

Shy Kids在他们的提示词中使用了“35毫米胶片”这一术语，发现这样的提示能带来较高一致性的画面效果。

此外，通过提示“高对比度”或“主光”，Sora也能生成相应的视觉效果。

短片的整体视觉风格，则是在Sora生成画面的基础上，通过后期添加颗粒和闪烁特效，以此来模仿传统电影胶片的风格。这一步骤中，Sora并未提供额外的通道选项，如遮罩或深度通道。

5.版权带来的提示词限制

Sora无法生成侵犯版权或疑似侵犯肖像权的内容。例如，输入提示如“35mm电影中的未来宇宙飞船，一个男人拿着光剑向前走”，Sora会拒绝生成该片段，因为这个提示与《星球大战》过于相似。甚至像已经成为拍摄基本术语的“希区柯克变焦”，也会因版权问题被Sora拒绝。

6.调整镜头速度

在《气球人》的制作过程中，一个意外的现象是，Sora生成的许多镜头原始版本是以慢动作呈现的。具体原因尚不清楚，但制作团队不得不对这些镜头的速度进行调整。

Patrick提到:“确实有许多镜头是以50%到75%的速度生成的，我们花费了大量时间进行调整，以避免整个影片给人感觉是大型的慢动作项目。”

7.音效与旁白

视觉画面之外，短片的背景音乐《The Wind》是Shy Kids团队的原创作品，而旁白则是由Patrick亲自录制的。他补充说:“有时为了改变影片的节奏，我会额外写一行剧本，然后录制并使用Sora生成相应的镜头。这是该工具在后期制作中的另一个强大用途:当你需要填补某个空白或激发创意时，Sora能够帮助你快速生成内容。

据介绍，Shy Kids团队三人耗时大约1.5至2周完成了《气球人》的制作。目前，他们正在制作该部短片的续集。

比起靠Sora直接生成一部影片，将Sora作为辅助的视觉效果工具，结合实拍镜头和AE合成等传统影视制作手段，更加“技术性”地运用Sora是制作团队接下来探索的方向。

AI视频工具的落地应用到哪一步了?

实际上，这已经不是Sora第一次翻车了。

今年2月，Sora刚发布不久，就有不少外部测试视频流出。率先拿到实测资格的彭博社发文称，Sora并不懂物理规则，生成视频的速度和效果都未能达到预期，远远没有到令人惊艳的程度。

彭博社实测:猴子长出鹦鹉尾巴

之前Sora翻车大多针对单个视频片段，而《气球人》的幕后制作过程则从影视制作的角度，揭示了当下以Sora为代表的AI视频工具的局限。

“气候尚早，代价颇大，还是专业用户的传统技艺在做底层支撑。这里面有大量的后期工作，再次佐证了，这些先进的工具不是一般创作者能驾驭的。”AIGC艺术家土豆人认为，从Shy Kids团队透露的使用体验来看，Sora还没有达到所谓世界模拟器的高度，现在呈现的内容还有很多瑕疵，离真正的商业级或影视级视频制作还有很大一段距离。

《气球人》更像是专业玩家带有实验色彩的一次探索。“对内容质量起决定性作用的是这个专业且完整的制作团队。”土豆人补充道，“技术还在早期阶段，所以选题、创作，还是围绕开发Sora潜力展开的，还没有真正到技术服务于内容的阶段。”

结合一线工作经验，实验电影人、AIGC艺术家海辛则认为，AI视频工具不一定只能为专业创作者所用，“也许现阶段能将其商业化运用的更多是传统影视广告从业者，但越来越多非影视背景的创作者也在用AI视频来表达自己”。

谈及现阶段用AI做视频的废片率时，海辛表示，目前AI在生成某些特定镜头，如月亮转动、花朵开花等空镜时，抽卡出片率会很高。而涉及人物表演的镜头则难度较大，抽卡废片率也会随之增高。

《气球人》导演Walter曾表示，Sora擅长创造看似真实的东西，但让他们兴奋的是它能够制造出完全超现实的东西。

对专业创作者而言，传统工作流是在可控性中寻找随机性，融入AI的新工作流则是在随机性中寻找可控性。

对于没有影视制作背景的普通用户来说，在随机性中寻找可控性仍是一大挑战。这或许也是Sora迟迟没有面向公众发布，而是选择先和创意软件巨头Adobe合作的原因所在。

目前，AI视频生成技术仍在快速迭代中。或许正如OpenAI研究员JasonWei所说的那样，Sora是视频生成的GPT-2时刻，它的出现会激励后续一系列模型的进步。

对标Sora，国内外近期涌现了不少新玩家。例如，生数科技联合清华大学推出的首个Sora级视频大模型“Vidu”，就支持一键生成最长16秒、分辨率达1080P的视频内容，如今已开放合作伙伴内测申请。

从“玩具”到真正的生产力工具，Sora们还有很长一段路要走。但可以预见，随着底层模型的发展，今年下半年，AI视频生成有望突破现有限制，在视频生成时长和角色一致性等方面逐步提升。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Sora生成火爆短片被指后期特效人工参与不能保证视频一致性

Sora火爆短片《气球人》的背后，最新揭秘引发了争议。这部视频并非完全由人工智能生成，其中有大量视觉效果需要人类后期实现。他们对OpenAI的营销方式感到厌倦。

Sora Sora视频 AI头条
Sora 支持的短片创作者解释了人工智能生成视频的优点和局限性

OpenAI在二月份推出的视频生成工具Sora引起了AI社区的广泛关注。Sora展示出的流畅、逼真的视频似乎远远领先于竞争对手。Sora的首次亮相为我们提供了一个窥探AI在电影制作领域应用的机会，但也让我们意识到还有很长的路要走。

Sora AI头条
荐史上最丑AI生图一夜爆火！又一款妙鸭级爆品来了？

【新智元导读】最丑AI神器诞生，万物皆可黏土!全世界社交媒体上，网友们都为Remini疯狂了。无论是硅谷大佬，甄嬛传人物是地铁老爷爷看手机，没有人可以逃脱这场黏土变身。根据作者自述，ta花了几十个小时才把视频转成黏土风格，用的应该是重绘原始图像的方法。

AI生图 Remini
A卡翻身全靠它了！AMD RDNA 5首曝：真正的全新GPU架构、从头开始设计

这一代AMDRDNA3显卡完全被N卡压着打，RDNA4大概率只是在RDNA3的基础上调整优化，提升光追性能，不会有太大变化。A卡要翻身，只能寄希望于RDNA5了。这个时间大约要等到2025年末或2026。
智谱AI研发国产文生视频模型对标Sora 最快年内发布

智谱AI正在研发对标OpenAISora的高质量文生视频模型，预计最快年内发布。该公司是国内一家估值过200亿的AI大模型独角兽公司，成立于2019年，由清华大学计算机系的技术成转化来。公司投资了超过13家AI产业链初创公司，致力于实现AI的自我解释、自我评测、自我监督。

智谱 AI 高质量文生视频模型
清华团队国产“Sora”火了：生数科技发布视频大模型「Vidu」

在中关村论坛的未来人工智能先锋论坛中，生数科技与清华大学携手，正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。这款引领时代的视频大模型，其核心在于团队原创的Diffusion与Transformer融合的U-ViT架构。作为通用视觉模型，Vidu能够生成更加多样化、更长时长的视频内容，其灵活的架构也将为未来兼容更广泛的模态、拓展多模态通用能力的�

人工智能视频模型 Diffusion
国际顶尖水平！首个Sora级国产自研视频大模型Vidu发布

在2024中关村论坛年会未来人工智能先锋论坛上，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型Vidu。这也是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平在加速迭代提升中。除了在时长方面突破，Vidu在视频效果方面也实现了显著提升，主要包括：能够生成细节复杂的场景，且符合真实的物理规律；能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容；能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换；在16秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致；能够生成特有的中国元素，例如熊猫、龙等。
品质精进，变革驱动，来伊份全方位“蜕变”之道

4月19日，2024年第十七届来伊份合作伙伴高峰论坛在通往世界的登机口-上海大虹桥盛大召开，本次大会以“共创共建新质生产力”为主题，来伊份董事长施永雷与到场的行业专家、供应商合作伙伴共同聚焦、研讨、解读来伊份未来业务要点，共谋发展的蓝图。会上，施永雷剖析了国内休闲食品发展形势，他表示虽然国内生产力产能过剩是一个必然，内卷以及价格竞争不可避免�
荐PR+AI重新定义视频剪辑，Sora、Pika全接入，AI视频创企还有的玩吗？

还记得网友们用PS的GenerativeFill花式整活的盛况吗?接下来，被网友玩坏的可能要轮到PR了。无论你是专业的视频剪辑师是业余爱好者，对PremierePro这款软件都一定不陌生。通过引入生成式AI技术，提供一站式的解决方案，不仅有利于大大提高创意工作流程的效率可以让非专业视频剪辑师也能轻松上手PR，进一步扩大Adobe的潜在市场。

AI视频
写真视频击败Sora？人大自研全新多模态大模型Awaker 1.0震撼登场

在人工智能领域，人大系初创公司智子引擎近日发布了一款名为Awaker1.0的全新多模态大模型，标志着向通用人工智能迈出了重要一步。该模型在写真视频效果上超越了Sora，展现了其在视觉生成方面的卓越能力。Awaker1.0在理解侧和生成侧都实现了效果突破，有望加速多模态大模型行业的发展，最终让人类实现AGI。

Awaker1.0 AI头条 Sora

Jovu:AI驱动的代码生成，快速实现从想法到生产。

Jovu是一个AI驱动的代码生成模型，旨在帮助开发者快速构建新服务或扩展现有应用程序。它通过AI技术生成生产就绪的代码，确保一致性、可预测性，并遵循最高标准。Jovu能够加速开发过程，从概念到部署只需几分钟，提供完全可操作的、健壮的后端服务，准备立即上线。它还通过简化开发工作流程、减少时间、优化资源来提高效率和速度。

AI代码生成快速开发生产就绪

TapScanner:全能扫描仪，AI助力，智能识别与分析。

TapScanner是一款利用人工智能技术，将移动设备转变为多功能智能扫描仪的应用程序。它能够识别和分析各种对象和文档，提供即时洞察力，并通过扫描轻松提升日常交互。

AI 扫描营养

TopicRanker:AI驱动的SERP分析工具，帮助用户发现易于排名的关键词。

TopicRanker是一款AI驱动的搜索引擎排名分析工具，专注于帮助用户通过分析竞争对手的弱点，发现在搜索引擎结果页面(SERP)中易于排名的关键词。它通过提供详尽的分析报告，AI生成的标题建议，内容大纲，博客文章，以及增强型元描述，帮助用户优化内容创作，提高SEO效果。产品背景信息包括它是由CriminallyProlific.com开发的，并且已经帮助多个企业在谷歌上排名第一。价格方面，TopicRanker提供三种不同的订阅计划，满足不同用户的需求。

SEO 关键词研究内容创作

Warmy:通过AI引擎提高电子邮件的投递率

Warmy是一个利用人工智能技术来优化电子邮件投递率的平台。它通过分析每个邮箱的发送活动和接收者行为，为每个邮箱制定个性化的预热计划，确保邮件发送量逐渐增加而不会触发垃圾邮件过滤器，从而最大化邮件的投递率。此外，Warmy的Adeline AI引擎能够实时分析发送性能，预测最佳发送时间和频率，帮助用户提高参与度，避免过度发送邮件给接收者造成困扰。Warmy还具备AI驱动的垃圾邮件风险检测功能，能够主动识别并标记具有高垃圾邮件风险的邮件，帮助用户避免邮件落入垃圾邮件文件夹，确保重要邮件能够送达接收者。

电子邮件投递 AI优化邮件营销

Glitter AI:将任何流程转化为逐步指南。

Glitter AI是一个创新的在线工具，它允许用户通过点击和说话来快速创建逐步指南。这项技术简化了教学过程，使得向同事、客户甚至家人传授技能变得简单快捷。

教育培训流程指南

Tourly Guide:沉浸式音频导览，让每个地标自己说话

Tourly Guide是一款移动应用程序，通过使用人工智能技术，为用户提供独特的沉浸式音频导览体验。它允许用户在探索地标时，通过AI生成的音频指南获得深入的了解和教育。该产品的主要优点包括个性化的导览内容、用户友好的界面设计以及对教育和文化探索的重视。Tourly Guide的背景信息显示，它由Roadly, Inc.开发，旨在通过技术提升用户的旅游和学习体验。

AI 教育旅游

SaveDay App:随时随地保存、管理和利用内容

SaveDay是一个智能工具，用于捕捉、组织和利用你的知识。它提供了快速的信息捕捉解决方案，支持保存文章、网站、图片、视频等，并且可以在移动设备上搜索、询问和总结内容。SaveDay注重数据安全和隐私保护，不与第三方共享用户内容。

信息管理知识捕捉数据安全

Neurture:通过了解大脑运作制定改变计划的APP

Neurture是一个旨在帮助用户了解大脑如何运作，并通过基于研究的治疗方法来制定有效的改变计划的应用程序。它通过数字化手写日记条目、获取后续期刊提示建议、由人工智能支持的情景冥想和期刊推荐等功能，帮助用户打破习惯或解决成瘾行为，实现重要的其他目标。Neurture强调隐私和信任，不收集用户数据，不投放广告，不训练模型，旨在为用户提供一个安全、无负担的自我提升环境。

自我提升心理健康习惯改变

AiWatchfulCompanion:革命化的家庭护理方式，从婴儿到老年人。

AiWatchfulCompanion是一款旨在改变我们照顾亲人方式的应用程序，它通过使用人工智能技术，为远离家乡的护理者提供实时的关怀和支持。该应用利用计算机视觉和音频分析，实时响应亲人的需求，提供连续的安全和健康保障。它还具备紧急响应功能，在无法联系到护理者时，能够向紧急服务提供事故位置。

人工智能家庭护理远程监控

Viva:使用的 Sora 同架构视频生成模型

Viva 是一个免费的 AI 生成工具和社区，提供 Text-to-Image、Image-to-Image、Text-to-Video、Image-to-Video 等功能，以及强大的 AI 编辑工具。用户可以扩展图像、重新绘制任何内容，使图像和视频更加高质量和 4K。Viva 使 AI 创作更简单、高效。海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。文生视频单次可以生成一条 5 秒的视频，图生视频是 4 秒视频目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。

“打假”Sora爆火短片：史上发布，背地里全靠人工驱动

与Sora交互靠“抽卡”，需要详细撰写提示词

后期工作量只增不减，三人耗费近两周完成《气球人》

今日大家都在搜的词：

热文

站长商机

与Sora交互靠“抽卡”，
需要详细撰写提示词

后期工作量只增不减，
三人耗费近两周完成《气球人》