首页 > 传媒 > 关键词  > AI技术最新资讯  > 正文

一览科技罗江春解读Sora技术:内容产业如何搭乘AI快车?

2024-04-07 15:36 · 稿源: 站长之家用户

AI技术不断推动社会进步的今天,内容产业正站在一个新的历史起点上。一览科技创始人、CEO罗江春在近期关于Sora的讨论中,为我们揭示了Sora等视频生成模型对行业的潜在影响。罗江春深入分析了Sora的技术特点,强调了其在视频场景模拟中的重要性,并预测了AI技术将如何逐步改变内容产业的生态。他同时指出,尽管国内在AI领域取得了一定的进展,但与国际领先企业相比,仍存在不小的差距。为此,他呼吁国内企业和创业者应加大研发投入,以实现技术上的突破和产业上的领先。

春节期间,OpenAI又放大招,旗下视频生成模型Sora连登热搜。在文生视频的浪潮下,大众关心的话题也从科技的发展延伸到了自身,AI会抢走哪些人的工作?还有哪些新职业会因此出现?

在此背景下,2月24日,一览科技创始人、CEO罗江春受邀做客南方都市报直播间,与硅基智能创始人、董事长、CEO司马华鹏,浙江大学计算机科学与技术学院副教授金小刚,一同就Sora冲击波可能造成哪些影响,中外大模型产品的差距是否拉大,文生图领域面临的职业新机遇和新挑战等问题进行了一场精彩交流。

议题一:在OpenAI出具的技术报告中,将Sora称为“世界模拟器”。OpenAI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,怎么理解这个说法?

金小刚:Sora并不足以称之为“世界模拟器”。Sora本质上是一个用数据喂出来的产品,用自回归的方式获得的统计意义上的结果,是 ‘大数据、大模型、大算力’的暴力计算得出的。这样的大模型不可能真正理解真实的世界。因为统计归纳方法本身是有很大缺点的。真实世界的复杂性远远高于模型的复杂性,用现有的知识归纳出来的东西,是远远不足以对付复杂世界的。所以这个‘世界模型’的说法显然是有问题的。

罗江春:这个事情我可能有点不同的观点,我一直在做视频,在视频行业待了20多年。首先Sora提出的“世界模拟器”核心指的是如何在视频场景里模拟真实的世界,它并没有超出Video这个领域。其他大模型生成视频,是通过一秒钟24张图片连贯播放做到的,但是Sora发布的视频有镜头概念。我认为它的核心是建了一个虚拟的视频素材的世界模型,然后用这里面的东西去推导,比如高速的转弯,小狗往前跑怎么转换场景,它模拟的狗的眼睛也好,人的眼睛也好,视觉摄像头也好,怎么来进行事物的转换。从这个角度来说,我觉得Sora的技术还是挺令人震撼的,我很期待能用它的产品。

司马华鹏:我认为Sora呈现的视频应该是达到了“世界模型”的程度,从各个角度来看,它的一致性,它的仿真,对物理、流体力学等定律的遵守,包括镜头的切换等都是非常好的。所以它一定是一个世界模型,而且这个世界模型是目前所有的公司和组织都难以望其项背的,当然也是我们奋起直追的目标。

议题二:在视频生成模型领域,国内也有多家企业布局。怎么看待国内企业和国际头部企业的差距?

罗江春:其实一览从成立之初就一直在尝试将AI技术跟视频相结合,2018年我们提到一个概念叫RGC(Robotic General Content),其实跟今天的AIGC(Artificial Intelligence Generated Content)是一个意思,唯 一的差别在于2018年我们在做RGC的时候底层是没有大模型的,那时候脚本我们得自己写。文生视频要怎么实现呢?一定要还原三个最关键的环节,分别是脚本、素材和剪辑。脚本包括创意、情节和场景,这些都需要通过大模型描述清楚,而且要拆成镜头;接着通过这些镜头,进行画图、建模,形成素材;第三步则是根据素材库进行后期剪辑、特 效。而这些应该是可以在Sora整个模型里完成的,它肯定不是用的图片,肯定有镜头才会看起来这么真实,这后面实际上算力的使用是很庞大的。

回过头来回答主持人这个问题,其实目前从技术上说国内外的差距是在拉大的。之前ChatGPT刚出来的时候很多国内公司说很快就能赶上3.5,结果OpenAI很快就推出了4.0、GPTs、再到现在的Sora。就感觉好像人家研究一天,我们又搞了一年,速度完全跟不上。关键还得有天才的团队、天才的idea以及有大量的资金投入,实实在在去做才会有一个像样的东西来。我是学AI出身的,1997-2000年在美国莱斯大学计算机系读Artificial Intelligence。我觉得面对(国内外)差距越拉越大,我们得奋起直追,需要不计成本、不计代价,要不然的话又会像芯片一样被人卡住。

司马华鹏:在正视差距的同时,我们也要有追赶的信心。事实上,我们硅基智能在海外的团队也在追踪这件事,大家都在不断地探索这块的原理和对应的实现方法。如果国内大厂、很多创业公司都参与的话,我觉得在半年里也应该会有一些能达到他们大概七八成的产品出来。硅基智能在数字人领域深耕了六年,在这一细分赛道上硅基智能已经领先很多国外同行,我们肯定要正视差距,只要有一线的机会我们都会去做。我们也都在各自领域找到了一些弯道超车的赛道在做。

议题三:随着以Sora为代表的视频生成模型的成熟、广泛应用,未来有哪些行业会受到深刻的影响?

罗江春:这个我想用克莱顿·克里斯坦森的《创新者的窘境》理论,就是一个革命性的新技术出现的时候,先被取代的是不被注意的低端产品。在内容产业,图文肯定会最 先被颠覆,随后是短视频、短剧,接下来则是影视行业。我相信很快就会有AI驱动的影视剧公司出现了。一到三年之内,出现一个纯AI的爆款电影,这是有可能的。没有明星,没有导演,就是一帮人想了一个idea,拍摄方式完全就颠覆了。这对于影视剧公司来说肯定会面临很大的挑战,挑战的分水岭在哪里呢?就是第 一部AI电影,而且是爆款。

现在这个趋势其实已经很明显了。已经有很多创作者在使用一览科技的AIGC全域工作流生产大量的图文,很多时候你在头条上看到的文章,都不知道是人写的还是AI写的,很难判断。然后侵蚀到短视频、短剧、影视剧。我觉得它会从低端到高端,逐渐重塑整个产业。

司马华鹏:影视企业必然会受到冲击,传统的内容平台也会被颠覆。另外,能源和芯片行业肯定也会受到巨大影响,因为Sora可能会吞噬掉世界上九成以上的显卡,这是很可怕的,大家表面上看到冲击的是这些视频生成所影响的产业,但如果它生成的视频大规模地充斥世界,它背后所能够聚拢的显卡资源会越来越多。今天在所有的创业公司里,训练大模型对应的显卡的资源已经是非常的不均衡分布了。

AI竞争的背后,本质上是显卡的竞争,算力的竞争,芯片的竞争。目前在前端的算法上,国内企业可能半年到一年就能追上,但在算力上的追赶是很难的,当你达到同等的效果的时候,对方的市场规模,以及对方在市场上的品牌认知、用户量都锁死之后,再追上是非常难的了。我们最终会因为没有芯片可用,没有这样的算力可用而输掉竞争。

罗江春:我回应一下司马总说的芯片这个事,其实我是很悲观的,为什么呢?就是我们能追上它的效果,但是当追上的时候,它已经虹吸了很多的内容创作者、资金、算力在它的平台上,只可能在局部的demo可能做的差不多,但是实际的Production这个level上我们其实是越差越远的,而且是越追越难。更何况OpenAI手上到底还有多少张牌,我们其实尚未可知。

议题四:哪些工作可能会因为视频生成模型的出现而消失?又可能会出现哪些新职业?

金小刚:这类工具对于普通公众来说会带来巨大的信息和能力的不对称性,如果用于诈骗,将带来不可估量的影响,所以在科技探索的同时,在监管上需要跟上。从教育的角度来思考,我们的教育不能满足于对于已有知识的背诵与综合,要着眼于好奇心的培养,激发学生对于未知的探索。教育不是去培养一个跟ChatGPT竞争的人,而是培养打造ChatGPT的人,根本上来说要培养创新者。

罗江春:可能每个行业都会受到冲击,但速度有所区别。设计师我想还是依然会存在的,因为他有审美,AI会让他的效率提升,我们现在在绘图产品上加了很多功能,包括怎么扩展、擦除、局部修改,都是为了设计师去做的。导演可能也还是需要的,因为他有很多镜头、转场的技巧,基本的审美。但是可能不需要在某个方面特别专业的人才,因为越专业的工作,越能用程序描述清楚的东西,硅基超越碳基是越有机会的。如果是一些要发挥创造力、想象力的工作,这些职业改变应该会慢一点。

司马华鹏:AI对于所有的产业而言,都能带来非常大的进步。今天有非常多的科学发现,都已经开始借助AI在做了。科学发展到这个阶段,有一些焦虑和忧虑很正常,当然我们也要奋起直追。

稿件整理自南方都市报报道

原标题:Sora制造AI焦虑?或引发内容行业变革,算力、芯片之争

采写:南都、N视频记者 汪陈晨 林文琪

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看

今日大家都在搜的词: