首页 > 传媒 > 关键词  > AI技术最新资讯  > 正文

一览科技罗江春解读Sora技术:内容产业如何搭乘AI快车?

2024-04-07 15:36 · 稿源: 站长之家用户

AI技术不断推动社会进步的今天,内容产业正站在一个新的历史起点上。一览科技创始人、CEO罗江春在近期关于Sora的讨论中,为我们揭示了Sora等视频生成模型对行业的潜在影响。罗江春深入分析了Sora的技术特点,强调了其在视频场景模拟中的重要性,并预测了AI技术将如何逐步改变内容产业的生态。他同时指出,尽管国内在AI领域取得了一定的进展,但与国际领先企业相比,仍存在不小的差距。为此,他呼吁国内企业和创业者应加大研发投入,以实现技术上的突破和产业上的领先。

春节期间,OpenAI又放大招,旗下视频生成模型Sora连登热搜。在文生视频的浪潮下,大众关心的话题也从科技的发展延伸到了自身,AI会抢走哪些人的工作?还有哪些新职业会因此出现?

在此背景下,2月24日,一览科技创始人、CEO罗江春受邀做客南方都市报直播间,与硅基智能创始人、董事长、CEO司马华鹏,浙江大学计算机科学与技术学院副教授金小刚,一同就Sora冲击波可能造成哪些影响,中外大模型产品的差距是否拉大,文生图领域面临的职业新机遇和新挑战等问题进行了一场精彩交流。

议题一:在OpenAI出具的技术报告中,将Sora称为“世界模拟器”。OpenAI认为,视频生成模型是构建通用物理世界模拟器的一条有前景的道路,怎么理解这个说法?

金小刚:Sora并不足以称之为“世界模拟器”。Sora本质上是一个用数据喂出来的产品,用自回归的方式获得的统计意义上的结果,是 ‘大数据、大模型、大算力’的暴力计算得出的。这样的大模型不可能真正理解真实的世界。因为统计归纳方法本身是有很大缺点的。真实世界的复杂性远远高于模型的复杂性,用现有的知识归纳出来的东西,是远远不足以对付复杂世界的。所以这个‘世界模型’的说法显然是有问题的。

罗江春:这个事情我可能有点不同的观点,我一直在做视频,在视频行业待了20多年。首先Sora提出的“世界模拟器”核心指的是如何在视频场景里模拟真实的世界,它并没有超出Video这个领域。其他大模型生成视频,是通过一秒钟24张图片连贯播放做到的,但是Sora发布的视频有镜头概念。我认为它的核心是建了一个虚拟的视频素材的世界模型,然后用这里面的东西去推导,比如高速的转弯,小狗往前跑怎么转换场景,它模拟的狗的眼睛也好,人的眼睛也好,视觉摄像头也好,怎么来进行事物的转换。从这个角度来说,我觉得Sora的技术还是挺令人震撼的,我很期待能用它的产品。

司马华鹏:我认为Sora呈现的视频应该是达到了“世界模型”的程度,从各个角度来看,它的一致性,它的仿真,对物理、流体力学等定律的遵守,包括镜头的切换等都是非常好的。所以它一定是一个世界模型,而且这个世界模型是目前所有的公司和组织都难以望其项背的,当然也是我们奋起直追的目标。

议题二:在视频生成模型领域,国内也有多家企业布局。怎么看待国内企业和国际头部企业的差距?

罗江春:其实一览从成立之初就一直在尝试将AI技术跟视频相结合,2018年我们提到一个概念叫RGC(Robotic General Content),其实跟今天的AIGC(Artificial Intelligence Generated Content)是一个意思,唯 一的差别在于2018年我们在做RGC的时候底层是没有大模型的,那时候脚本我们得自己写。文生视频要怎么实现呢?一定要还原三个最关键的环节,分别是脚本、素材和剪辑。脚本包括创意、情节和场景,这些都需要通过大模型描述清楚,而且要拆成镜头;接着通过这些镜头,进行画图、建模,形成素材;第三步则是根据素材库进行后期剪辑、特 效。而这些应该是可以在Sora整个模型里完成的,它肯定不是用的图片,肯定有镜头才会看起来这么真实,这后面实际上算力的使用是很庞大的。

回过头来回答主持人这个问题,其实目前从技术上说国内外的差距是在拉大的。之前ChatGPT刚出来的时候很多国内公司说很快就能赶上3.5,结果OpenAI很快就推出了4.0、GPTs、再到现在的Sora。就感觉好像人家研究一天,我们又搞了一年,速度完全跟不上。关键还得有天才的团队、天才的idea以及有大量的资金投入,实实在在去做才会有一个像样的东西来。我是学AI出身的,1997-2000年在美国莱斯大学计算机系读Artificial Intelligence。我觉得面对(国内外)差距越拉越大,我们得奋起直追,需要不计成本、不计代价,要不然的话又会像芯片一样被人卡住。

司马华鹏:在正视差距的同时,我们也要有追赶的信心。事实上,我们硅基智能在海外的团队也在追踪这件事,大家都在不断地探索这块的原理和对应的实现方法。如果国内大厂、很多创业公司都参与的话,我觉得在半年里也应该会有一些能达到他们大概七八成的产品出来。硅基智能在数字人领域深耕了六年,在这一细分赛道上硅基智能已经领先很多国外同行,我们肯定要正视差距,只要有一线的机会我们都会去做。我们也都在各自领域找到了一些弯道超车的赛道在做。

议题三:随着以Sora为代表的视频生成模型的成熟、广泛应用,未来有哪些行业会受到深刻的影响?

罗江春:这个我想用克莱顿·克里斯坦森的《创新者的窘境》理论,就是一个革命性的新技术出现的时候,先被取代的是不被注意的低端产品。在内容产业,图文肯定会最 先被颠覆,随后是短视频、短剧,接下来则是影视行业。我相信很快就会有AI驱动的影视剧公司出现了。一到三年之内,出现一个纯AI的爆款电影,这是有可能的。没有明星,没有导演,就是一帮人想了一个idea,拍摄方式完全就颠覆了。这对于影视剧公司来说肯定会面临很大的挑战,挑战的分水岭在哪里呢?就是第 一部AI电影,而且是爆款。

现在这个趋势其实已经很明显了。已经有很多创作者在使用一览科技的AIGC全域工作流生产大量的图文,很多时候你在头条上看到的文章,都不知道是人写的还是AI写的,很难判断。然后侵蚀到短视频、短剧、影视剧。我觉得它会从低端到高端,逐渐重塑整个产业。

司马华鹏:影视企业必然会受到冲击,传统的内容平台也会被颠覆。另外,能源和芯片行业肯定也会受到巨大影响,因为Sora可能会吞噬掉世界上九成以上的显卡,这是很可怕的,大家表面上看到冲击的是这些视频生成所影响的产业,但如果它生成的视频大规模地充斥世界,它背后所能够聚拢的显卡资源会越来越多。今天在所有的创业公司里,训练大模型对应的显卡的资源已经是非常的不均衡分布了。

AI竞争的背后,本质上是显卡的竞争,算力的竞争,芯片的竞争。目前在前端的算法上,国内企业可能半年到一年就能追上,但在算力上的追赶是很难的,当你达到同等的效果的时候,对方的市场规模,以及对方在市场上的品牌认知、用户量都锁死之后,再追上是非常难的了。我们最终会因为没有芯片可用,没有这样的算力可用而输掉竞争。

罗江春:我回应一下司马总说的芯片这个事,其实我是很悲观的,为什么呢?就是我们能追上它的效果,但是当追上的时候,它已经虹吸了很多的内容创作者、资金、算力在它的平台上,只可能在局部的demo可能做的差不多,但是实际的Production这个level上我们其实是越差越远的,而且是越追越难。更何况OpenAI手上到底还有多少张牌,我们其实尚未可知。

议题四:哪些工作可能会因为视频生成模型的出现而消失?又可能会出现哪些新职业?

金小刚:这类工具对于普通公众来说会带来巨大的信息和能力的不对称性,如果用于诈骗,将带来不可估量的影响,所以在科技探索的同时,在监管上需要跟上。从教育的角度来思考,我们的教育不能满足于对于已有知识的背诵与综合,要着眼于好奇心的培养,激发学生对于未知的探索。教育不是去培养一个跟ChatGPT竞争的人,而是培养打造ChatGPT的人,根本上来说要培养创新者。

罗江春:可能每个行业都会受到冲击,但速度有所区别。设计师我想还是依然会存在的,因为他有审美,AI会让他的效率提升,我们现在在绘图产品上加了很多功能,包括怎么扩展、擦除、局部修改,都是为了设计师去做的。导演可能也还是需要的,因为他有很多镜头、转场的技巧,基本的审美。但是可能不需要在某个方面特别专业的人才,因为越专业的工作,越能用程序描述清楚的东西,硅基超越碳基是越有机会的。如果是一些要发挥创造力、想象力的工作,这些职业改变应该会慢一点。

司马华鹏:AI对于所有的产业而言,都能带来非常大的进步。今天有非常多的科学发现,都已经开始借助AI在做了。科学发展到这个阶段,有一些焦虑和忧虑很正常,当然我们也要奋起直追。

稿件整理自南方都市报报道

原标题:Sora制造AI焦虑?或引发内容行业变革,算力、芯片之争

采写:南都、N视频记者 汪陈晨 林文琪

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 降低创作门槛!爱诗科技新一代生成式大模型加速AI视频大众化

    爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5,实现秒级高质量视频生成,支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升,覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手,降低使用门槛,用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用,加速行业落地。

  • 30年技术沉淀!重庆保伦科技扬帆,驶向西南产业升级新蓝海!

    8月30日,重庆保伦电子科技公司正式投入运营,这是继北京、上海、陕西、湖北等地设立子公司后的又一重大战略布局。公司展示了自主研发的70+系列“高、精、尖”系统产品,并依托总部技术积累和集成服务体系,为区域客户提供7×24小时专业支持,确保需求4小时内得到实质性反馈。此次落子重庆是ITC保伦股份拓展市场、向精细化、专业化领域进军的重要举措,未来将以重庆为支点,辐射西南地区,推动音视频行业向“新”发展。

  • 最新AI资讯哪里看?AI技术人员如何从论文到产业应用全覆盖?

    文章指出,ArXiv、ACL和NeurIPS等论文库是AI开发者获取前沿技术的重要来源,但仅依赖论文库已不足以构建完整竞争力。作者强调需要超越论文本身,关注技术落地、产业应用及生态动态。推荐利用AIbase等技术资讯平台作为补充,提供筛选整合、趋势解读和产业视角,帮助开发者高效把握技术动态,避免闭门造车,构建复合型信息摄入体系。

  • B站为何需要视频播客?

    ​最近,内容平台最大的风莫过于视频播客了。 各大平台纷纷发力,竞相涌入这一新赛道。其中,B站则重磅推出《视频播客出圈计划》,吸引了于谦、鲁豫、蔡明、罗永浩、杨迪等众多名人入驻,各类媒体播客也相继加入战局。 从扶持力度上和势头上看,B站无疑将视频播客视为下一个重点发力领域。那么,B站为何需要视频播客?它又能否成为B站新的品牌IP?

  • 大厂押注的AI和视频化,能成为播客的好出路吗?

    长期在国内市场不温不火的播客赛道,正在焕发出越来越蓬勃的新机。 8月15日,自带流量和多重话题标签的罗永浩入驻B站,并宣布将开启一档视频播客节目《罗永浩的十字路口》,8月19日,罗永浩发布了第一条视频播客,与理想汽车创始人李想进行了近4小时的深度对话,一度引发热议,在B站内的观看量超230万。 而由罗永浩掀起的这一波流量热潮背后,可以看出B站对于视频

  • 外贸营销进入视频智能时代 宜选网贸易通重构海外获客生态

    在AI与数字化浪潮下,中国外贸企业正从流量竞争转向价值竞争。宜选网贸通依托400多项专利技术,推出全视频独立站整合营销方案,通过视频内容生态、全网流量矩阵与AI智能商机引擎深度耦合,构建从流量获取到订单履约的全链路外贸增长体系。该方案实现用户停留时长4分23秒,远超行业平均水平,询盘量增长35%,助力企业借视频革命链接全球买家。

  • 控氧、平嵌技术遭碰瓷后,卡萨帝又发明AI之眼冰箱

    卡萨帝冰箱通过持续技术创新引领高端市场,从MSA控氧保鲜到原创平嵌设计,再到搭载“AI之眼”的鉴赏家冰箱,实现行业唯一主动营养管理。其产品创新与用户体验双轮驱动,市场份额超50%,销量TOP5型号均来自该品牌。卡萨帝以颠覆性科技开启厨居场景无限可能,始终领先行业建立竞争壁垒。

  • 英伟达机器人底层技术突破,微美全息(WIMI.US)多维布局助推产业生态爆发

    英伟达发布机器人AI芯片,黄仁勋称AI下一波浪潮将是机器人。上海发布AI+制造方案,推动3000家企业智能化。人形机器人市场前景广阔,预计2030年产量达23万台。微美全息等企业积极布局,在工业与家庭场景加速落地。机器人技术从"炫技"走向实用,正重塑产业结构和生活方式。

  • DeepSeek:已对AI生成合成内容添加标识 用户不得恶意删除

    今天下午,DeepSeek发布了《关于AI生成合成内容标识的公告》。 公告中称,Deepseek始终高度重视AI的安全问题,已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。 此举为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术 人工智能生成合成内容标识方法》等国家标准的相关要求,防止AI生成内容可能引发的公众混淆、�

  • 百度商家智能体全新升级,以技术革新赋能商家转化经营新突破

    百度9月宣布旗下百度商家智能体全面升级,旨在为商家提供智能化获客服务。升级后产品通过“一脑多专”架构提升响应速度62%,成本降低60%,并优化语音交互、数据分析等功能,助力商家精准营销、降本增效。该智能体覆盖30多个行业场景,支持多角色运营,有效提升转化率,推动数字化转型。

今日大家都在搜的词: