首页 > 业界 > 关键词  > Etna最新资讯  > 正文

对标Sora?国产公司推文生视频工具Etna 能生成15秒4K视频

2024-03-14 09:07 · 稿源:站长之家

要点:

  • 国产公司推出的AI视频技术实现了15秒4K60帧超逼真效果,与小米、快手合作瞄准500亿美元的短剧出海市场。

  • Etna模型作为成功复现Sora技术的重要成果之一,采用Diffusion Transformer处理不同维度数据,实现了时长、清晰度、细节丰富度和语义理解的优势。

  • 七火山公司布局全产业链,通过AI多模态产品如Etna、Lava、miniTV和Bromo,改造短视频全产业链,受到资本市场的关注和青睐。

站长之家(ChinaZ.com)3月14日 消息:随着国产公司推出的AI视频技术的崛起,短剧市场迎来了新的变革。七火山公司在国内率先复现了Sora的成果,并通过Etna模型等创新技术取得了重大突破。

Etna模型采用了Diffusion Transformer处理视频数据,实现了15秒4K60帧的超高清晰度,同时具备了时空理解能力和深度语义理解能力。

image.png

官网地址:https://top.aibase.com/tool/etna

论文地址:https://arxiv.org/pdf/2212.09748.pdf

从上图可以看出,相较于市场上的现有模型,Etna在时长、高清晰度、丰富生动细节和强语义理解上,都保持着较大优势。

为什么七火山能成为国内率先复现出Sora的公司?Sora的关键创新,是一个可以灵活地处理不同维度数据的Diffusion Transformer。时空压缩器会把原始视频转映射到潜空间中,视觉Transformer(ViT)模型会对已经被分词的潜表征进行处理,并输出去除噪声后的潜表征。

image.png

一个与CLIP模型类似的系统根据用户的指令(已经通过大语言模型进行了增强)和潜视觉提示,引导扩散模型生成具有特定风格或主题的视频。经过多次去噪处理之后,会得到生成视频的潜表征,然后通过相应的解码器映射回像素空间。

image.png

在相关领域技术积累的基础上,Etna模型迅速抓住了Sora的精髓,另外还引入了几项创新。技术架构创新主要是针对视频的时空特性提出的挑战,如何从空间和时间上将视频压缩到潜空间,以实现高效去噪,如何将压缩潜空间转换为patches,并将其输入到Transformer中,以及如何处理长距离的时空依赖性,并确保内容的一致性。

为此,Etna模型在主干网络上采用了Diffusion架构,同时在一个更大的数据集上实验和适配与Sora相似的Diffusion+Transform架构。融合了Diffusion模型和Transformer模型的优势,Etna形成了一种高效且先进的新型模型架构,提升了模型的生成效率,保证了生成内容的高质量和高一致性。

七火山公司不仅布局了AI多模态产品,还与小米、快手等合作伙伴展开战略合作,共同探索短剧出海市场。

资本市场对七火山公司的发展充满了期待,认为其具备了潜在的成长空间和投资价值。AI视频技术的兴起将颠覆整个短视频产业链,为用户带来全新的观影体验,也为产业链上下游企业带来了更多的商机和发展空间。

举报

  • 相关推荐
  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或

  • 韦东奕账号3小时涨粉百万 仅发布一条5秒自我介绍视频

    日前,一位在数学领域有着卓越成就的90后青年——韦东奕,正式入驻抖音平台,引发了网络上的广泛关注。韦东奕,这位北京大学数学系的杰出校友,自2010年作为本科生踏入北大校门以来,便以其非凡的数学才华和深厚的学术功底脱颖而出。2019年12月后,他选择留校任教,担任助理教授一职,继续在数学研究的道路上深耕细作。 韦东奕的学术成就斐然,他曾连续两届在国际

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • 如何用deepseek生成短视频脚本

    本文介绍如何利用DeepSeek工具快速生成30秒短视频脚本。该工具可根据用户需求,自动生成包含开场悬念、核心干货、反转情节和结尾互动的优质脚本。操作流程包括:1.登录DeepSeek官网;2.输入具体指令(如"生成洗发水广告脚本,需包含开场悬念+3个核心干货+结尾互动");3.检查并优化脚本内容;4.补充画面风格、背景音乐等细节。通过多次指令调整可获得更理想的脚本

  • 如何用 AI工具 生成论文选题

    本教程介绍如何利用DeepSeek AI工具生成学术论文选题。首先需要明确自身专业、研究方向、兴趣领域等研究信息。通过特定格式构建提问指令,在DeepSeek平台输入后,AI会基于算法分析生成10个相关选题。用户需从研究价值、创新性、可行性等维度评估选题,筛选出最适合的研究方向。该工具能有效帮助研究者快速获取选题思路,提高学术论文创作效率。

  • REDMI K Pad杀到!首发多项新技术 4K内配置最豪华小平板

    今日,REDMI官宣旗下首款旗舰小平板REDMI K Pad。 小米中国区市场部总经理、REDMI品牌总经理王腾表示,REDMI K Pad全面超越iPad mini,做到4K以内配置最豪华的小平板”,推动安卓小平板全面进入旗舰时代。 据了解,REDMI K Pad采用LCD屏幕,与手机只需一颗DDIC驱动屏幕不同,K Pad为了让屏幕更清晰、采用超高分辨率,需要两颗IC来驱动屏幕。 王腾指出,双驱动IC的难度在于数据、亮度�

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • 6条视频吸粉1500万,“心中之城”成了史上涨粉最猛的影视号

    甚至,《豺狼的日子》这部去年上线的剧都被“心中之城”再次带火,登上了豆瓣近期热门欧洲剧榜第二位,大量新影评涌入,许多都是被解说视频安利而来。 不少网友听着解说声音耳熟,才发现这是抖音近6000万粉丝影视大号“毒舌电影”曾经的旁白声。 “心中之城”坦然回应了此事,他在账号简介中表示:不久前因个人原因离开就职8年的“毒舌电影”,知识和经验皆是从�