首页 > 业界 > 关键词  > SV3D最新资讯  > 正文

Stability AI推Stable Video3D(SV3D)传图可生成3D视频

2024-03-19 10:31 · 稿源:站长之家

划重点:

- 💡 Stability AI 发布了 Stable Video3D(SV3D),这是一款用于生成3D 视频的 gen AI 工具。

- 💡 SV3D 能够从单个输入图像创建和转换多视角3D 网格,为视频生成模型增加了新的深度。

- 💡 SV3D 提供两种强大的变体,分别用于特定的使用案例,满足不同需求。

站长之家(ChinaZ.com)3月19日 消息:Stability AI 推出了 Stable Video3D(SV3D),这是一款用于生成3D 视频的新型 gen AI 工具。SV3D 是在稳定 AI 之前的 Stable Video 技术基础上开发的,该技术使用户能够从图像或文本提示中生成短视频。SV3D 构建在Stability AI 先前的 Stable Video Diffusion 模型基础上,针对新视角合成和3D 生成的任务进行了调整。通过 SV3D,Stability AI 为其视频生成模型增加了新的深度,能够从单个输入图像创建和转换多视角3D 网格。

image.png

SV3D 现在可供商业用途使用,价格为每月20美元的 Stability AI 专业会员资格(针对年收入不到100万美元的创作者和开发人员)。对于非商业用途,用户可以从 Hugging Face 下载体验模型。

SV3D 特色亮点包括:

- Stable Video3D (SV3D) 是基于 Stable Video Diffusion 的生成模型,可以接收物体的静止图像作为条件帧,并生成该物体的轨道视频。

- 该模型经过训练,可以生成分辨率为576x576的21帧视频,输入为相同分辨率的上下文帧,是从 SVD Image-to-Video 进行了微调的。

- SV3D 释放了两个模型变体:SV3D_u 可以基于单张图像输入生成轨道视频,而 SV3D_p 则扩展了 SVD3_u 的功能,支持单张图像和轨道视图,可以沿指定的相机路径创建3D 视频。

- 由 Stability AI 开发,是一种生成式图像到视频模型,遵循 StabilityAI 非商业研究社区许可协议。

- 模型的训练数据来自 Objaverse 数据集的渲染图像,使用了增强的渲染方法,更好地模拟了现实世界中的图像分布,显著提高了模型的泛化能力。

Stability AI 首席研究员 Varun Jampani 表示:“通过将我们的 Stable Video Diffusion 图像到视频扩散模型与摄像机路径调节相结合,Stable Video3D 能够生成对象的多视角视频。” 他还表示:“Stable Video3D 是生成3D 资产的有价值工具,尤其在游戏领域。此外,它还能够生产360度轨道视频,对电子商务领域非常有用,提供更具沉浸感和互动性的购物体验。”

Stability AI 最为人所知的是其 Stable Diffusion 文本到图像 gen AI 模型,其中包括 SDXL 和 Stable Diffusion3.0,后者仍处于早期研究预览阶段。稳定 Diffusion1.5是一个开源图像生成模型,是许多其他 AI 图像生成和视频产品的基础,包括 Runway 和 Leonardo AI。

去年12月,Stability AI 发布了 Stable Zero123模型,为构建3D 图像提供了新的能力。当时,Stability AI 创始人兼首席执行官 Emad Mostaque 表示,Stable Zero123将是一系列3D 模型中的第一个。

SV3D 技术与 Stable Zero123采用了不同的3D 生成方法。Jampani 解释说,Stable Video3D 可以看作是前作 Stable Zero123的改进版。Stable Video3D 是一种新型视角合成网络,以单个图像作为输入,并输出新视角图像。

在一篇研究论文中,Stability AI 研究人员详细介绍了使用潜在视频扩散实现从单个图像生成3D 的一些技术。SV3D 的关键优势之一在于其能够生成对象的一致多视角图像。根据稳定 AI 的说法,SV3D 可以从任意角度提供连贯的视图。

SV3D 不仅具有新视角合成功能,还致力于优化3D 网格。通过利用其多视角一致性,SV3D 可以直接从其生成的新视图中生成高质量的3D 网格。

SV3D 有两种强大的变体,分别针对特定的使用案例进行设计。SV3D_u 可以基于单个图像输入生成轨道视频,无需摄像机调节。而 SV3D_p 则扩展了这一功能,既可以使用单个图像,也可以使用轨道视图,允许用户沿指定的摄像机路径创建3D 视频。

体验入口:https://top.aibase.com/tool/stable-video-3d

举报

  • 相关推荐
  • 业界首个!腾讯混元Voyager3D世界模型发布:支持原生3D重建

    今日,腾讯混元官方宣布,HunyuanWorld-Voyager(简称混元Voyager)正式发布,这是业界首个支持原生3D重建的超长漫游世界模型。 该模型在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore上位居综合能力首位,超越现有开源方法,在视频生成和3D重建任务中均表现出色。 在视频生成和视频3D重建两个任务上,Voyager也均取得更好的结果。

  • 飞腾D3000M笔电达成9秒开机新纪录!

    国产CPU电脑开机速度再创新纪录。搭载飞腾腾锐D3000M芯片的联想开天X1 Carbon笔记本,在银河麒麟V11操作系统上实现9秒开机+2秒唤醒的极致体验。通过软硬件协同优化,覆盖BIOS加载、电源管理等多个环节,大幅缩短启动时间。这标志着国产信创产品从“可用”迈向“好用”,展现出国产软硬件一体化协同能力与系统优化效率的新高度。

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • 普渡机器人发布3D感知AI扫地机器人PUDU MT1 Max,重塑智能清洁新高度

    普渡机器人于2025年8月20日发布3D感知AI扫地机器人PUDU MT1Max。该产品在MT1基础上大幅升级,搭载3D雷达与多传感器融合系统,显著增强复杂场景感知与避障能力。通过AI技术实现自适应清洁、垃圾识别、巡检清洁等功能,支持10万平方米以上大场景作业。具备自动振尘过滤和智能避雨机制,提升安全性与运维效率,重塑智能清洁行业新标准。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 六维感知,精准无界!6D位姿跟踪系统让机器人秒变“高精度专家”

    2025世界机器人大会引发关注,工业机器人正推动制造业向柔性化、智能化发展。然而,高端制造对精度要求日益提升,工业机器人在绝对定位精度和动态稳定性方面存在短板。思看科技推出的6D位姿跟踪系统,以100Hz高频追踪和0.049mm空间精度,实现精准检测、快速校准与动态补偿,让工业机器人秒变“高精度专家”。该系统具备三大核心功能:机器人TCP标定、复杂零部件加工�

  • AI与数字化变革费率3年连降,海尔智家H1再优化0.1pct

    海尔智家2025上半年业绩逆势增长,营收1564.94亿元,同比增长10.2%;净利润120.33亿元,增长15.6%。核心驱动因素为数字化转型与AI技术应用,通过全流程降本增效,销售管理费用率连续三年下降。国内聚焦明星爆品与多品牌协同,海外坚持本土化运营,实现各区域加速增长。AI驱动的产品创新打造多个行业爆款,带动高端品牌卡萨帝增长超20%。未来将持续深化数字化变革,开拓新发展空间。

  • AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent 3

    AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE,通过自然语言交互简化工作流程;阿里开源Mobile-Agent-v3跨平台代理框架;微信测试AI播客功能,实现双人对话式新闻播报;钉钉推出首款AI硬件录音笔DingTalk A1;苹果拟为Siri引入谷歌Gemini大模型;苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能;Meta获得Midjourney技术授权加强AI图像生成竞争力;谷歌Drive新增Vids视频编辑功能降低制作门槛;夸克发布健康大模型通过12学科主治医师测评;AI小游戏Draw A Fish凭借极简设计引发全球热潮。

  • B站要变成AI站

    互联网平台都在跟AI结合,B站没有成为例外。从新一季度财报来看,B站的AI味儿也越来越浓了。 8月21日,B站公布第二季度业绩,总营收达73.4亿元人民币,同比增长20%。其中,游戏业务收入为16.1亿元,同比增长60%,广告业务收入为24.5亿元,同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%,调整后净利润达到5.6亿元,创下历史最好成绩。 从整体来看,B站生态集聚

今日大家都在搜的词: