Nvidia公布新文本转视频模型基于Stable Diffusion开发！

2023-04-20 14:10 · 稿源：站长之家

站长之家（ChinaZ.com）4月20日消息:Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调，大大减少了生成视频的过程和时间。

该模型增加了一个时间维度，可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型，以512x1024像素的分辨率生成几分钟的汽车行驶视频，在大多数基准测试中达到SOTA。

注：图片来自Nvidia Video LDM项目截图

除了这个与自动驾驶研究特别相关的演示之外，研究人员还展示了如何将现有的Stable Diffusion 型转换为视频模型。

该团队在微调步骤中用视频数据短时间训练Stable Diffusion，然后在网络中每个现有空间层后面添加额外的时间层，并用视频数据对其进行训练。此外，该团队还训练了时间稳定的放大器，以根据文本提示生成1，280x2，048分辨率的视频。

以 Stable Diffusion 作为视频模型的基础，团队无需从头开始训练新模型，可以从现有的能力和方法中获益。例如，尽管使用的 WebVid-10M 数据集仅包含真实世界的视频，基于底层的Stable Diffusion模型，该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。

研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。，生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性，他们可以使用 DreamBooth 进行视频创作。

注:Dreambooth 是对整个神经网络所有层权重进行调整，会将输入的图像训练进 Stable Diffusion 模型，它的本质是先复制了源模型，在源模型的基础上做了微调（fine tunning）并独立形成了一个新模型。

Nvidia Video LDM项目页面上有更多示例，不过该模型目前尚未对外开放。

项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

（举报）

相关推荐

关键词：

Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

Reviews.ai是一个消费者反馈聚合平台，帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析，通过AI驱动功能（如按需报告、主题分类和智能代理）提升产品与服务。近期从Review Monitor更名后，团队迁移至DigitalOcean云平台，解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成，仅用数周，成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器，支持灵活扩展。未来计划利用GPU Droplets增强AI能力，进一步优化大型语言模型处理效率。

消费者反馈品牌洞察评论分析
数贸会今日开幕！每日互动展台人气火爆，GAI Station引领AI办公新体验

2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司（展位7A-T022）集中展示了AI产业实践与数据流通领域成果，重点推出10万元级智能工作站GAI+Station，集成写作、会议纪要、智能问答等功能，内置8大模型能力，破解成本与安全痛点。其“发数站”战略打通数据高效流通链路，已在医疗、交通等多领域落地，“数智绿波”应用覆盖全国30多个省市，通行效率提升20%以上。此外，AITA超级营销助手实现升级，机器狗互动表演吸引关注。展会期间将举办10余场专业发布，涵盖数据要素、大模型应用等行业实战，助力企业把握数字化机遇。

2025全球数字贸易博览会每日互动 AI产业实践
真我GT8 Pro镜头模组支持DIY！可拆、可拼、可换

真我GT8+Pro手机公布镜头模组创新设计，采用可拆卸、可拼装、可更换的Deco模块，提供圆形、方形及机器人造型供用户DIY。搭载2亿像素潜望长焦“Ultra之眼”，配备对称双扬声器、X轴线性马达及3D超声波屏下指纹。全系配备2K+144Hz京东方Q10+发光材料屏幕，峰值亮度达4000nit。首批搭载骁龙8至尊版处理器，并配备电竞独显芯片R1，实现“王炸双芯”配置。

真我GT8 Pro 镜头模组设计
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
不止于价格，DigitalOcean、AWS和Linode该选谁？

本文对比了DigitalOcean、AWS和Linode三大海外云服务商，从定位、成本、易用性、GPU性能及本土化支持等维度分析其优劣势。DigitalOcean以开发者友好、简单易用和高性价比著称，适合初创企业和中小团队；AWS功能全面但复杂昂贵，适合大型企业；Linode性能稳定但生态有限。特别强调DigitalOcean通过卓普云提供本土化支持，解决支付、备案和技术响应等痛点，是中国企业出海的高效选择。

云服务商选择中国企业出海 AWS对比
下一代旗舰！Nordic54L绝鲨MAX方案ATK A9大师版重磅登场

ATK A9大师版鼠标在经典模具基础上深度优化，搭载自研Nordic54L绝鲨MAX方案，实现极致操控与超长续航。58项模具优化提升手感，按键延迟低至0.263ms，配备PAW3950传感器，满足职业电竞需求。内置800mAh电池配合低功耗方案，续航达600小时，大幅减轻充电焦虑。该产品延续A9系列热销基因，首发起售价199元，9月25日20:00正式开售，是面向玩家的全新力作。

ATK A9大师版 Nordic54L绝鲨MAX
Panduit 泛达荣获EcoVadis企业可持续发展表现银牌评级

泛达公司宣布荣获EcoVadis企业可持续发展银牌评级，位列全球前6%，彰显其在环境责任与可持续商业实践方面的坚定承诺。该评估覆盖环境、劳工与人权、商业道德及可持续采购四大核心领域，包含21项可持续发展指标。泛达全球可持续发展经理Mark Dehmlow表示，这一成就证明公司在环境管理、道德采购及员工健康安全方面的努力正产生可衡量影响。作为全球领先的电气与网络基础设施解决方案制造商，泛达将持续提升可持续发展表现，契合市场期望，并支持合作伙伴生态系统及行业优先发展事项。
荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

本文汇总了近期AI领域多项重要进展：生数科技推出Vidu Q2模型，显著提升视频生成中细微表情的真实感；火山引擎发布炉米Lumi平台，支持视觉模型LoRA微调以定制独特风格；阿里云通义千问开源超300个模型，下载量突破6亿次；百度开源多模态视觉理解模型Qianfan-VL，适配不同场景需求；微软在Copilot中引入Anthropic模型，拓展AI助手功能；OpenAI计划在美国新建五个数据中心以加速Stargate项目；英伟达开源Audio2Face模型，提升实时面部动画生成效果；Meta发布具备沙箱推演能力的32B代码世界模型CWM，优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。

AI 视频生成细微表情
荐AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功能；阿里Qoder推出付费订阅服务

AI日报汇总最新行业动态：腾讯发布混元3D+3.0模型，建模精度提升3倍；昆仑万维Mureka上线音乐创作功能；阿里Qoder推出付费订阅服务；VEED Fabric 1.0实现图片转视频；OpenAI发布GPT-5-Codex革新编程；全国发布AI安全治理框架2.0；Mini-o3实现超长视觉推理；上海AI Lab推出多模态模型Lumina-DiMOO；腾讯微调技术提升图像美感300%；Meta推出轻量级MobileLLM-R1；腾讯启动AI应用繁荣计划；谷歌DeepMind�

AI日报腾讯混元3D 3D建模
腾讯云大数据TBDS重磅升级，助力金融行业构建Data+AI一体化数智新范式

腾讯云在腾讯全球数字生态大会上宣布，其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”，旨在为金融机构提供兼具数据工程与数据科学能力的综合平台，打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构，实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度，并显著提升数据开发到模型上线的全链路效率。在金融场景中，新TBDS已应用于信贷自动审批等业务，帮助机构提质增效。未来，腾讯云TBDS将持续发挥专业化与智能化优势，助力金融行业加速数字化转型。

腾讯云大数据平台 AI升级

今日大家都在搜的词：

热文

3 天
7天

Nvidia公布新文本转视频模型基于Stable Diffusion开发！

Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

数贸会今日开幕！每日互动展台人气火爆，GAI Station引领AI办公新体验

真我GT8 Pro镜头模组支持DIY！可拆、可拼、可换

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

不止于价格，DigitalOcean、AWS和Linode该选谁？

下一代旗舰！Nordic54L绝鲨MAX方案ATK A9大师版重磅登场

Panduit 泛达荣获EcoVadis企业可持续发展表现银牌评级

荐AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问开源300+模型

荐AI日报：腾讯发布混元3D 3.0模型；昆仑万维上线Agent Studio功能；阿里Qoder推出付费订阅服务

腾讯云大数据TBDS重磅升级，助力金融行业构建Data+AI一体化数智新范式

今日大家都在搜的词：

热文

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

雷军：小米17 Pro Max很多门店已经缺货

iPhone调休闹钟上热搜苹果客服回应：需手动设置

苹果iOS18.7.1正式版更新发布重要安全修复

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

雷军晒第100次健身打卡提前3个月完成健身目标

京东双11购物节官宣：10月9日晚8点开启

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

理想i6正式上市：首销直减1万限时售价23.98万元

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

小米17系列开售5分钟破25年国产手机首销纪录

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

雷军称没什么好犹豫的：50岁正是闯的年纪

小米非常非常缺人上热搜雷军谈小米成功秘诀

站长商机

Nvidia公布新文本转视频模型 基于Stable Diffusion开发！

今日大家都在搜的词：

热文

站长商机

Nvidia公布新文本转视频模型基于Stable Diffusion开发！