首页 > 业界 > 关键词  > I2VGen-XL最新资讯  > 正文

阿里团队推新AI模型I2VGen-XL:单张静止图像就能生成高质量视频

2023-12-25 10:12 · 稿源:站长之家

站长之家(ChinaZ.com)12月25日 消息:视频合成最近取得了显著的进步,这得益于扩散模型的快速发展。然而,它在语义准确性、清晰度和时空连续性方面仍然存在挑战。它们主要源于文本-视频数据的稀缺性和视频的复杂固有结构,使得模型难以同时确保语义和定性的卓越性。

阿里巴巴、浙江大学和华中科技大学的研究人员提出了一种级联的 I2VGen-XL 方法,该方法通过解耦这两个因素来增强模型性能,并通过利用静态图像作为关键指导形式来确保输入数据的对齐。

image.png

项目体验网址:https://top.aibase.com/tool/i2vgen-xl

I2VGen-XL 由两个阶段组成:

i) 基础阶段通过使用两个分层编码器来保证连贯的语义并保留输入图像中的内容。

ii) 细化阶段通过合并额外的简短文本来增强视频的细节,并将分辨率提高到1280x720。

image.png

目前文本到视频合成的主要挑战之一是高质量视频文本对的收集。为了丰富 I2VGen-XL 的多样性和鲁棒性,研究人员收集了一个庞大的数据集,其中收集了大约3500万个单镜头文本-视频对和60亿个文本-图像对来优化模型。通过这种方式,I2VGen-XL可以同时提高语义的准确性、细节的连续性和生成视频的清晰度。

所提出的模型利用潜在扩散模型(LDM),这是一种生成模型类,可以学习扩散过程来生成目标概率分布。在视频合成的情况下,LDM逐渐从高斯噪声中恢复潜在目标,保留视觉流形并重建高保真视频。I2VGen-XL采用LDM(简称VLDM)的3D UNet架构,以实现有效且高效的视频合成。

细化阶段对于增强空间细节、细化面部和身体特征以及减少局部细节中的噪声至关重要。研究人员分析了频域细化模型的工作机制,强调了其在保留低频数据和提高高清视频连续性方面的有效性。

在与 Gen-2和 Pika 等顶级方法的实验比较中,I2VGen-XL 展示了更丰富、更多样化的运动,强调了其在视频生成方面的有效性。研究人员还对人脸、3D卡通、动漫、中国画、小动物等多种图像进行了定性分析,展示了该模型的泛化能力。

项目:https://i2vgen-xl.github.io/

论文网址:https://arxiv.org/abs/2311.04145

举报

  • 相关推荐
  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • 易鑫正式发布汽车金融行业首个Agentic大模型

    易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿,响应延迟低于200毫秒,支持语音实时交互,单卡吞吐达370 tokens/秒,可提升获客、风控与运营效率,解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台,研发投入超20亿元,率先实现AI全场景应用,将持续推动智能汽车金融生态建设。

  • 高通骁龙8 Gen5本月底亮相:一加全球首发

    高通骁龙8 Gen5芯片暂定11月底发布,由一加首发搭载。除了一加,vivo、魅族、iQOO、moto等品牌也将使用骁龙8 Gen5芯片。 据悉,高通骁龙8 Gen5由一加和高通联合定义,这颗芯片采用台积电3nm工艺(N3P)制程,配备Oryon CPU,由2*3.8GHz超大核 6*3.32GHz大核组成,并集成Adreno 840 GPU。 跑分方面,骁龙8 Gen5的安兔兔总成绩突破3

  • 数巅完成数亿元pre-A轮融资,领跑企业级AI Agent赛道

    北京数巅科技完成数亿元Pre-A轮融资,由济和创投与赛富基金领投。资金将用于产品研发、国内市场深耕及国际市场拓展,强化其Data Agent技术在行业落地方面的领先优势。数巅推出企业级Data Agent解决方案,通过模块化架构整合海量行业知识与企业数据,精准识别用户需求,实现秒级响应与深度推理,满足企业数据分析、智能报告生成及业务决策等需求。该方案已在多家央国企及金融机构落地,查数准确率超99%,成为国内企业级智能体应用的重要里程碑。

  • MiniMax M2:所有坑都踩过,才能做出所有人都能用上的Agent

    最近一个月,基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作,大体还是走出了两条路。 一种是在诸多难点里选择一个死磕,成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象,但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进,在一个最全面的基础模型蓝图里不停交出一个个关键拼图。 已经有了全

  • 蝉妈妈AI新品震撼发布:电商营销Agent时代来临,6万+从业者共寻增长新引擎

    2025年电商竞争核心转向AI效率。蝉妈妈于10月23日发布电商专属AI工具,旨在解决传统运营痛点。该工具覆盖全链路场景:从行业分析、竞对数据到图文创作、视频脚本生成,帮助从业者实现策略制定到落地执行的一站式智能运营。发布会集结多位实战专家,分享全域增长、内容提效等可复用的方法论,吸引超6万观众。蝉妈妈凭借行业数据沉淀与AI技术结合,为电商从业者提供突破增长瓶颈的系统路径,推动行业迈向技术驱动的高效新纪元。

  • 战略卡位AI搜索:头部品牌为何集体转向光引GEO的2.0体系?

    2025年营销预算正向GEO迁移,企业从追求流量转向构建“心智垄断”。光引GEO通过“五会”能力实现科学营销闭环,提供三大战略价值:建立AI原生品牌权威、实时市场洞察系统、扭转舆论的防火墙。头部品牌的集体转向表明,布局GEO已成为抢占下一代AI原生消费场景的关键战略卡位。

  • 有AI就有无限可能,灰豚AI发布新一代GEO系统

    11月1日,灰豚AI发布新一代GEO系统,突破传统仅支持文本内容优化的局限,全面支持国内短视频平台作品优化,实现近乎零算力成本。该技术被视作行业重大创新,是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力,助力企业获得竞争优势。未来电商将从平台化转向AI化,灰豚GEO系统支持多种合作模式,让企业以业务增长为导向,抢占AI市场先机。

  • AI搜索可见性监控:如何免费查询品牌GEO指数

    在AI颠覆流量格局的今天,传统SEO已无法满足品牌传播需求。用户通过生成式引擎直接获取答案,品牌能否被AI准确采纳决定市场可见度。GEO(生成引擎优化)应运而生,通过追踪品牌在AI流量中的表现,量化评估并优化内容策略。AIBase平台提供专业GEO监控工具,覆盖主流AI模型,生成指数化报告,帮助品牌抢占AI搜索高地,避免在智能回复中"隐形"。

  • 国内首个!火山引擎推出融合国家级智库理论与大规模实战验证的 Data Agent 评测体系

    火山引擎推出国内首个融合国家智库理论框架与大规模实战验证的数据智能体评测体系,同步发布《2025数据智能体实践指南》。该体系直面传统评测重技术轻业务、预设答案难适配动态场景、局部能力检验不足三大痛点,确立业务关联性、可操作性与前瞻性设计原则。覆盖分析洞察、可视化呈现、鲁棒性三大核心维度,通过151道测试题量化智能体能力并划分达标/工业可用/专业研究三级标准。采用标准化闭环流程与自动化评分机制,为数字化转型深水区企业提供选型优化依据,推动产业智能化进入精准量化新阶段。

今日大家都在搜的词: