阿里推I2VGen-XL模型双阶方法实现更高清的文本视频生成

2023-11-13 16:21 · 稿源：站长之家

站长之家（ChinaZ.com）11月13日消息:在视频合成领域，尽管扩散模型的迅速发展带来了显著的进步，但语义准确性、清晰度和时空连续性仍然是关键挑战。这些问题根源于缺乏良好对齐的文本-视频数据以及视频复杂结构的挑战。为解决这些问题，阿里巴巴提出了I2VGen-XL方法，通过创新性的两阶段级联扩散模型，有效分离了语义和质量，同时通过静态图像的引导实现了数据的对齐。

项目地址:https://i2vgen-xl.github.io/

首先，基础阶段利用两个分层编码器，确保了生成视频的一致语义，并保留了输入图像的内容。这为模型提供了坚实的基础，解决了语义的关键问题。接着，精化阶段引入了简短的附加文本，提高了视频的细节，并将分辨率提高到1280x720，增强了生成视频的质量。这两个阶段的结合，有效地解决了先前挑战的复杂性。

为了优化模型性能，研究团队收集了庞大的数据集，包括约3500万个文本-视频对和60亿个文本-图像对。这种大规模数据的使用增加了模型的多样性和泛化能力，从而提高了生成视频的质量和多样性。

最后，通过广泛的实验证明，研究团队深入剖析了I2VGen-XL的基本原理，并将其与当前领先方法进行了比较，充分证明了其在各种数据上的有效性。为促进学术研究和开发，研究团队承诺公开发布源代码和模型，为学术界和开发者提供了宝贵的资源。

（举报）

相关推荐

关键词：

模型

小米超级小爱AI大模型推出随心修图功能

小米宣布超级小爱AI大模型推出随心修图功能，用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式：在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求：超级小爱需v7.8.50及以上，相册编辑功能需v2.1及以上，相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级，支持全局多模态交互和自然语音搜索，提升使用体验。

小米超级小爱 AI大模型
突破大模型对齐瓶颈，北大团队携手昇腾打通产业应用通路

北大杨耀东团队研发Align-Anything多模态对齐框架，以RLHF为核心解决传统反馈信息有限问题，覆盖文本、图像、音频等全模态数据。该框架集成专用评估工具Eval-Anything，已在昇腾平台实现智慧医疗、网络安全等领域规模化落地。通过构建安全治理体系，显著提升大模型安全水位，同时保持通用能力。团队联合推出课程培养人才，深化产学研协同，为多模态大模型发展提供关键技术支撑。

多模态大模型产业智能化升级模型训练与推理
2025乌镇峰会：易鑫发布汽车金融行业首个Agentic大模型XinMM-AM1

易鑫集团在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型具备300亿参数、响应延迟低于200ms等技术优势，能提升获客、风控与运营效率，优化用户体验。通过全链路智能决策能力，推动行业从"单点智能"转向"整体高效"。配套SaaS平台已覆盖超4万家经销商及百余家金融机构，显著提高融资通过率与业务质量，填补领域技术空白，引领汽车金融智能化发展。

汽车金融 Agentic大模型 XinMM-AM1
荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

本期AI日报聚焦多项技术突破：阿里千问APP公测，基于Qwen3模型对标ChatGPT；谷歌Veo 3.1支持三图融合生成8秒视频；小米推出"随心修图"功能与7B多模态模型Miloco；谷歌Flow集成Nano Banana模型实现智能抠图；多模态AI工具DeepEyesV2可执行代码与网络搜索；NotebookLM升级支持图像导入检索；JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温，产品迭代加速。

AI 阿里巴巴千问APP
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
大模型+反诈+算力三重突破腾讯云三项成果闪耀金融科技应用场景大赛

10月30日，2025金融街论坛年会金融科技大会公布“金融科技应用场景大赛”终评结果。腾讯云“金融反电诈治理方案”与“基于TCS的AI异构算力管理平台”凭借技术创新性与场景落地能力，从全国89家机构的280个项目中脱颖而出，双双荣获“十佳应用奖”。腾讯混元大模型信贷助手方案获“探索实践奖”。三大方案在金融风控、算力基座及大模型应用三个关键领域展现突出优势，获专家团高度认可。大赛自2021年启动，已成为金融科技领域极具影响力的赛事平台。

金融科技应用场景大赛腾讯云

今日大家都在搜的词：

热文

3 天
7天

阿里推I2VGen-XL模型双阶方法实现更高清的文本视频生成

小米超级小爱AI大模型推出随心修图功能

突破大模型对齐瓶颈，北大团队携手昇腾打通产业应用通路

2025乌镇峰会：易鑫发布汽车金融行业首个Agentic大模型XinMM-AM1

荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

易鑫正式发布汽车金融行业首个Agentic大模型

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

大模型+反诈+算力三重突破腾讯云三项成果闪耀金融科技应用场景大赛

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate X7今日开启预订搭载第二代红枫影像等配置

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

参与开发iPhoneAir设计师离职转投AI初创公司

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

华为FreeBuds Pro 5悦彰耳机价格公布：1449元支持星闪音频

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

小米AI眼镜推出1.4.16.0固件版本支持英语口语陪练

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

阿里巴巴回应千问崩了：状态良好欢迎来问

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

荣耀500系列官宣将于11月24日发布

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

小米超级小爱AI大模型推出随心修图功能

站长商机

阿里推I2VGen-XL模型 双阶方法实现更高清的文本视频生成

今日大家都在搜的词：

热文

站长商机

阿里推I2VGen-XL模型双阶方法实现更高清的文本视频生成