阿里图像生成视频模型I2VGen-XL代码发布

2023-12-15 10:55 · 稿源：站长之家

站长之家（ChinaZ.com）12月15日消息:阿里在11月份发布了论文，宣布将开源I2VGen-XL图像生成视频模型。如今，他们终于发布了具体的代码和模型。这一模型可以生成没有大幅人物动作的视频演示。

I2VGen-XL模型分为两个阶段。首先是基础阶段，该阶段通过使用两个分层编码器来保证连贯的语义，并保留输入图像的内容。其次是优化阶段，该阶段通过整合额外的简短文本来增强视频的细节，并将分辨率提高到1280x720。

代码地址:https://github.com/damo-vilab/i2vgen-xl

为了优化模型，研究团队收集了约3500万个单镜头文本视频对和60亿个文本图像对。通过这些数据，I2VGen-XL模型可以提高生成视频的语义准确性、细节的连续性和清晰度。

（举报）

相关推荐

关键词：

百度搜索推出“百度猎户座”AI引擎，涵盖基座模型、搜索AI API、 MCP、垂类优势能力

2025年11月13日，百度发布“百度猎户座”AI引擎，全面开放25年搜索技术与前沿AI能力。该系统整合底座模型、搜索API、MCP及垂直领域能力，基于多智能体架构统一连接信息、工具、服务与模型，融合搜索技术优势与全网MCP生态资源。即日起对外开放，支持企业快速接入打造专属AI应用。同时，文心助手上线个性化记忆功能，视频生成推出“参考生成”玩法，AI短剧创作平台免费提供超30万部IP资源及全流程工具。

百度猎户座 AI引擎搜索技术
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
荐AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能；微博推出 VibeThinker-1.5B

本期AI日报聚焦多项技术突破：OpenAI推出GPT-5.1，提升对话自然度与响应速度；百度发布原生全模态大模型文心5.0，支持跨文本图像生成；微博开源VibeThinker-1.5B模型，以低成本实现高效推理；可控视频生成模型新增首尾帧控制功能；李飞飞团队推出商用3D世界生成工具Marble；东北大学开源多语言翻译模型支持60种语言；谷歌Gemini语音功能升级实现更自然交互；阿里启动“千问”项目对标ChatGPT，全面布局C端AI应用竞争。

AI视频生成可灵2.5Turbo 首尾帧功能
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级

今日大家都在搜的词：

热文

3 天
7天

阿里图像生成视频模型I2VGen-XL代码发布

百度搜索推出“百度猎户座”AI引擎，涵盖基座模型、搜索AI API、 MCP、垂类优势能力

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

荐AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能；微博推出 VibeThinker-1.5B

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

今日大家都在搜的词：

热文

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

荣耀500系列开启预约：Pro版外观首次亮相

AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能

iPhone Pocket正式开售：联名三宅一生售价1299元起

微信小程序将在iOS端支持接入虚拟支付苹果抽成15%

1899元苹果手机包卖完了！iPhone Pocket在吐槽声中销售火爆

AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT

苹果回应输入法宁死不屈：具备记忆功能与学习机制

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

卢伟冰：小米手机双11连续三年国产销量第一

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

OPPO Reno15系列定档11月17日发布

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

站长商机