阿里推AtomoVideo文本+图片生视频模型，媲美Gen-2和Pika

2024-03-11 08:56 · 稿源：站长之家

划重点:
1. 🌐 AtomoVideo介绍:阿里技术团队推出的文本+图片生成高保真视频模型，通过简单的文本提示和高清图片即可生成逼真高清视频。
2. 🚀 技术创新:AtomoVideo融合多粒度图片注入和时间建模，利用VAE编码器和CLIP编码器提高细节信息和文本语义的一致性，同时在时间维度上进行创新以学习时序动态模式。
3. 📊 评测数据:经深度比较，AtomoVideo在动作连贯性、图片一致性、时序一致性、运动强度等多个评估维度上超越开源模型VideoCrafter、I2VGEN-XL、SVD，媲美商业模型Gen-2和Pika。
站长之家（ChinaZ.com）3月11日消息:阿里巴巴集团近期推出了一款引人瞩目的视频生成模型，命名为AtomoVideo。该模型以文本和图片为输入，能够高效生成高保真视频，与商业模型Gen-2和Pika相媲美。

AtomoVideo的使用非常简便，用户只需提供高清图片和简单的文本提示即可在短时间内生成逼真的高清视频，并保留细致的细节。据评测数据显示，AtomoVideo在动作连贯性、图片一致性、时序一致性、运动强度等方面超过了多个开源模型，表现出色。

该模型的技术创新主要体现在多个方面。首先，AtomoVideo使用了预训练的Stable Diffusion1.5作为基础模型，并在每个空间卷积和注意力层后新增了1D时序卷积和时序注意力模块。其次，模型融合了多粒度图片注入和时间建模，通过VAE编码器处理输入图片，得到细粒度的图片潜在表征，并与高斯噪声拼接在一起作为UNet的输入。此外，AtomoVideo还利用CLIP编码器进行高层语义表征，通过交叉注意力注入到UNet中，使模型能够同时捕捉到图片的细节信息和文本语义提示，提高生成视频与原始图片的一致性。

在时间维度上，AtomoVideo引入了一维时间卷积和时间注意力模块，在UNet的每一个空间卷积和注意力层之后，赋予了模型学习时序动态模式的能力。除了图片生成视频，该模型还可用于其他视频相关任务，如给定视频的前几帧，对剩余未知帧进行视频扩展预测，为视频添加无缝延续的新内容;基于上下文帧，自动修复受损帧或插值缺失帧，实现自动修复损坏的视频。

在训练阶段，研究人员采用了零终端信噪比和v-预测等策略，显著提升了生成视频的稳定性，无需依赖于噪声先验。通过最小化零终端信噪比来优化模型，在生成过程中更好地控制生成视频的稳定性和质量，以及对生成的细节和一致性的精准掌控。此外，固定了预训练的文本到图片模型的权重，仅训练新添加的时序层和输入层参数，使得AtomoVideo能够无缝集成到目前流行的个性化文生图模型、可控生成模型等，进一步扩展了其应用场景。

为了评估AtomoVideo的性能，研究人员在AIGCBench测试集上与多个开源模型和商业模型进行了深度比较，结果显示AtomoVideo在多个评估维度上表现卓越，尤其在保持较大运动强度的同时实现了优异的时间稳定性。这一创新性的视频生成模型将为AIGC领域带来更多可能性，引领视频生成技术的发展。

论文地址:https://arxiv.org/abs/2403.01800

项目入口地址:https://top.aibase.com/tool/atomovideo

（举报）

相关推荐

关键词：

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
数巅完成数亿元pre-A轮融资，领跑企业级AI Agent赛道

北京数巅科技完成数亿元Pre-A轮融资，由济和创投与赛富基金领投。资金将用于产品研发、国内市场深耕及国际市场拓展，强化其Data Agent技术在行业落地方面的领先优势。数巅推出企业级Data Agent解决方案，通过模块化架构整合海量行业知识与企业数据，精准识别用户需求，实现秒级响应与深度推理，满足企业数据分析、智能报告生成及业务决策等需求。该方案已在多家央国企及金融机构落地，查数准确率超99%，成为国内企业级智能体应用的重要里程碑。

融资 AI Agent
荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

最近一个月，基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作，大体还是走出了两条路。一种是在诸多难点里选择一个死磕，成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象，但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进，在一个最全面的基础模型蓝图里不停交出一个个关键拼图。已经有了全

基础模型 MiniMax M2
蝉妈妈AI新品震撼发布：电商营销Agent时代来临，6万+从业者共寻增长新引擎

2025年电商竞争核心转向AI效率。蝉妈妈于10月23日发布电商专属AI工具，旨在解决传统运营痛点。该工具覆盖全链路场景：从行业分析、竞对数据到图文创作、视频脚本生成，帮助从业者实现策略制定到落地执行的一站式智能运营。发布会集结多位实战专家，分享全域增长、内容提效等可复用的方法论，吸引超6万观众。蝉妈妈凭借行业数据沉淀与AI技术结合，为电商从业者提供突破增长瓶颈的系统路径，推动行业迈向技术驱动的高效新纪元。

AI电商电商增长数据分析
墨刀AI Agent：更懂产品经理的超级智能体上线

2025年AI将进入"智能体时代"，从被动工具升级为能理解意图、辅助决策的伙伴。墨刀AI+Agent专为产品经理打造，具备三层核心能力：懂逻辑（理解需求生成原型）、懂场景（熟悉全流程工作）、懂协作（跨角色沟通优化）。它能贯穿调研、原型、文档、评审等环节，解放重复劳动，让产品经理专注高价值决策，实现从效率提升到决策升级的人机协作新模式。

AI智能体产品经理墨刀AI
荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

Sora2爆火之后，随之而来的AI视频领域的新产品。来自我的好朋友，曹越老师的Sand.ai。凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

AI视频 GAGA-1 音画同步
Zen7 Labs 开源全球首个去中心化支付智能体（DePA），打造下一代AI Agent 金融基础设施

随着AI Agent经济崛起，支付成为制约智能体自主交易的关键瓶颈。Zen7Labs提出去中心化支付智能体DePA概念，并开源核心产品Zen7 Payment Agent。该方案具备原生多链兼容、免密授权、零托管安全等六大优势，通过四类Agent角色协同实现全流程自动化支付，有效融合传统跨境支付与加密支付优势。团队计划12个月内推出DePA Chain网络，构建低延迟、高安全的支付基础设施，为万亿美元级A

DePA 去中心化支付智能体经济
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠

今日大家都在搜的词：

热文

3 天
7天

阿里推AtomoVideo文本+图片生视频模型，媲美Gen-2和Pika

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

数巅完成数亿元pre-A轮融资，领跑企业级AI Agent赛道

荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

蝉妈妈AI新品震撼发布：电商营销Agent时代来临，6万+从业者共寻增长新引擎

墨刀AI Agent：更懂产品经理的超级智能体上线

荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

Zen7 Labs 开源全球首个去中心化支付智能体（DePA），打造下一代AI Agent 金融基础设施

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

鸿蒙智行：全新问界M7上市36天交付破20000台

OPPO ColorOS 16正式版推送：首批适配11款机型

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

微信红包封面现已支持跳转「微信小店」

iPhone 18系列或将首发自研基带C2

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

鸿蒙智行：全新问界M7上市36天交付破20000台

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

余承东曝鸿蒙智行新款享界S9将于11月上市

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

站长商机