阿里推AtomoVideo文本+图片生视频模型，媲美Gen-2和Pika

2024-03-11 08:56 · 稿源：站长之家

划重点:
1. 🌐 AtomoVideo介绍:阿里技术团队推出的文本+图片生成高保真视频模型，通过简单的文本提示和高清图片即可生成逼真高清视频。
2. 🚀 技术创新:AtomoVideo融合多粒度图片注入和时间建模，利用VAE编码器和CLIP编码器提高细节信息和文本语义的一致性，同时在时间维度上进行创新以学习时序动态模式。
3. 📊 评测数据:经深度比较，AtomoVideo在动作连贯性、图片一致性、时序一致性、运动强度等多个评估维度上超越开源模型VideoCrafter、I2VGEN-XL、SVD，媲美商业模型Gen-2和Pika。
站长之家（ChinaZ.com）3月11日消息:阿里巴巴集团近期推出了一款引人瞩目的视频生成模型，命名为AtomoVideo。该模型以文本和图片为输入，能够高效生成高保真视频，与商业模型Gen-2和Pika相媲美。

AtomoVideo的使用非常简便，用户只需提供高清图片和简单的文本提示即可在短时间内生成逼真的高清视频，并保留细致的细节。据评测数据显示，AtomoVideo在动作连贯性、图片一致性、时序一致性、运动强度等方面超过了多个开源模型，表现出色。

该模型的技术创新主要体现在多个方面。首先，AtomoVideo使用了预训练的Stable Diffusion1.5作为基础模型，并在每个空间卷积和注意力层后新增了1D时序卷积和时序注意力模块。其次，模型融合了多粒度图片注入和时间建模，通过VAE编码器处理输入图片，得到细粒度的图片潜在表征，并与高斯噪声拼接在一起作为UNet的输入。此外，AtomoVideo还利用CLIP编码器进行高层语义表征，通过交叉注意力注入到UNet中，使模型能够同时捕捉到图片的细节信息和文本语义提示，提高生成视频与原始图片的一致性。

在时间维度上，AtomoVideo引入了一维时间卷积和时间注意力模块，在UNet的每一个空间卷积和注意力层之后，赋予了模型学习时序动态模式的能力。除了图片生成视频，该模型还可用于其他视频相关任务，如给定视频的前几帧，对剩余未知帧进行视频扩展预测，为视频添加无缝延续的新内容;基于上下文帧，自动修复受损帧或插值缺失帧，实现自动修复损坏的视频。

在训练阶段，研究人员采用了零终端信噪比和v-预测等策略，显著提升了生成视频的稳定性，无需依赖于噪声先验。通过最小化零终端信噪比来优化模型，在生成过程中更好地控制生成视频的稳定性和质量，以及对生成的细节和一致性的精准掌控。此外，固定了预训练的文本到图片模型的权重，仅训练新添加的时序层和输入层参数，使得AtomoVideo能够无缝集成到目前流行的个性化文生图模型、可控生成模型等，进一步扩展了其应用场景。

为了评估AtomoVideo的性能，研究人员在AIGCBench测试集上与多个开源模型和商业模型进行了深度比较，结果显示AtomoVideo在多个评估维度上表现卓越，尤其在保持较大运动强度的同时实现了优异的时间稳定性。这一创新性的视频生成模型将为AIGC领域带来更多可能性，引领视频生成技术的发展。

论文地址:https://arxiv.org/abs/2403.01800

项目入口地址:https://top.aibase.com/tool/atomovideo

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
CTRL-F-VIDEO：允许用户在视频中搜索特定的单词或短语

在数字化时代，视频已成为人们获取信息的重要渠道。查找视频中特定内容的效率一直是一个挑战。虽然项目还处于初级阶段，偶尔可能会出现一些小问题，但它提供了一个创新的思路，为视频内容的搜索和管理开辟了新的可能性。

视频 AI头条
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
VideoSwap代码放出可替换视频人物同时保持背景不变

在数字时代，视频编辑技术日新月异，如今有一款名为VideoSwap的工具，允许用户轻松替换视频中的主体，同时保持视频的背景环境不变。这一功能为个性化和精确的视频内容编辑提供了更多可能性。如果您希望为您的视频内容增添新意，那么VideoSwap无疑是一个值得尝试的选择。

VideoSwap AI头条
MiniGPT4-Video官网体验入口视频理解多模态AI大模型使用地址

MiniGPT4-Video是什么？MiniGPT4-Video是为视频理解设计的多模态大模型，能处理时态视觉数据和文本数据，配标题、宣传语，适用于视频问答。用户可以上传视频，让模型生成标题与宣传语，理解特效处理，或作超美抒情诗。

MiniGPT4-Video
Garment3DGen：用衣服图片就能生成逼纹理效果的3D模型

研究人员提出了一种名为Garment3DGen的方法，旨在实现3D服装的风格化和纹理生成。该方法通过结合先进的计算机视觉技术和人工智能算法，为用户提供了一个简单高效的工具，用于实现服装设计的个性化风格化。随着这一技术的不断完善和推广，我们有理由相信，未来的服装设计将更加多样化和个性化。

Garment3DGen AI头条
荐AI视频理解天花板，全新MiniGPT4-Video刷爆SOTA！宝格丽宣传片配文一绝

【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架，不仅能理解复杂视频，甚至还能作诗配文。OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight，引全网围观。下一步研究将模型能力扩展到处理更长视频的能力。

MiniGPT4-Video AI视频
百度推出AI视频创作模型D&S-AI Video 由百度智能云一念提供支持

百度智能云与迪思传媒合作开发的AI视频创作模型D&S-AlVideo正式上线，并集成至迪思AI智链。D&S-AIVideo凭借其强大的计算与数据分析能力，可以实现对海量视频素材的智能拆分与标签配置，并依托迪思AI智链的生文模型，实现视频的一键生成。迪思传媒已经将一念用于营销活动中，如只需告诉一念“帮我生成一个，大模马自达CX-50的视频宣传文案”型即可生成脚本、深度理解内容、进行画面抽取、匹配音乐、字幕、配音，5分钟内生成一支符合短视频平台的竖版创意视频。

百度智能云 AI视频创作模型 D&S-AlVideo
Adobe发布视频超分辨率项目VideoGigaGAN 支持8倍视频放大

Adobe近期推出了一个名为VideoGigaGAN的视频超分辨率项目，该项目在视频放大技术方面取得了显著的进展。VideoGigaGAN能够将视频放大至原始分辨率的8倍，同时保持视频内容的时间连贯性和高频细节的清晰度。虽然具体的技术细节和发布时间尚未公布，但VideoGigaGAN的演示效果已经引起了业界的广泛关注，预示着未来视频处理技术的发展方向。

Adobe AI头条
Nightshade：使AI模型在未经许可的情况下无法训练图片

站长之家（ChinaZ.com）4月9日消息:据报道，芝加哥大学的研究人员开发了一种名为Nightshade的工具，旨在防止未经许可的AI图像生成。该工具可以使AI图像生成器无法使用未经许可的图像进行训练，从而保护了艺术家和版权所有者的作品。Nightshade的工作原理是在图像中添加隐藏信息，这些信息对人眼不可见。当像Stable Diffusion这样的AI图像生成器尝试使用这些图像进行训练时，这些

Nightshade AI头条
Adobe Premiere Pro发布重大更新引入Sora、Runway、Pika等AI视频模型

爆炸级更新!AdobePremierePro正在引入AI工具，以简化视频编辑工作流程并减少完成繁琐任务所需的时间。这些新功能主要由AdobeFirefly视频模型提供支持，预示着视频编辑领域的一次重大变革。这些新功能的引入，无疑将为视频编辑人员带来更多的便利和创新的可能性。

Adobe AI头条

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

阿里推AtomoVideo文本+图片生视频模型，媲美Gen-2和Pika

今日大家都在搜的词：

热文

站长商机