首页 > 业界 > 关键词  > ID-Animator最新资讯  > 正文

AI视频生成工具ID-Animator:可保持角色一致生成视频动画

2024-04-25 11:33 · 稿源:站长之家

划重点:

⭐️ 提出了一种零样本人类视频生成方法,可根据单个参考面部图像进行个性化视频生成

⭐️ 引入面向身份的数据集构建流水线,提高身份信息在视频生成中的提取效率

⭐️ 结合控制网络,实现单帧或多帧控制图像与面部参考图像的融合生成视频

站长之家(ChinaZ.com)4月25日 消息:近年来,生成具有指定身份的高保真人类视频引起了广泛关注。然而,现有技术在训练效率和身份保持之间往往难以取得平衡,要么需要繁琐的逐案微调,要么在视频生成过程中通常会丢失身份细节。研究提出了一种名为 ID-Animator 的零样本人类视频生成方法,可以在无需进一步训练的情况下执行个性化视频生成,只需单个参考面部图像即可。

ID-Animator是一种零样本个性化视频生成方法,可以根据单个参考面部图像生成个性化视频,无需额外训练。ID-Animator 继承了现有基于扩散的视频生成框架,并引入了一个面部适配器,用于从可学习的面部潜在查询中编码与身份相关的嵌入。

image.png

为了促进视频生成中身份信息的提取,研究引入了一个面向身份的数据集构建流水线,该流水线结合了从构建的面部图像池中生成分离的人类属性和动作标题的技术。基于这一流水线,进一步设计了一种随机面部参考训练方法,以精确捕获参考图像中的与身份相关的嵌入,从而提高了模型对于特定身份视频生成的保真度和泛化能力。

大量实验证明了 ID-Animator 在生成个性化人类视频方面优于先前的模型。此外,该方法与流行的预训练 T2V 模型(如 animatediff)和各种社区骨干模型高度兼容,在需要高度保持身份的视频生成的真实应用中表现出高度可扩展性。

image.png

ID-Animator特色功能亮点:

随机参考训练:在训练过程中,随机从之前提取的面部池中选择一个参考图像,通过这种蒙特卡洛技术,平均化来自不同参考图像的特征,减少身份不变特征的影响。

生成能力 :ID-Animator 在基本提示下展示了生成能力,可以通过文本定制人物的上下文信息,包括头发和服装等特征,创造新颖的角色背景,并使他们执行特定的动作,同时包括性别和年龄。

image.png

身份混合 :通过将来自两个不同 ID 的嵌入以不同比例混合,我们有效地在生成的视频中结合了两个 ID 的特征。

image.png

与 ControlNet 结合 :ID-Animator 能够提供单帧控制图像或多帧控制图像。当提供单帧控制图像时,生成的结果巧妙地将控制图像与面部参考图像融合。当提供多个控制图像时,生成的视频序列紧密遵循多个图像提供的序列。

image.png

产品入口:https://top.aibase.com/tool/id-animator

举报

  • 相关推荐
  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • 生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界

    世界模型的进度条,最近坐上了火箭。 去年11月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 低端显卡登上AI的大船!6GB显存就能生成高质量视频

    快科技4月20日消息,GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala,发布了一项突破性的新技术FramePack,通过在视频扩散模型中使用固定长度的时域上下文,可以更高效地生成时间更长、质量更高的视频。根据实测,基于FramePack构建的130亿参数模型,只需一块6GB显存的显卡,就能生成60秒钟的视频。FramePack是一种神经网络架构,使用多级优化策略,完成本地AI视频生成。目前,�