首页 > 业界 > 关键词  > Make-Your-Anchor最新资讯  > 正文

Make-Your-Anchor:输入1分钟视频训练能生成带手部动作的虚拟人

2024-03-29 17:10 · 稿源:站长之家

划重点:

⭐️ 提出了一种基于扩散的二维头像生成框架,名为 Make-Your-Anchor

⭐️ 通过仅需一分钟的视频片段进行训练,实现了自动生成带有准确躯干和手部动作的锚点样式视频。

⭐️ 实验结果表明,在视觉质量、时间连贯性和身份保留方面,该系统在扩散 / 非扩散方法中具有更高的效果和优越性。

站长之家(ChinaZ.com)3月29日 消息:近日,一项名为 Make-Your-Anchor 的研究成果即将在 CVPR2024上展示。该项目输入1分钟视频进行训练,可以合成带手部动作的虚拟人视频,支持嘴型同步,支持换脸。

image.png

这一创新系统在创造与全身动作的锚点样式视频方面取得了重要突破,尽管基于说唱头像的创作解决方案已有显著进展,但直接生成具有完整躯干和手部动作的视频仍然具有挑战性。

该系统提出了一种全新的解决方案,仅需一个个体的一分钟视频片段进行训练,随后就能自动生成具有精确躯干和手部动作的锚点样式视频。具体而言,他们在输入视频上微调了一个结构引导的扩散模型,将3D 网格条件渲染为人类外观。为了将动作与特定外观有效地绑定,他们采用了两阶段训练策略来训练扩散模型。

image.png

为了生成任意长的时间视频,他们将帧间扩散模型中的2D U-Net 扩展到3D 样式,而无需额外的训练成本,并且提出了一个简单而有效的批次重叠的时间去噪模块,以在推理过程中绕过视频长度的限制。最后,引入了一种新颖的特定身份的面部增强模块,以改善输出视频中面部区域的视觉质量。不过这一项目代码还没发布。

经过比较实验,结果显示该系统在视觉质量、时间连贯性和身份保留方面的有效性和优越性,优于当前最先进的扩散 / 非扩散方法。这一创新的框架为头像生成领域带来了新的可能性和前景。

产品入口:https://top.aibase.com/tool/make-your-anchor

论文:https://arxiv.org/abs/2403.16510v1

举报

  • 相关推荐
  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

  • 进博会“全勤生”三星的AI全景图:AI Home中国首秀

    三星在进博会上首次展出AI+Home智能家庭解决方案,通过Bespoke AI、Vision AI和Galaxy AI三大模块,实现全场景智慧生活。AI正从"会语言"向"会行动"演进,软硬件协同成为核心竞争力。三星凭借从芯片到终端的全产业链优势,打破端侧AI的性能、算力与存储"不可能三角",构建起覆盖手机、电视、家电的生态闭环。未来,AI将全面接管生活,让科技真正服务于人。

  • MiniMax让AI语音有了新基建

    熟悉MiniMax的人都了解这家公司的调性——不鸣则已,一鸣惊人。 要么选择低调,要么发动技术连招,其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。 十月的最后一周,再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化,基础文本模型M1升级至M2,“专为Agent和代码而生”;视频模型升级至Hailuo2.3,Hailuo Video Agent迭代为“全模态全�

  • AI生万物,移往无前 | 第12届TMA大奖终审会成功举办

    11月1日,第12届TMA大奖终审会在云南玉溪成功举办。本届赛事聚焦移动营销与AI创新,新增数智营销、AI创新等赛道,细分短剧营销、节日/事件营销等类别。60余位行业专家评审入围案例,最终获奖结果将于12月19日盛典揭晓。活动搭建了行业交流平台,推动营销与AI技术融合发展。

  • 双十一购物不烧脑!看AI全能搭子荣耀Magic8如何重塑消费体验

    双十一来到第17个年头,购物火热程度未减,未到11月,各类优惠已来,但与此同时,购物的复杂度似乎也在增加。蹲点等红包、消费券、国补、88VIP会员、凑满减、主播补贴,各种玩法满天飞,但想要弄清楚具体的规则已经不易,再配合计算金额、卡时间,原本的购物热情,正在逐渐被消耗。 在央视财经对消费者的调研中,几个

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • 三星Micro RGB色彩技术亮相进博,智绘AI家电新视界

    三星在第八届进博会上紧扣AI浪潮,展示了显示技术、智能家电、半导体及物联网等领域的前沿成果。重点推出全球首款Micro RGB电视,融合微米级LED创新显示与AI功能,实现精准控光、更高亮度和真实色彩;同时展出144英寸Micro LED及纤薄折叠手机,体现从超大屏到移动显示的技术实力。全线产品集成Vision AI,通过影像增强、自适应音效等技术优化视听体验,并借助Galaxy AI提供个性化服务,强化在移动AI领域的领先地位。

  • DocuVerse AI赋能:让企业文档“活”起来,开启智慧办公新体验

    飞天云DocuVerse通过AgentsCo AI智能体,将传统文档管理系统升级为“可对话”的知识资产。用户只需右键点击文件即可直接提问,AI能快速提炼技术专利、合同条款等核心信息,实现零门槛交互。系统支持封装高频文档集成为专属智能体(如HR政策助手、客服知识库),7×24小时响应咨询。在研发、销售等场景中,AI加速创新进程、精准匹配客户需求,推动办公模式从“人力驱动”向“智能驱动”升级。

今日大家都在搜的词: