首页 > 传媒 > 关键词  > 人像视频生成最新资讯  > 正文

旷视AI开源新突破:上传照片即可生成表情包视频!

2024-07-12 11:00 · 稿源: 站长之家用户

日前,旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频(如演讲、表情包、rap),便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与阿里EMO、微软VASA等比较新AI视频模型不同,旷视MegActor采用开源方式,供开发者社区使用。MegActor生成的视频画质更出色,面部细节更加丰富自然。

为了展示其泛化性,MegActor甚至可以将VASA中的人物肖像和视频组合生成,得到生动的表情视频。即使与阿里EMO的官方案例相比,MegActor也能生成近似的效果。

总的来说,无论是让肖像开口说话、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

论文链接:https://arxiv.org/abs/2405.20851

代码地址:https://github.com/megvii-research/megactor

项目地址:https://megactor.github.io/

MegActor是旷视研究院的比较新研究成果。旷视研究院是旷视公司级研究机构,旨在通过基础创新突破AI技术边界,以工程创新实现技术到产品的快速转化。多年来,旷视研究院已成为全球领先的人工智能研究机构。

目前的人像视频生成领域中,许多工作通常使用高质量的闭源数据进行训练,以追求更好的效果。而旷视研究院始终坚持全面开源,确保实际效果的可复现性。MegActor的训练数据全部来自公开可获取的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些效果。

为了完全复刻原始视频的表情和动作,MegActor采用原始图像进行驱动,这与多数厂商使用的中间表示方法(如sketch、pose、landmark)不同,能够捕捉到细致的表情和运动信息。

旷视科技研究总经理范浩强表示,在AI视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频的保真度也不尽如人意。通过研究发现,使用原视频进行驱动,不仅降低了控制信号的门槛,更能生成保真且动作一致的视频。

具体来说,MegActor主要由两个阶段构成:

使用ReferenceNet对参考图像进行特征提取,获取参考图像的外观和背景信息;

使用PoseGuider对输入视频进行运动和表情信息提取,将这些信息迁移到参考图像上。

虽然使用原始视频进行驱动能带来更丰富的表情细节和运动信息,但也存在ID泄露和背景干扰等挑战。为此,MegActor采用了条件扩散模型,引入了合成数据生成框架,创建具有一致动作和表情但不同身份ID的视频,以减轻ID泄露的问题。MegActor还分割了参考图像的前景和背景,并使用CLIP对背景细节进行编码,确保背景的稳定性。

在数据训练方面,旷视研究院团队使用公开数据集(VFHQ和CeleV)进行训练,总时长超过700小时。为了避免ID泄露问题,团队还使用换脸和风格化方法1:1生成合成数据,实现表情和动作一致但ID不一致的数据。此外,团队使用注视检测模型处理数据,获取大约5%的高质量数据进行Finetune训练。

通过新的模型框架和训练方法,旷视研究院团队仅使用了不到200块V100显卡小时的训练时长,最终实现了以下特性:

根据输入视频生成任意持续时间的模仿视频,确保角色身份一致性;

支持各种驱动视频,如演讲、唱歌、表情包等;

支持不同画风(照片、传统绘画、漫画、AI数字人等);

与音频生成方法相比,MegActor生成的视频不仅能确保表情和动作一致,更能达到自然程度。

目前,MegActor已经完全开源,供开发者和用户即开即用。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 什么是AI生成式引擎优化GEO?GEO与传统SEO的核心区别

    ​GEO(生成式引擎优化)是AI时代的流量新密码。随着生成式AI全面渗透信息获取场景,传统搜索引擎优化(SEO)正在被GEO所补充甚至部分取代。截至2025年,中国AI搜索用户规模已超6.5亿,文心一言、豆包等平台日均处理查询超过20亿次,用户已经从“翻页搜索”转向“对话获取答案”。 与传统SEO关注网页排名不同,GEO的核心目标是让品牌内容被AI优先引用和推荐。研究表明,72%�

  • 免费 AI 可见度检测器工具推荐:监控你品牌在生成式搜索中的曝光

    AI搜索时代,58.5%的Google搜索已成"零点击",ChatGPT日查询超10亿次。品牌若未出现在AI工具推荐中,将错失新流量入口。文章提出GEO(生成引擎优化)概念,强调需监控品牌在豆包、DeepSeek等AI平台的曝光排名,并推荐AIBase工具实现数据可视化。建议企业建立监测基线,聚焦高价值问题优化内容,形成"监控-优化-验证"闭环,抢占AI推荐流量先机。

  • 新王加冕,神装加持!AGON爱攻见证Legacy问鼎CAC 2025

    10月19日,CAC2025反恐精英亚洲邀请赛落幕,Legacy战队以3:2战胜3DMAX,夺得百万美元冠军。比赛历经五局激战,双方展现顶尖战术与顽强意志。Legacy凭借团队协作首夺国际大赛桂冠,巴西选手latto荣膺MVP。官方合作伙伴AGON爱攻为赛事提供定制显示器CS24A,以610Hz超高刷新率等技术助力选手发挥,并打造沉浸式互动展区,通过粉丝签名会、主题周边等活动连接选手与观众,推动电竞全民化发展。

  • AI生成式引擎优化选择哪个平台好?GEO优化工具推荐

    在数字化浪潮席卷的当下,品牌如何在AI平台中脱颖而出,成为众多企业关注的焦点。要理解这一点,我们首先需要认识一个新兴的营销策略——GEO。 GEO,全称为生成式引擎优化(Generative Engine Optimization),其核心目标是让品牌内容能够被AI搜尋工具理解、引用和推荐,最终被纳入AI生成的答案中。这与传统的SEO(搜索引擎优化)专注于在搜索结果列表中排名靠前有着本质的不同�

  • 革命来临:在生成式 AI 时代,SEO该怎么做

    生成式AI正重塑SEO规则:搜索入口从点击列表转向答案直呈,SEO核心从"优化排名"升级为"优化被引用"。需打造能被AI摘录的内容(如FAQ、结构化数据),强化语义结构与权威性,监控"被AI引用"新指标。推荐使用AIBase GEO等工具量化AI可见性,实现从流量获取到答案源头的战略转型。

  • 短视频加速跑入AI时代

    「现在是西天取经的第996天,刚把师父从妖怪嘴里救出来,师父身上都还是热乎的,我们就马不停蹄开始出发了。」在抖音,都能看到《西游记》里师徒四人的取经vlog了。 采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播,各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。 尽管在专业影视

  • 什么样的内容最容易被AI引用?GEO(生成引擎优化)时代的核心命题

    随着AI问答时代到来,用户从“搜索”转向直接向AI“提问”,生成引擎优化(GEO)应运而生。文章指出,易被AI引用的内容需具备权威性、准确性、结构清晰且被广泛认可,并介绍了AIBase的GEO排名查询工具。该工具支持多平台检测,通过模拟真实用户提问,提供品牌在AI回答中的曝光度、排名等数据分析及优化建议,帮助品牌提升AI可见度,抢占智能问答时代先机。

  • 什么是GEO优化?AI生成式引擎优化平台推荐

    在数字化浪潮席卷的当下,搜索引擎的使用方式正在发生根本性变革。越来越多的用户不再只是输入碎片化的关键词,而是通过自然语言与AI对话来获取信息。根据中国信通院发布的《2025年生成式AI商业应用报告》数据显示,超60%的用户已养成借助AI对话获取各类信息的习惯。这一转变催生了全新的营销领域——GEO优化。 什么是GEO优化? GEO,全称为生成式引擎优化,是

  • AI日报:谷歌发布Veo 3.1;通义千问推Qwen Chat Memory功能;Sora2免费用户可生成15秒视频

    本期AI日报聚焦多项技术更新:谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能;通义千问推出记忆功能提升对话连贯性;Sora2免费用户可生成15秒视频,Pro版支持25秒;百度文心助手升级8种创作模式;谷歌Flow工具增强视频光影编辑与音频合成能力;Anthropic发布高性价比Claude Haiku 4.5;北京查处首例AI虚假广告案,涉伪造主持人带货;阿里推出响应仅200毫秒的编程工具Qoder CLI。

今日大家都在搜的词: