旷视AI开源新突破：上传照片即可生成表情包视频！

2024-07-12 11:00 · 稿源：站长之家用户

日前，旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频（如演讲、表情包、rap），便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与阿里EMO、微软VASA等比较新AI视频模型不同，旷视MegActor采用开源方式，供开发者社区使用。MegActor生成的视频画质更出色，面部细节更加丰富自然。

为了展示其泛化性，MegActor甚至可以将VASA中的人物肖像和视频组合生成，得到生动的表情视频。即使与阿里EMO的官方案例相比，MegActor也能生成近似的效果。

总的来说，无论是让肖像开口说话、唱歌、模仿搞怪表情包，MegActor都能生成逼真的效果。

论文链接:https://arxiv.org/abs/2405.20851

代码地址:https://github.com/megvii-research/megactor

项目地址:https://megactor.github.io/

MegActor是旷视研究院的比较新研究成果。旷视研究院是旷视公司级研究机构，旨在通过基础创新突破AI技术边界，以工程创新实现技术到产品的快速转化。多年来，旷视研究院已成为全球领先的人工智能研究机构。

目前的人像视频生成领域中，许多工作通常使用高质量的闭源数据进行训练，以追求更好的效果。而旷视研究院始终坚持全面开源，确保实际效果的可复现性。MegActor的训练数据全部来自公开可获取的开源数据集，配合开源代码，使得感兴趣的从业者可以从头开始完整复现这些效果。

为了完全复刻原始视频的表情和动作，MegActor采用原始图像进行驱动，这与多数厂商使用的中间表示方法（如sketch、pose、landmark）不同，能够捕捉到细致的表情和运动信息。

旷视科技研究总经理范浩强表示，在AI视频生成领域，我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号，同时生成视频的保真度也不尽如人意。通过研究发现，使用原视频进行驱动，不仅降低了控制信号的门槛，更能生成保真且动作一致的视频。

具体来说，MegActor主要由两个阶段构成:

使用ReferenceNet对参考图像进行特征提取，获取参考图像的外观和背景信息;

使用PoseGuider对输入视频进行运动和表情信息提取，将这些信息迁移到参考图像上。

虽然使用原始视频进行驱动能带来更丰富的表情细节和运动信息，但也存在ID泄露和背景干扰等挑战。为此，MegActor采用了条件扩散模型，引入了合成数据生成框架，创建具有一致动作和表情但不同身份ID的视频，以减轻ID泄露的问题。MegActor还分割了参考图像的前景和背景，并使用CLIP对背景细节进行编码，确保背景的稳定性。

在数据训练方面，旷视研究院团队使用公开数据集（VFHQ和CeleV）进行训练，总时长超过700小时。为了避免ID泄露问题，团队还使用换脸和风格化方法1:1生成合成数据，实现表情和动作一致但ID不一致的数据。此外，团队使用注视检测模型处理数据，获取大约5%的高质量数据进行Finetune训练。

通过新的模型框架和训练方法，旷视研究院团队仅使用了不到200块V100显卡小时的训练时长，最终实现了以下特性:

根据输入视频生成任意持续时间的模仿视频，确保角色身份一致性;

支持各种驱动视频，如演讲、唱歌、表情包等;

支持不同画风（照片、传统绘画、漫画、AI数字人等）;

与音频生成方法相比，MegActor生成的视频不仅能确保表情和动作一致，更能达到自然程度。

目前，MegActor已经完全开源，供开发者和用户即开即用。

（推广）

特别声明：以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述法律文件后，将会依法依规核实信息，沟通删除相关内容或断开相关链接。

相关推荐

关键词：

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
什么是AI生成式引擎优化GEO？GEO与传统SEO的核心区别

GEO（生成式引擎优化）是AI时代的流量新密码。随着生成式AI全面渗透信息获取场景，传统搜索引擎优化(SEO)正在被GEO所补充甚至部分取代。截至2025年，中国AI搜索用户规模已超6.5亿，文心一言、豆包等平台日均处理查询超过20亿次，用户已经从“翻页搜索”转向“对话获取答案”。与传统SEO关注网页排名不同，GEO的核心目标是让品牌内容被AI优先引用和推荐。研究表明，72%�

GEO AI搜索生成式引擎优化
免费 AI 可见度检测器工具推荐：监控你品牌在生成式搜索中的曝光

AI搜索时代，58.5%的Google搜索已成"零点击"，ChatGPT日查询超10亿次。品牌若未出现在AI工具推荐中，将错失新流量入口。文章提出GEO（生成引擎优化）概念，强调需监控品牌在豆包、DeepSeek等AI平台的曝光排名，并推荐AIBase工具实现数据可视化。建议企业建立监测基线，聚焦高价值问题优化内容，形成"监控-优化-验证"闭环，抢占AI推荐流量先机。
新王加冕，神装加持！AGON爱攻见证Legacy问鼎CAC 2025

10月19日，CAC2025反恐精英亚洲邀请赛落幕，Legacy战队以3:2战胜3DMAX，夺得百万美元冠军。比赛历经五局激战，双方展现顶尖战术与顽强意志。Legacy凭借团队协作首夺国际大赛桂冠，巴西选手latto荣膺MVP。官方合作伙伴AGON爱攻为赛事提供定制显示器CS24A，以610Hz超高刷新率等技术助力选手发挥，并打造沉浸式互动展区，通过粉丝签名会、主题周边等活动连接选手与观众，推动电竞全民化发展。

CAC2025 Legacy AGON爱攻
AI生成式引擎优化选择哪个平台好？GEO优化工具推荐

在数字化浪潮席卷的当下，品牌如何在AI平台中脱颖而出，成为众多企业关注的焦点。要理解这一点，我们首先需要认识一个新兴的营销策略——GEO。 GEO，全称为生成式引擎优化（Generative Engine Optimization），其核心目标是让品牌内容能够被AI搜尋工具理解、引用和推荐，最终被纳入AI生成的答案中。这与传统的SEO(搜索引擎优化)专注于在搜索结果列表中排名靠前有着本质的不同�

GEO AI平台品牌营销
革命来临：在生成式 AI 时代，SEO该怎么做

生成式AI正重塑SEO规则：搜索入口从点击列表转向答案直呈，SEO核心从"优化排名"升级为"优化被引用"。需打造能被AI摘录的内容（如FAQ、结构化数据），强化语义结构与权威性，监控"被AI引用"新指标。推荐使用AIBase GEO等工具量化AI可见性，实现从流量获取到答案源头的战略转型。

生成式AI SEO变革搜索入口
短视频加速跑入AI时代

「现在是西天取经的第996天，刚把师父从妖怪嘴里救出来，师父身上都还是热乎的，我们就马不停蹄开始出发了。」在抖音，都能看到《西游记》里师徒四人的取经vlog了。采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播，各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。尽管在专业影视

文章搜索核心标签 AI生成
什么样的内容最容易被AI引用?GEO（生成引擎优化）时代的核心命题

随着AI问答时代到来，用户从“搜索”转向直接向AI“提问”，生成引擎优化（GEO）应运而生。文章指出，易被AI引用的内容需具备权威性、准确性、结构清晰且被广泛认可，并介绍了AIBase的GEO排名查询工具。该工具支持多平台检测，通过模拟真实用户提问，提供品牌在AI回答中的曝光度、排名等数据分析及优化建议，帮助品牌提升AI可见度，抢占智能问答时代先机。

SEO GEO 搜索引擎优化
什么是GEO优化？AI生成式引擎优化平台推荐

在数字化浪潮席卷的当下，搜索引擎的使用方式正在发生根本性变革。越来越多的用户不再只是输入碎片化的关键词，而是通过自然语言与AI对话来获取信息。根据中国信通院发布的《2025年生成式AI商业应用报告》数据显示，超60%的用户已养成借助AI对话获取各类信息的习惯。这一转变催生了全新的营销领域——GEO优化。什么是GEO优化? GEO，全称为生成式引擎优化，是

GEO优化 AI搜索生成式引擎优化
荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

本期AI日报聚焦多项技术更新：谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能；通义千问推出记忆功能提升对话连贯性；Sora2免费用户可生成15秒视频，Pro版支持25秒；百度文心助手升级8种创作模式；谷歌Flow工具增强视频光影编辑与音频合成能力；Anthropic发布高性价比Claude Haiku 4.5；北京查处首例AI虚假广告案，涉伪造主持人带货；阿里推出响应仅200毫秒的编程工具Qoder CLI。

AI 视频生成谷歌

今日大家都在搜的词：

热文

3 天
7天

旷视AI开源新突破：上传照片即可生成表情包视频！

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

什么是AI生成式引擎优化GEO？GEO与传统SEO的核心区别

免费 AI 可见度检测器工具推荐：监控你品牌在生成式搜索中的曝光

新王加冕，神装加持！AGON爱攻见证Legacy问鼎CAC 2025

AI生成式引擎优化选择哪个平台好？GEO优化工具推荐

革命来临：在生成式 AI 时代，SEO该怎么做

短视频加速跑入AI时代

什么样的内容最容易被AI引用?GEO（生成引擎优化）时代的核心命题

什么是GEO优化？AI生成式引擎优化平台推荐

荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

鸿蒙智行：全新问界M7上市36天交付破20000台

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

微信红包封面现已支持跳转「微信小店」

iPhone 18系列或将首发自研基带C2

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

鸿蒙智行：全新问界M7上市36天交付破20000台

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

站长商机