阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

2024-02-28 14:07 · 稿源：站长之家

要点:
阿里提出了EMO框架，可根据单张图像和声音生成具有表情丰富的头像视频。
方法包括两个主要阶段:帧编码和扩散过程，利用多种注意机制和时间模块实现头像生成。
EMO支持多语言歌曲和不同风格的头像生成，可应用于歌唱、对话和跨角色表演等领域。

站长之家（ChinaZ.com）2月28日消息:近期，阿里巴巴智能计算研究所提出了一种新的生成式框架EMO，只需输入图片和音频即可生成具有表现力的视频，而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配，但也可能成为造假的利器，因此一些名人可能需要警惕了。

该框架包含两个主要阶段，首先是帧编码阶段，利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段，通过预训练的音频编码器处理声音嵌入，并结合多帧噪声和面部区域掩码来生成头像。在此过程中，采用了两种注意机制（参考注意和音频注意）和时间模块，以保持角色身份并调节运动速度。

项目地址:https://top.aibase.com/tool/emo

EMO不仅支持多语言歌曲和不同风格的头像生成，还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频，并保持角色的身份特征在长时间内的稳定性。此外，EMO还展示了在快节奏音乐中保持与音频同步的能力，确保角色动画的表现力和动态性。

这一研究对于头像视频生成领域具有重要意义，为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业，还可以在学术研究和教育培训等领域发挥重要作用。然而，需要注意的是，该框架目前仅用于学术研究和效果演示，还有待进一步优化和扩展其应用范围。

（举报）

相关推荐

关键词：

EMO
AI头条

见证巅峰对决，掠夺者携旗舰装备亮相IEM成都赛场

2025年IEM成都站总决赛在金融城演艺中心举行，宏碁掠夺者作为全球独家PC合作伙伴，为赛事提供高性能比赛设备，其全新IP多多DODO亮相见证。掠夺者通过顶尖硬件支持职业选手稳定发挥，并构建完整电竞生态：既赞助顶级职业赛事IEM，又举办大众赛事掠夺者联赛及女子电竞赛PL Girls，覆盖从职业到草根玩家。双十一期间推出战斧9、战斧Neo S、刀锋8三款主力设备，助力玩家征战赛场。

电竞英特尔极限大师赛掠夺者
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

本文系统介绍生成式引擎优化(GEO)的核心方法，帮助内容从“给人看”升级为“AI友好型”。关键策略包括：1.采用结构化写作框架，在开头设置可直接回答问题的“黄金段落”；2.运用分步清单、数据标注、FAQ等模块提升内容引用率；3.通过多平台同步分发增加曝光；4.使用AIBase等工具量化监测内容被AI引用的频率与场景，并给出5天落地执行表。

AI搜索友好型内容创作 GEO Generative
品牌在AI时代“隐形”？用GEO指数破解AI搜索曝光密码

文章探讨AI搜索时代品牌曝光新指标GEO指数，指出其通过可见度（品牌在AI回答中的出现概率）和曝光度（被提及总次数）衡量品牌在豆包、文心一言等主流AI模型中的存在感。以徕芬为例，其GEO得分仅33分，反映在AI搜索中存在感薄弱。随着超60%消费者决策参考AI推荐，GEO指数直接影响品牌流量获取。文章建议通过AIBase工具分三步优化：绑定品牌信息锚定监控范围、分析关键词关联度与竞品表现、针对性补充官网内容强化核心词布局，将AI搜索流量转化为品牌增长新引擎。

文章搜索核心标签 AI模型
荐AI漫剧，比短剧更短剧？

“是个人就能起飞的风口”，又来了。在短剧行业摸爬两年后，飞鸟再次感受到了熟悉的躁动。朋友圈、群聊、行业会都在谈论同一个词——“漫剧”。有人劝他趁早上车，理由几乎与当年如出一辙:“就像当时的短剧，是个人就能起飞。” 所谓漫剧，并没有统一的定义。它们形式多样:有的是用游戏编辑器生成的3D动画，有的是将平面漫画动态化，还有的直接以“熊猫头”等

漫剧短剧行业 3D动画
荐横扫拉美、力压字节系，「AI届的4399」成为出海AI应用新王？

在 Sensor Tower 发布的 Q3应用出海榜单中，我们注意到了一个特别的 AI 应用「Seekee」。它空降下载榜 Top9，是当季度在海外获得最多下载量的出海 AI 应用，而由字节跳动出品、近一段时间炙手可热的「Cici」尽管排名上涨，但仅位列第13。

AI应用出海榜单下载榜
AI时代，你的品牌不懂AI搜索监控，营销预算一半在打水漂

文章指出，AI搜索正重塑营销格局，品牌AI搜索监控成为决定品牌存亡的关键。它通过追踪品牌在各大AI模型中的提及、评价和推荐情况，帮助应对用户搜索习惯从关键词到对话式提问的转变。AIBase平台提供三步简易操作：设置监控目标、AI全域扫描、生成智能报告，助品牌快速掌握在AI世界的表现，抓住增长新机遇。

AI搜索监控品牌营销 SEO优化
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
AI搜索时代的品牌新战场:为什么你需要关注GEO指数和品牌AI搜索监控?

AI搜索时代催生全新品牌曝光指标GEO指数，用于衡量品牌在ChatGPT等AI问答中的提及率。该指数反映AI对品牌的认知度，需通过建立稳定、正向的内容矩阵来提升。AIBase平台可监控品牌在主流AI模型中的曝光表现，对比竞品数据，并智能分析用户高频问题类型，帮助品牌优化内容策略。高GEO指数不仅提升曝光，更积累品牌权威感与信任度，成为AI时代的"推荐力"量化指标。

GEO指数 AI搜索品牌曝光
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核

今日大家都在搜的词：

热文

3 天
7天

阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

见证巅峰对决，掠夺者携旗舰装备亮相IEM成都赛场

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

品牌在AI时代“隐形”？用GEO指数破解AI搜索曝光密码

荐AI漫剧，比短剧更短剧？

荐横扫拉美、力压字节系，「AI届的4399」成为出海AI应用新王？

AI时代，你的品牌不懂AI搜索监控，营销预算一半在打水漂

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

AI搜索时代的品牌新战场:为什么你需要关注GEO指数和品牌AI搜索监控?

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

今日大家都在搜的词：

热文

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

鸿蒙智行：智界R7累计交付量破10万台

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

何小鹏回应机器人IRON里是真人质疑：感谢认可

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

站长商机