首页 > 业界 > 关键词  > EMO最新资讯  > 正文

阿里推声画同步框架EMO 1张图片加音频即可生成对口型视频

2024-02-28 14:07 · 稿源:站长之家

要点:

  • 阿里提出了EMO框架,可根据单张图像和声音生成具有表情丰富的头像视频。

  • 方法包括两个主要阶段:帧编码和扩散过程,利用多种注意机制和时间模块实现头像生成。

  • EMO支持多语言歌曲和不同风格的头像生成,可应用于歌唱、对话和跨角色表演等领域。

站长之家(ChinaZ.com)2月28日 消息:近期,阿里巴巴智能计算研究所提出了一种新的生成式框架EMO,只需输入图片和音频即可生成具有表现力的视频,而且视频中的嘴型还可以与声音匹配。这项技术支持多语言、对话、唱歌以及快速语速的适配,但也可能成为造假的利器,因此一些名人可能需要警惕了。

该框架包含两个主要阶段,首先是帧编码阶段,利用ReferenceNet从参考图像和动作帧中提取特征;其次是扩散过程阶段,通过预训练的音频编码器处理声音嵌入,并结合多帧噪声和面部区域掩码来生成头像。在此过程中,采用了两种注意机制(参考注意和音频注意)和时间模块,以保持角色身份并调节运动速度。

image.png

项目地址:https://top.aibase.com/tool/emo

EMO不仅支持多语言歌曲和不同风格的头像生成,还可以处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同时长的视频,并保持角色的身份特征在长时间内的稳定性。此外,EMO还展示了在快节奏音乐中保持与音频同步的能力,确保角色动画的表现力和动态性。

这一研究对于头像视频生成领域具有重要意义,为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业,还可以在学术研究和教育培训等领域发挥重要作用。然而,需要注意的是,该框架目前仅用于学术研究和效果演示,还有待进一步优化和扩展其应用范围。

举报

  • 相关推荐
  • 见证巅峰对决,掠夺者携旗舰装备亮相IEM成都赛场

    2025年IEM成都站总决赛在金融城演艺中心举行,宏碁掠夺者作为全球独家PC合作伙伴,为赛事提供高性能比赛设备,其全新IP多多DODO亮相见证。掠夺者通过顶尖硬件支持职业选手稳定发挥,并构建完整电竞生态:既赞助顶级职业赛事IEM,又举办大众赛事掠夺者联赛及女子电竞赛PL Girls,覆盖从职业到草根玩家。双十一期间推出战斧9、战斧Neo S、刀锋8三款主力设备,助力玩家征战赛场。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 被AI引用才是真的流量:写出让GPT、Gemini主动引用的AI搜索友好型内容(实操清单 + 工具推荐)

    本文系统介绍生成式引擎优化(GEO)的核心方法,帮助内容从“给人看”升级为“AI友好型”。关键策略包括:1.采用结构化写作框架,在开头设置可直接回答问题的“黄金段落”;2.运用分步清单、数据标注、FAQ等模块提升内容引用率;3.通过多平台同步分发增加曝光;4.使用AIBase等工具量化监测内容被AI引用的频率与场景,并给出5天落地执行表。

  • 品牌在AI时代“隐形”?用GEO指数破解AI搜索曝光密码

    文章探讨AI搜索时代品牌曝光新指标GEO指数,指出其通过可见度(品牌在AI回答中的出现概率)和曝光度(被提及总次数)衡量品牌在豆包、文心一言等主流AI模型中的存在感。以徕芬为例,其GEO得分仅33分,反映在AI搜索中存在感薄弱。随着超60%消费者决策参考AI推荐,GEO指数直接影响品牌流量获取。文章建议通过AIBase工具分三步优化:绑定品牌信息锚定监控范围、分析关键词关联度与竞品表现、针对性补充官网内容强化核心词布局,将AI搜索流量转化为品牌增长新引擎。

  • AI漫剧,比短剧更短剧?

    “是个人就能起飞的风口”,又来了。 在短剧行业摸爬两年后,飞鸟再次感受到了熟悉的躁动。朋友圈、群聊、行业会都在谈论同一个词——“漫剧”。有人劝他趁早上车,理由几乎与当年如出一辙:“就像当时的短剧,是个人就能起飞。” 所谓漫剧,并没有统一的定义。它们形式多样:有的是用游戏编辑器生成的3D动画,有的是将平面漫画动态化,还有的直接以“熊猫头”等

  • 横扫拉美、力压字节系,「AI届的4399」成为出海AI应用新王?

    在 Sensor Tower 发布的 Q3应用出海榜单中,我们注意到了一个特别的 AI 应用「Seekee」。 它空降下载榜 Top9,是当季度在海外获得最多下载量的出海 AI 应用,而由字节跳动出品、近一段时间炙手可热的「Cici」尽管排名上涨,但仅位列第13。

  • ​AI时代,你的品牌不懂AI搜索监控,营销预算一半在打水漂

    文章指出,AI搜索正重塑营销格局,品牌AI搜索监控成为决定品牌存亡的关键。它通过追踪品牌在各大AI模型中的提及、评价和推荐情况,帮助应对用户搜索习惯从关键词到对话式提问的转变。AIBase平台提供三步简易操作:设置监控目标、AI全域扫描、生成智能报告,助品牌快速掌握在AI世界的表现,抓住增长新机遇。

  • AI日报:豆包视频1.0pro fast发布;谷歌Gemini新功能上线;百度推上体体育大模型 2.0

    本期AI日报聚焦多项技术突破:火山引擎发布豆包视频生成模型1.0pro+fast,速度提升3倍且价格下降72%;百度与上海体育大学推出“上体体育大模型2.0”,拓展AI在运动员训练等场景应用;谷歌Gemini新增一键生成PPT功能;美团发布LongCat-Video模型,支持5分钟连贯视频生成;xAI推出虚拟女友Mika引发热议;MiniMax开源高性能M2编码模型;OpenAI上线企业知识管理功能;另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万,展现年轻创业者的技术影响力。

  • ​AI搜索时代的品牌新战场:为什么你需要关注GEO指数和品牌AI搜索监控?

    AI搜索时代催生全新品牌曝光指标GEO指数,用于衡量品牌在ChatGPT等AI问答中的提及率。该指数反映AI对品牌的认知度,需通过建立稳定、正向的内容矩阵来提升。AIBase平台可监控品牌在主流AI模型中的曝光表现,对比竞品数据,并智能分析用户高频问题类型,帮助品牌优化内容策略。高GEO指数不仅提升曝光,更积累品牌权威感与信任度,成为AI时代的"推荐力"量化指标。

  • AI日报:广电整治AI动画乱象;360发布大模型安全白皮书;百度推出小度AI眼镜Pro

    国家广电总局宣布自2026年3月起全面整治AI生成内容,要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》,提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro,集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX,实现文本化语音编辑。Grok新增纯文本生成视频功能,17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠,并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型,优化开发者体验。

今日大家都在搜的词: