首页 > 传媒 > 关键词  > 正文

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

2025-03-21 17:05 · 稿源: 站长之家用户

近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR2025 公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。

Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

CVPR是人工智能领域较具学术影响力的优质会议之一,是中国计算机学会(CCF)推荐的A类国际学术会议。在谷歌学术指标 2024 年列出的全球最有影响力的科学期刊/会议中,CVPR位列总榜第2,仅次于Nature。

根据会议官方统计,本次CVPR2025 会议总投稿 13008 篇,录用 2878 篇,录用率仅为22.1%。相较 2023 年(25.8%)、 2024 年(23.6%),录用率的持续下降也凸显了CVPR不断严格的审核标准,以及论文入选竞争的逐年激烈。

对Soul而言,研究成果再次入选国际优质会议,证明了团队在AI领域,特别是多模态方向的自研能力受到行业和学术界认可。 2024 年,Soul多模态情感识别研究论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(《基于视觉语言提示与模态暂退的多模态情感识别》),入选ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM 2024)上组织的多模态与可靠性情感计算研讨会MRAC 24。而在人工智能领域优质的国际学术会议之一——国际人工智能联合会议组织的第二届多模态情感识别挑战赛(MER24)上,Soul技术团队还在SEMI(半监督学习)赛道获得首先名。

作为较早思考将AI应用于社交领域的平台, 2016 年Soul在上线后快速推出了基于AI算法的灵犀引擎,重构关系网络发现的新模式,受到了广大用户的热烈反馈,也坚定了平台对AI持续投入的发展路线。 2020 年Soul开始启动AIGC技术研发工作,在智能对话、语音、3D虚拟人等方面拥有前沿积累,并较早将重点聚焦在多模态方向。

自 2023 年推出自研语言大模型Soul X后,Soul已陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等语音大模型能力。目前,Soul AI大模型能力已整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,能够实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

在Soul看来,AI融入社交场景,除了需要AI介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,同时也需要AI作为交互对象向个体提供情绪价值。而这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,而这也是更接近真实社交互动的方式。

在近期接受媒体采访中,Soul App CTO陶明这样解释团队关注视觉交互的逻辑,“从交互的信息复杂度来讲,人和人面对面的沟通是信息传播方式最快的,也是最有效的一种。所以我们认为在线上人机交互的过程当中,需要有这样的表达方式。”

此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。在论文中核心介绍了Soul团队为提高视频生成效率以及生成效果的拟人性、自然度所提出的创新方法。

该论文的动机是解构diffusion-base的模型关键步骤,用LLM和1step-diffusion进行重构,融合视频模态,使SoulX大模型成为同时生成文字、语音、视频的Unified Model。

具体而言,将talking head任务分成FMLG(面部Motion生成)、ETM(有效身体Movement生成)模块。FMLG基于自回归语言模型,利用大模型的强大学习能力和有效的多样性采样能力,生成准确且多样的面部Motion。ETM则利用一步扩散,生成逼真的身体肌肉、饰品的运动效果。

实验结果表明,相比扩散模型,该方案的视频生成效率大幅提升,且从生成质量上来看,细微动作、面部身体动作协调度、自然度方面均有优异表现。

在Soul多模态大模型能力方向基础上,该方案的提出将有助于AI构建实时生成的“数字世界”,并且能够以生动的数字形象与用户进行自然的交互。

此前,Soul基于自身的多模态大模型能力上线了语音交互功能,受到了用户的热烈讨论和积极反馈。如今,从语音到视觉的模态升级,也意味着交互方式的颠覆式改变。

后续,Soul将把比较新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • Soul App联合上海市青少年研究中心发布《2025 Z世代双十一消费行为报告》:大促参与度再提升,超9成年轻人快乐买买买

    《2025Z世代双十一消费行为报告》显示,双十一已从购物节演变为融合消费、文化与社交的年度盛事。超九成Z世代参与大促,消费信心增强,约四成年轻人增加预算。AI技术重塑购物体验,七成认可AI+电商应用。消费热点转向情绪价值,旅行类消费占比最高(36.9%),文化消费显著(21.4%)。线下渠道受关注,超七成年轻人参与实体活动。国货品牌持续受青睐,消费选择更理性,呈现“热情参与、理性决策”特征。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 低空+发展研究报告(2025年)

    上海财经大学数字经研院近日发布《低空+发展研究报告(2025年)》。报告梳理我国低空经济发展现状,提出六要素发展框架,涵盖工业、测绘、物流、文旅、应急救援及城市治理等多元应用场景。报告指出低空经济正与各领域深度融合,成为继“互联网+”“AI+”后的新经济形态,但也面临空域管理改革滞后、基础设施薄弱、核心技术依赖度高、政策协同不足及商业模式不成熟等五大瓶颈。针对人工智能时代发展需求,报告建议加快低空领域改革、建立AI调度体系、突破关键技术、完善产业生态,预计到2035年市场规模将达4万亿元。

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 信锐助力TCL获 “2025中国IDC未来企业大奖联接领军者”优秀奖!

    10月17日,TCL空调办公网络智能连接与体验升级项目在IDC中国CIO峰会获“2025未来企业连接领军者”优秀奖。该项目依托信锐“AI+网络自动驾驶”理念,通过全网智能2.0与小信GPT方案重构企业网络管理模式,实现从感知、分析到决策的智能闭环,助力TCL实现20+维度数据采集、7*24小时AI调优及自然语言交互运维,推动企业数字化转型升级。

  • 对焦稳+人像优+便携强!2025年5款外观好看微单盘点

    文章推荐五款适合内容创作者的微单相机,重点介绍佳能R50V。该机型具备快速精准对焦、智能追踪、323克轻巧机身、自然肤色还原及双色时尚设计,支持6K超采样4K视频,画质出色。其他推荐包括佳能R50、索尼ZV-1、富士X-T30II和尼康Z50,均兼顾便携性与专业性能,满足Vlog、旅拍、直播等需求,助用户轻松创作高质量作品。

  • 首次参赛即获佳绩,易鑫摘得2025“直通乌镇”全球互联网大赛一等奖

    11月9日,2025年“直通乌镇”全球互联网大赛总决赛颁奖典礼圆满落幕。首次参赛的易鑫(02858.HK)凭借自主研发的一站式汽车金融AI智能服务解决方案“易鑫智服”,成功斩获一等奖。易鑫获得2025“直通乌镇”全球互联网大赛一等奖“直通乌镇”是世界互联网大会乌镇峰会的重要板块之一,此次大赛吸引了全球29个国家和地区的1082个优质项目参赛。经过层层选拔,易鑫摘得一�

  • 5.22万人潮涌动,超千万次云端围观!CEIC 2025圆满落幕!

    11月8日,为期三天的科技狂欢在深圳圆满落幕。大会吸引全球5.22万人次到访及云端超千万次关注,聚焦智能生活、产业创新、数字健康三大议题,通过16场分论坛及30余场专题会议深入探讨AI赋能消费电子趋势。华为、荣耀等企业展示了折叠屏、全屋智能等创新产品,裸眼3D、智能座舱等技术让未来科技触手可及。大会推动技术、产业与资本对接,构建开放协作的产业新生态,彰显中国消费电子创新活力与全球影响力。

  • 饿了么APP更名为淘宝闪购 版本号升级至12.0.2

    饿了么App正式升级为淘宝闪购,版本号12.0.2,打通天猫旗舰店与饿了么货盘资源,推出“电商低至30分钟送达”极速服务,覆盖餐饮、3C数码、美妆等全品类商品。升级后与饿了么携手加大补贴力度,提供免单红包、免单奶茶、大额满减外卖券等超级权益,并加入今年天猫双11活动,88VIP用户可获红包惊喜、折上折等福利,提升消费者购物体验与实惠。

今日大家都在搜的词: