首页 > 传媒 > 关键词  > 正文

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

2025-03-21 17:05 · 稿源: 站长之家用户

近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR2025 公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。

Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

CVPR是人工智能领域较具学术影响力的优质会议之一,是中国计算机学会(CCF)推荐的A类国际学术会议。在谷歌学术指标 2024 年列出的全球最有影响力的科学期刊/会议中,CVPR位列总榜第2,仅次于Nature。

根据会议官方统计,本次CVPR2025 会议总投稿 13008 篇,录用 2878 篇,录用率仅为22.1%。相较 2023 年(25.8%)、 2024 年(23.6%),录用率的持续下降也凸显了CVPR不断严格的审核标准,以及论文入选竞争的逐年激烈。

对Soul而言,研究成果再次入选国际优质会议,证明了团队在AI领域,特别是多模态方向的自研能力受到行业和学术界认可。 2024 年,Soul多模态情感识别研究论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(《基于视觉语言提示与模态暂退的多模态情感识别》),入选ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM 2024)上组织的多模态与可靠性情感计算研讨会MRAC 24。而在人工智能领域优质的国际学术会议之一——国际人工智能联合会议组织的第二届多模态情感识别挑战赛(MER24)上,Soul技术团队还在SEMI(半监督学习)赛道获得首先名。

作为较早思考将AI应用于社交领域的平台, 2016 年Soul在上线后快速推出了基于AI算法的灵犀引擎,重构关系网络发现的新模式,受到了广大用户的热烈反馈,也坚定了平台对AI持续投入的发展路线。 2020 年Soul开始启动AIGC技术研发工作,在智能对话、语音、3D虚拟人等方面拥有前沿积累,并较早将重点聚焦在多模态方向。

自 2023 年推出自研语言大模型Soul X后,Soul已陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等语音大模型能力。目前,Soul AI大模型能力已整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,能够实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

在Soul看来,AI融入社交场景,除了需要AI介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,同时也需要AI作为交互对象向个体提供情绪价值。而这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,而这也是更接近真实社交互动的方式。

在近期接受媒体采访中,Soul App CTO陶明这样解释团队关注视觉交互的逻辑,“从交互的信息复杂度来讲,人和人面对面的沟通是信息传播方式最快的,也是最有效的一种。所以我们认为在线上人机交互的过程当中,需要有这样的表达方式。”

此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。在论文中核心介绍了Soul团队为提高视频生成效率以及生成效果的拟人性、自然度所提出的创新方法。

该论文的动机是解构diffusion-base的模型关键步骤,用LLM和1step-diffusion进行重构,融合视频模态,使SoulX大模型成为同时生成文字、语音、视频的Unified Model。

具体而言,将talking head任务分成FMLG(面部Motion生成)、ETM(有效身体Movement生成)模块。FMLG基于自回归语言模型,利用大模型的强大学习能力和有效的多样性采样能力,生成准确且多样的面部Motion。ETM则利用一步扩散,生成逼真的身体肌肉、饰品的运动效果。

实验结果表明,相比扩散模型,该方案的视频生成效率大幅提升,且从生成质量上来看,细微动作、面部身体动作协调度、自然度方面均有优异表现。

在Soul多模态大模型能力方向基础上,该方案的提出将有助于AI构建实时生成的“数字世界”,并且能够以生动的数字形象与用户进行自然的交互。

此前,Soul基于自身的多模态大模型能力上线了语音交互功能,受到了用户的热烈讨论和积极反馈。如今,从语音到视觉的模态升级,也意味着交互方式的颠覆式改变。

后续,Soul将把比较新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • 线下在左 Soul App在右:为何年轻人选择“不彻底”的亲密?

    文章探讨了当代年轻人社交方式的转变,通过内蒙古星空摄影师牧牧与网友的线上友谊案例,展现了Z世代"永不面基"的新型社交关系。这种关系既亲密又疏离,被称为"溏心蛋社交"——外层凝固的蛋白是安全边界,流动的溏心则是灵魂共鸣的温度。年轻人更倾向与"半熟"网友建立深度情感连接,通过"无声连麦"等低介入方式实现高共鸣。社交平台角�

  • 上海人民广播电台对话Soul App:AI时代,重新定义社交

    上海人民广播电台发起"新质生产力调研行"活动走进社交平台Soul App,探讨AI社交时代创新技术如何赋能关系体系、升级交互体验。作为AI社交领域代表,Soul App通过自研"灵犀引擎"智能推荐系统,运用AI技术分析用户行为数据,实现精准内容匹配。平台持续升级AI大模型能力,推出AI陪伴、AI聊天助手等功能,打造差异化社交体验。数据显示,国内AI情感陪伴产业规模快速增长,预计三年后将达近600亿元。Soul致力于构建"原生情绪价值第一模型",重点发展超拟人、多模态等能力,让AI实现自然流畅的情感交互。调研显示超八成年轻人通过AI辅助建立了真实社交关系。

  • 穿拖鞋办婚礼?Z 世代情侣流行在 Soul App 制造云端浪漫!

    Soul App用户"毛毛绒"和"小方"在相识五周年纪念日举办了一场特别的线上婚礼。这对情侣2018年在社交平台相识,疫情期间互相扶持,共同养宠物培养责任感,最终步入婚姻。他们在领证当天选择回到相识的平台,举办了一场没有繁文缛节的云婚礼,近2000名网友送上祝福。这反映了Z世代婚恋观:轻形式重情感,追求个性表达。数据显示,当代年轻人更重视婚姻中的精神契合,六成受访者认为领证是对伴侣的公开承诺。平台近年已促成超10万对情侣,见证着数字时代年轻人从"流程化仪式"到"个性化叙事"的婚恋方式变革。

  • 安卓/iOS双端无障碍适配覆盖核心社交社区场景,Soul App持续升级“数字盲道”

    社交平台Soul App在无障碍宣传日之际推出"被看见的无障碍"活动,倡导关注无障碍设施建设。数据显示我国残障人士总数达8591.4万,其中视力障碍者2856.5万。Soul自2022年起组建专项小组推进无障碍适配工作,目前已覆盖注册登录、内容发布、社交互动等核心场景,让视障用户也能流畅使用平台。平台通过技术创新构建无障碍交互空间,获评"人民企业社会责任奖"等荣誉。未来将持续优化信息无障碍环境,从可用到易用,实现更自然流畅的无障碍社交体验。

  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • Check Point: 2025年,勒索软件将愈演愈烈

    勒索软件威胁持续升级,已从简单的文件加密演变为复杂的多阶段攻击。2024年勒索软件攻击创纪录,数据泄露网站公布2289名受害者,同比增长126%。新型勒索软件即服务(RaaS)模式降低犯罪门槛,46个新勒索集团涌现,活跃组织增加48%。AI技术被用于生成恶意软件和钓鱼诱饵,使攻击更智能快速。美国仍是主要目标,占全球案例50.2%。企业需采取零信任架构、供应链加固、AI防御等措施应对。数据盗窃成为勒索新手段,心理操控日益重要。勒索软件已不仅是技术问题,更是业务连续性挑战,领导者需像重视财务健康一样重视网络安全准备。

  • 2025过半,“爱优腾”没有赢家?

    2025年过半,上半年,“爱优腾”三家在有效播剧上各有千秋,都有不同出圈程度的爆款剧集,《无忧渡》《折腰》《藏海传》先后成为流量收割机。更早之前,还有《宴回时》《难哄》《漂白》等剧集刷屏。 不过,如果从数据维度进行排名的话,还是能分出伯仲。从播放量、市占率、集均播放等关键指标来看,上半年剧王应该毫无争议当属优酷的男频权谋剧《藏海传》。市�

  • SID 2025丨天马荣获“People's Choice Awards”三项大奖

    2025年5月15日,天马在SID Display Week展会上斩获三项"Peoples Choice Awards"大奖。获奖产品包括:全球首款三合一光感功能屏6.51"HOI AM-OLED,创新整合指纹识别、色温感知与寿命监控功能;12.3"LuminoWood隐私显示屏,实现全视角防窥与仿木纹装饰完美融合;16"WQXGA 1-360Hz氧化物显示屏,以行业最广刷新率范围实现超低功耗与电竞级性能。这些创新产品展现了天马在显示技术领域的领先实力,覆盖手机、车载、IT等多场景应用,彰显中国"好屏"技术的全球竞争力。

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。