首页 > 传媒 > 关键词  > 正文

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

2025-03-21 17:05 · 稿源: 站长之家用户

近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR2025 公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。

Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

CVPR是人工智能领域较具学术影响力的优质会议之一,是中国计算机学会(CCF)推荐的A类国际学术会议。在谷歌学术指标 2024 年列出的全球最有影响力的科学期刊/会议中,CVPR位列总榜第2,仅次于Nature。

根据会议官方统计,本次CVPR2025 会议总投稿 13008 篇,录用 2878 篇,录用率仅为22.1%。相较 2023 年(25.8%)、 2024 年(23.6%),录用率的持续下降也凸显了CVPR不断严格的审核标准,以及论文入选竞争的逐年激烈。

对Soul而言,研究成果再次入选国际优质会议,证明了团队在AI领域,特别是多模态方向的自研能力受到行业和学术界认可。 2024 年,Soul多模态情感识别研究论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(《基于视觉语言提示与模态暂退的多模态情感识别》),入选ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM 2024)上组织的多模态与可靠性情感计算研讨会MRAC 24。而在人工智能领域优质的国际学术会议之一——国际人工智能联合会议组织的第二届多模态情感识别挑战赛(MER24)上,Soul技术团队还在SEMI(半监督学习)赛道获得首先名。

作为较早思考将AI应用于社交领域的平台, 2016 年Soul在上线后快速推出了基于AI算法的灵犀引擎,重构关系网络发现的新模式,受到了广大用户的热烈反馈,也坚定了平台对AI持续投入的发展路线。 2020 年Soul开始启动AIGC技术研发工作,在智能对话、语音、3D虚拟人等方面拥有前沿积累,并较早将重点聚焦在多模态方向。

自 2023 年推出自研语言大模型Soul X后,Soul已陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等语音大模型能力。目前,Soul AI大模型能力已整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,能够实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

在Soul看来,AI融入社交场景,除了需要AI介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,同时也需要AI作为交互对象向个体提供情绪价值。而这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,而这也是更接近真实社交互动的方式。

在近期接受媒体采访中,Soul App CTO陶明这样解释团队关注视觉交互的逻辑,“从交互的信息复杂度来讲,人和人面对面的沟通是信息传播方式最快的,也是最有效的一种。所以我们认为在线上人机交互的过程当中,需要有这样的表达方式。”

此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。在论文中核心介绍了Soul团队为提高视频生成效率以及生成效果的拟人性、自然度所提出的创新方法。

该论文的动机是解构diffusion-base的模型关键步骤,用LLM和1step-diffusion进行重构,融合视频模态,使SoulX大模型成为同时生成文字、语音、视频的Unified Model。

具体而言,将talking head任务分成FMLG(面部Motion生成)、ETM(有效身体Movement生成)模块。FMLG基于自回归语言模型,利用大模型的强大学习能力和有效的多样性采样能力,生成准确且多样的面部Motion。ETM则利用一步扩散,生成逼真的身体肌肉、饰品的运动效果。

实验结果表明,相比扩散模型,该方案的视频生成效率大幅提升,且从生成质量上来看,细微动作、面部身体动作协调度、自然度方面均有优异表现。

在Soul多模态大模型能力方向基础上,该方案的提出将有助于AI构建实时生成的“数字世界”,并且能够以生动的数字形象与用户进行自然的交互。

此前,Soul基于自身的多模态大模型能力上线了语音交互功能,受到了用户的热烈讨论和积极反馈。如今,从语音到视觉的模态升级,也意味着交互方式的颠覆式改变。

后续,Soul将把比较新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 何以“解忧”——Soul App“解忧房”,让心事不再沉重

    文章聚焦当代年轻人面临的心理压力与情感困扰,介绍了Soul App上三种不同风格的"解忧房":刘健的"恋爱大师"以犀利分析见长,提供直接解决方案;"德芬妮姑姑"营造温暖客厅氛围,专注倾听与陪伴;"秋月老师"则开设心理课堂,培养用户自我觉察能力。这些线上空间通过匿名机制和语音互动,为用户提供情感支持、归属感和成长机会,展现了Soul平台在满足都市青年心理需求方面的独特价值,成为他们短暂停靠、获取力量的心灵港湾。

  • inne因你携新品视立棒亮相2025国际眼科学学术会议,重磅发布临床成果

    第25届环球科学峰会聚焦全球科学前沿,吸引多国科学家参与,探讨视力健康与保护新方法。研究显示特定护眼产品能显著改善儿童视力及对比敏感度等指标,获专家高度评价。该成果基于严谨的临床试验,为学龄儿童视力保健提供创新解决方案。此外,与上海同济医院合作的研究也取得进展,表明特定护眼补充剂对青少年视力有益。

  • 有趣灵魂藏不住!祝绪丹担任Soul App品牌大使

    祝绪丹在《半熟恋人4》里又出圈了。作为SoulApp品牌大使,祝绪丹有着一颗有趣的灵魂。如果你也想遇见有趣的灵魂,就来Soul吧。

  • Soul App发起“职场妙计”活动,帮助年轻人职场人际破冰

    Soul App成为330万职场人的"深夜树洞",通过"职场妙计"等活动帮助用户突破职业困境。北京师范大学钱婧教授指出,建立在共同成长基础上的职场关系互助转化率高达67%,远超物质维系的12%。平台用户通过知识共享建立信任网络,如某产品经理分享的"敏捷开发避坑指南"被下载超2万次,助其获得跨部门推荐。Soul从社交工具进化为成长伙伴,通过群聊房"职场急诊"等场景实现即时智慧流动,重构职场学习场景。AI技术匹配、社群关系、内容养分共同培育适应液态职场的生存能力,为探索者提供"数字地图",在连接中成就独特价值轨迹。

  • Soul发布《2025年Z世代新职业洞察报告》,描绘Z世代新职业版图,告别传统束缚

    Soul App研究院发布的《2025年Z世代新职业洞察报告》显示,Z世代对新兴职业展现出多元化态度。40%受访者对心理健康与情感陪伴类职业最感兴趣,12%从业者已实现月入过万。Z世代更青睐时间自由、创意自由的职业模式,近半数认为"铁饭碗"吸引力强但非首选。超三成Z世代已参与新职业实践,其中15%全职从事。报告指出,Z世代能接受收入波动风险,88%受访者持开放态度。他们主要通过社交平台获取职业技能,48%使用AI工具辅助学习。Z世代正在重塑职场格局,推动更个性化、灵活多元的职业新时代到来。

  • 谷歌Gemini整合Veo 2视频生成模型,8秒720P视频轻松搞定

    谷歌宣布又有一款 AI 模型将加入 Gemini,但这次它不仅仅是一个聊天机器人。

  • 得到发布“2025春季AI产品好用榜”,WPS AI评“最强笔杆子”

    4月2日,得到App联合创始人快刀青衣通过直播发布了《2025春季AI产品好用榜》。438位来自AI学习圈的AI评测官,通过深度体验,共创超30万字真实使用评价,最终筛选出6款真正好用的AI工具。金山办公在战略上“AllInAI”,逐步探索出“研发驱动自主创新生态构建”的发展模式,以创新驱动产品迭代升级,打造更贴合用户需求的产品体系。

  • 爱聊APP 2025年第 一季度“净网行动”公示 精细化生态内容治理

    在数字经济与社交需求深度融合的背景下,爱聊APP始终坚持以用户安全为核心,通过技术赋能、生态共治、政策合规三大维度,持续推进“净网行动”常态化治理。2025 年第 一季度,平台累计处理违规案例108, 662 例,禁言处罚27, 258 例,封禁账号23, 951 例,永 久封禁账号57, 453 例,全方位构筑社交安全屏障,为用户打造真实、可靠的社交环境。深化实名认证与反诈攻坚爱�

  • 大金清研亮相2025上海国际半导体展览会,DUPRA全氟醚橡胶密封圈产品关注

    中国本土化先进半导体密封材料解决方案供应商大金清研受邀参加了2025上海国际半导体展览会,与众多科技企业与行业领袖一起,共同分享全球产业格局、前沿技术与市场走势。大金清研先进科技有限公司展示了其为中国半导体工厂和半导体设备制造工厂客户打造的一站式解决方案,覆盖原材料聚合物、混炼胶配方开发到全氟醚橡胶密封圈O-ring成型生产及应用。期待大金清研携手更多行业同仁,持续创新,为中国半导体国产化发展做出更多贡献。

  • 2025Q1鲁大师PC排行榜:新品井喷,格局重塑

    2025年第一季度,电脑硬件市场迎来了一轮产品更新换代,各大厂商为抢占市场份额,纷纷发布新品,促使市场格局发生显著变化。通过鲁大师等专业数据统计平台,对2025年1月1日至3月30日的海量用户数据进行分析,能够全面、深入地洞察各类硬件的性能表现,准确把握市场趋势走向。各类硬件均朝着高性能、低功耗的方向发展,为消费者带来了更丰富的选择和更优质的体验。