首页 > 传媒 > 关键词  > 正文

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

2025-03-21 17:05 · 稿源: 站长之家用户

近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR2025 公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。

Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

CVPR是人工智能领域较具学术影响力的优质会议之一,是中国计算机学会(CCF)推荐的A类国际学术会议。在谷歌学术指标 2024 年列出的全球最有影响力的科学期刊/会议中,CVPR位列总榜第2,仅次于Nature。

根据会议官方统计,本次CVPR2025 会议总投稿 13008 篇,录用 2878 篇,录用率仅为22.1%。相较 2023 年(25.8%)、 2024 年(23.6%),录用率的持续下降也凸显了CVPR不断严格的审核标准,以及论文入选竞争的逐年激烈。

对Soul而言,研究成果再次入选国际优质会议,证明了团队在AI领域,特别是多模态方向的自研能力受到行业和学术界认可。 2024 年,Soul多模态情感识别研究论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(《基于视觉语言提示与模态暂退的多模态情感识别》),入选ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM 2024)上组织的多模态与可靠性情感计算研讨会MRAC 24。而在人工智能领域优质的国际学术会议之一——国际人工智能联合会议组织的第二届多模态情感识别挑战赛(MER24)上,Soul技术团队还在SEMI(半监督学习)赛道获得首先名。

作为较早思考将AI应用于社交领域的平台, 2016 年Soul在上线后快速推出了基于AI算法的灵犀引擎,重构关系网络发现的新模式,受到了广大用户的热烈反馈,也坚定了平台对AI持续投入的发展路线。 2020 年Soul开始启动AIGC技术研发工作,在智能对话、语音、3D虚拟人等方面拥有前沿积累,并较早将重点聚焦在多模态方向。

自 2023 年推出自研语言大模型Soul X后,Soul已陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等语音大模型能力。目前,Soul AI大模型能力已整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,能够实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

在Soul看来,AI融入社交场景,除了需要AI介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,同时也需要AI作为交互对象向个体提供情绪价值。而这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,而这也是更接近真实社交互动的方式。

在近期接受媒体采访中,Soul App CTO陶明这样解释团队关注视觉交互的逻辑,“从交互的信息复杂度来讲,人和人面对面的沟通是信息传播方式最快的,也是最有效的一种。所以我们认为在线上人机交互的过程当中,需要有这样的表达方式。”

此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。在论文中核心介绍了Soul团队为提高视频生成效率以及生成效果的拟人性、自然度所提出的创新方法。

该论文的动机是解构diffusion-base的模型关键步骤,用LLM和1step-diffusion进行重构,融合视频模态,使SoulX大模型成为同时生成文字、语音、视频的Unified Model。

具体而言,将talking head任务分成FMLG(面部Motion生成)、ETM(有效身体Movement生成)模块。FMLG基于自回归语言模型,利用大模型的强大学习能力和有效的多样性采样能力,生成准确且多样的面部Motion。ETM则利用一步扩散,生成逼真的身体肌肉、饰品的运动效果。

实验结果表明,相比扩散模型,该方案的视频生成效率大幅提升,且从生成质量上来看,细微动作、面部身体动作协调度、自然度方面均有优异表现。

在Soul多模态大模型能力方向基础上,该方案的提出将有助于AI构建实时生成的“数字世界”,并且能够以生动的数字形象与用户进行自然的交互。

此前,Soul基于自身的多模态大模型能力上线了语音交互功能,受到了用户的热烈讨论和积极反馈。如今,从语音到视觉的模态升级,也意味着交互方式的颠覆式改变。

后续,Soul将把比较新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • Soul App Q3生态安全报告:以科技力量守护真实社交

    Soul App发布《2025年第三季度生态安全报告》,聚焦社交平台安全治理。平台通过“技术+制度+教育”三维体系,在AI风控、反欺诈、未成年人保护及违规内容治理等领域取得进展:AI反欺诈模型误伤率降80%,高风险人设识别覆盖率达70%;处置违规账号30.6万个,日均拦截违规内容超2.6万条;强化未成年人保护,自动切换青少年模式。同时推进社区共治,超7.8万用户参与内容共建,形成安全生态良性循环。

  • 2025 PMI项目管理大会|多个活动板块首发,早鸟报名通道开启

    自2008年起,PMI项目管理大会汇聚数百位国内外顶尖企业代表、行业领袖与专家,分享洞见与实践,启发数十万参与者。当前,生成式AI、大数据等前沿科技正重塑商业生态与项目管理模式。2025年大会以“智驱万象,项启新篇”为主题,聚焦科技带来的颠覆性变革与机遇,通过行业趋势、跨界交流等多维度活动,打造最具影响力的共创平台,推动合作突破边界。报名已开启,微信搜索“2025PMI项目管理大会”即可参与。

  • 连续三年折桂!瓴羊Dataphin荣膺2025年度DAMA数据治理优秀产品奖!

    2025全球数据管理峰会以“数据×人工智能”为主题,聚焦行业最佳实践,构建从理念探讨到技术落地的完整交流链。会上,瓴羊与DAMA联合发布数据治理实践证书体系,覆盖数据分析等认证,旨在提升全民数据素养。瓴羊副总裁王赛提出Data与AI双向赋能重构企业数字化生产力,强调未来系统需支持自主决策与自动化执行。以快消品牌为例,通过Quick BI智能分析工具实现业务效率提升。瓴羊Dataphin平台助力企业构建AI友好型数据模型,连续三年获“数据治理优秀产品”大奖,提供全链路数据服务,加速释放数据价值。

  • 科学营养获国际认可,inne因你再度斩获2025 Nourish Awards大奖

    德国儿童营养品牌inne在2025年欧洲营养健康权威奖项Nourish Awards中再获殊荣,旗下明星产品小金条钙镁锌获儿童营养品金奖,鼻敏益生素获银奖。这是该品牌连续第三年蝉联该奖项,彰显其科研实力与产品创新力。Nourish Awards以独立严谨的评审体系著称,覆盖产品创新性、营养价值及安全性等维度。inne通过全球五大研发中心和国际科研机构,持续推动儿童营养科研创新,近期还亮相欧洲最大医药展expopharm2025,获国内外主流媒体关注。品牌表示未来将继续以科学创新为核心,坚守临床实证金标准,践行全球儿童健康使命。

  • 生成式引擎优化(GEO)是什么?2025 年最值得关注的内容流量新入口

    2025年,用户正从点击链接转向直接向AI提问,生成式引擎优化(GEO)成为流量新入口。GEO旨在让AI在回答时主动推荐品牌,不同于传统SEO的关键词排名。企业需确保内容被AI准确理解并引用,否则将在用户认知中“消失”。领先者已通过批量生成AI友好内容抢占曝光先机。建议结合SEO与GEO双引擎驱动增长,并利用工具监测品牌在AI回答中的可见度。

  • 共谋出海增长,掌慧科技邀您GICC 2025 展位V15见证出海营销新动能

    第六届全球互联网产业CEO大会(GICC2025)将于10月23日开幕,主题为“与世界共振”。大会由扬帆出海主办,预计汇聚4500余名出海精英与行业领袖,探讨全球化发展路径。掌慧科技HuiiMedia将参展并重点展示其程序化广告平台HuiiNex,该平台通过智能算法为游戏、电商等领域提供用户增长解决方案。大会设置主峰会、分论坛等环节,聚焦社交、AI等出海核心议题,诚邀行业同仁共探智能营销新动能。

  • 新王加冕,神装加持!AGON爱攻见证Legacy问鼎CAC 2025

    10月19日,CAC2025反恐精英亚洲邀请赛落幕,Legacy战队以3:2战胜3DMAX,夺得百万美元冠军。比赛历经五局激战,双方展现顶尖战术与顽强意志。Legacy凭借团队协作首夺国际大赛桂冠,巴西选手latto荣膺MVP。官方合作伙伴AGON爱攻为赛事提供定制显示器CS24A,以610Hz超高刷新率等技术助力选手发挥,并打造沉浸式互动展区,通过粉丝签名会、主题周边等活动连接选手与观众,推动电竞全民化发展。

  • “2025身份识别技术大会”在深圳成功举办

    2025年10月16日,由多维身份识别与可信认证技术国家工程研究中心主办、大唐微电子技术有限公司承办的“2025身份识别技术大会”在深圳召开。大会以“新时代身份识别技术护航国家高质量发展”为主题,汇聚500余位行业权威机构、科技企业代表及专家学者,围绕法定证件技术40年成就、人工智能与区块链等新兴技术在身份识别领域的融合创新等议题展开研讨。会议同步举办“国家法定证件技术40年成就展”,发布22家创新合作单位名录,旨在加强行业协作、推动技术成果转化,为构建平安中国、数字中国提供支撑。

  • 会玩App携手顶流IP奶龙,打造萌趣社交新体验

    会玩App与国民IP奶龙展开为期三周深度合作,推出横跨国庆中秋的特别活动。通过上线“奶龙岛”虚拟场景、限定饰品及分阶段玩法,结合“治愈相伴”理念与年轻群体精准触达,吸引大量用户参与。此次合作验证了“IP+社交”模式潜力,平台正将热点活动沉淀为可持续品牌认知,逐步形成差异化优势。

  • 鲁大师2025年PC Q3季报:将阉割进行到底

    2025年第三季度PC市场整体平稳:Intel Ultra系列在中端普及,酷睿Ultra 9285HX移动处理器性能逼近桌面版;NVIDIA推出中国特供版RTX 5090D V2,显存与位宽缩减,游戏性能降5-10%;AMD发布RX 9070 GRE,显存扩至16GB。DDR5全面取代DDR4,因停产刺激涨价,32GB成主流。固态硬盘竞争激烈,致态TiPro9000跌出榜首。笔记本性能榜由机械革命旷世16 Ultra领跑。市场缺乏升级亮点,或待双11促销刺激需求。

今日大家都在搜的词: