首页 > 传媒 > 关键词  > 正文

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

2025-03-21 17:05 · 稿源: 站长之家用户

近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR2025 公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。

Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

CVPR是人工智能领域较具学术影响力的优质会议之一,是中国计算机学会(CCF)推荐的A类国际学术会议。在谷歌学术指标 2024 年列出的全球最有影响力的科学期刊/会议中,CVPR位列总榜第2,仅次于Nature。

根据会议官方统计,本次CVPR2025 会议总投稿 13008 篇,录用 2878 篇,录用率仅为22.1%。相较 2023 年(25.8%)、 2024 年(23.6%),录用率的持续下降也凸显了CVPR不断严格的审核标准,以及论文入选竞争的逐年激烈。

对Soul而言,研究成果再次入选国际优质会议,证明了团队在AI领域,特别是多模态方向的自研能力受到行业和学术界认可。 2024 年,Soul多模态情感识别研究论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(《基于视觉语言提示与模态暂退的多模态情感识别》),入选ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM 2024)上组织的多模态与可靠性情感计算研讨会MRAC 24。而在人工智能领域优质的国际学术会议之一——国际人工智能联合会议组织的第二届多模态情感识别挑战赛(MER24)上,Soul技术团队还在SEMI(半监督学习)赛道获得首先名。

作为较早思考将AI应用于社交领域的平台, 2016 年Soul在上线后快速推出了基于AI算法的灵犀引擎,重构关系网络发现的新模式,受到了广大用户的热烈反馈,也坚定了平台对AI持续投入的发展路线。 2020 年Soul开始启动AIGC技术研发工作,在智能对话、语音、3D虚拟人等方面拥有前沿积累,并较早将重点聚焦在多模态方向。

自 2023 年推出自研语言大模型Soul X后,Soul已陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等语音大模型能力。目前,Soul AI大模型能力已整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,能够实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

在Soul看来,AI融入社交场景,除了需要AI介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,同时也需要AI作为交互对象向个体提供情绪价值。而这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,而这也是更接近真实社交互动的方式。

在近期接受媒体采访中,Soul App CTO陶明这样解释团队关注视觉交互的逻辑,“从交互的信息复杂度来讲,人和人面对面的沟通是信息传播方式最快的,也是最有效的一种。所以我们认为在线上人机交互的过程当中,需要有这样的表达方式。”

此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。在论文中核心介绍了Soul团队为提高视频生成效率以及生成效果的拟人性、自然度所提出的创新方法。

该论文的动机是解构diffusion-base的模型关键步骤,用LLM和1step-diffusion进行重构,融合视频模态,使SoulX大模型成为同时生成文字、语音、视频的Unified Model。

具体而言,将talking head任务分成FMLG(面部Motion生成)、ETM(有效身体Movement生成)模块。FMLG基于自回归语言模型,利用大模型的强大学习能力和有效的多样性采样能力,生成准确且多样的面部Motion。ETM则利用一步扩散,生成逼真的身体肌肉、饰品的运动效果。

实验结果表明,相比扩散模型,该方案的视频生成效率大幅提升,且从生成质量上来看,细微动作、面部身体动作协调度、自然度方面均有优异表现。

在Soul多模态大模型能力方向基础上,该方案的提出将有助于AI构建实时生成的“数字世界”,并且能够以生动的数字形象与用户进行自然的交互。

此前,Soul基于自身的多模态大模型能力上线了语音交互功能,受到了用户的热烈讨论和积极反馈。如今,从语音到视觉的模态升级,也意味着交互方式的颠覆式改变。

后续,Soul将把比较新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • CVPR2025:快手可灵四大技术方向布局视频生成及世界模型

    面向用户意图理解,可灵团队提出的Any2Caption按照一种统一的方式理解多模态用户输入信息,进而生成语义丰富的结构化描述,可显著提升视频生成的成功率……

  • 国际殊荣|中科慧远斩获CVPR 2025工业视觉异常检测挑战赛冠军

    中科慧远视觉技术在CVPR2025工业视觉异常检测挑战赛中夺冠。其创新方案"少样本学习下的逻辑与结构缺陷异常检测方法"融合CLIP、DINOv2和BEIT多模态特征,采用免训练架构和零样本学习技术,最终以0.936的Avg Image Score创下赛会最佳成绩。这是继2023年获奖后,该公司再次在国际计算机视觉顶级会议斩获殊荣,彰显了其在工业AI质检领域的技术实力。作为国内工业AI质检先行者,中科慧远持续深耕多模态大模型技术,其解决方案已在3C电子、半导体晶圆等制造领域积累丰富经验。未来公司将继续突破小样本学习等关键技术,为全球制造业智能化转型提供更精准的AI质检方案。

  • Soul App:以AI为驱动,构建多元社交生态

    Soul App是中国首个基于虚拟形象进行社交互动的平台,致力于打造温暖多元的社交空间。平台通过兴趣图谱建立关系,采用游戏化设计,主张不看脸的灵魂社交。近年来,Soul持续创新AI技术应用,推出自研语言大模型Soul X和语音生成模型,实现更真实的交互体验。2024年升级为多模态端到端大模型,支持文字对话、语音通话等功能。同时推出"数字分身"等创新功能,帮助用户高效社交。平台还通过主题群聊派对、瞬间广场等多元场景满足年轻人社交需求,并积极履行社会责任,打造健康文明的社交环境。

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • 明略科技研究成果被ACM MM 2025接收,攻克个性化注视点预测难题

    明略科技与北京大学、吉林大学合作研发的PRE-MAP模型被ACM MM2025接收。该研究针对现有视觉注意力模型在个性化注视点预测中的局限性,提出新方法PRE-MAP和大规模多模态数据集SPA-ADV,能更好捕捉个体差异并提升高分辨率视频中的多属性注视点预测精度。该成果是明略科技在AI大模型应用领域的又一突破,此前其超图多模态大模型(HMLLM)曾获ACM MM2024最佳论文提名。研究团队通过4500名不同背景用户的真实视觉行为数据,结合多模态大模型技术,实现了"某类人会看哪里"的精准预测,为广告创意优化和投放效果评估提供科学依据。

  • Soul App全双工语音大模型升级,让AI在交互中拥有“主动性”

    社交平台Soul App近日升级端到端全双工语音通话大模型,重新定义"全双工"交互模式。新模型突破传统语音交互依赖VAD机制与延迟控制逻辑的局限,赋予AI自主决策对话节奏的能力,实现主动打破沉默、适时打断用户、边听边说、时间语义感知等类人交互体验。同时具备多维度感知、口语化表达、音色复刻等功能,让AI更具"真人感"。该技术将应用于虚拟人实时通话、AI匹配1V1互动等场景,并探索多人互动场景应用。Soul CTO陶明表示,社交是情绪价值和信息价值的双向关系,平台将持续通过技术创新为用户提供更智能、沉浸的社交体验。数据显示,71.1%年轻人愿意和AI做朋友建立情感连接,AI社交正成为重要趋势。

  • SIGMOD评审团评价:源于真实业务的突破!腾讯云TDSQL研究成果入选国际顶会

    腾讯云数据库TDSQL团队在ACM SIGMOD 2025发表论文,提出创新性"热点数据"高并发解决方案。该技术通过动态识别热点数据并采用"组锁模式"优化处理,在腾讯金融支付等业务中实现交易性能提升30%,热点场景TPS提升近10倍。性能测试显示其处理速度超业界先进方案6.5-22倍,获评"真实业务驱动研究的典范"。这是TDSQL今年继VLDB、ICDE后第三次入选国际顶级会议,其核心专利此前刚获中国专利金奖。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • OSWare奥思维携鸿蒙生态成果亮相HDC2025

    6月20-22日,华为开发者大会(HDC2025)在松山湖举行。OSWare奥思维作为华为鸿蒙生态重要伙伴,展示了鸿蒙在金融、政务、医疗等领域的应用成果,代码规模突破1.3亿行。会上重点展出了基于鸿蒙的基层医疗检测终端,通过分布式软总线技术实现多设备协同,结合AI分析能力提升诊断效率。随着HarmonyOS6发布,鸿蒙生态迎来新发展。未来OSWare将持续深化与华为合作,推动全场景智慧生态建设,为千行百业提供更智能的数字化解决方案。

  • 共迎2025国际瑜伽日,韶音×PURE以开放聆听重新定义宠物瑜伽体验

    2025年国际瑜伽日前夕,Shokz韶音与健康生活方式品牌PURE在上海联合举办宠物瑜伽课程活动。活动通过"开放聆听+宠物瑜伽"的创新形式,让参与者佩戴韶音新一代开放式耳机OpenDot+ONE,在专业教练指导下与爱宠共同完成舒缓瑜伽动作。韶音独特的开放聆听技术让用户在享受音乐的同时,仍能清晰感知环境声音,实现人宠互动与运动沉浸感的完美平衡。此次活动不仅拓展了开放式耳机的使用场景,更通过创新体验营销深化品牌"让听觉回归自然与自由"的理念。据欧睿数据显示,韶音已连续两年蝉联全球运动耳机销量冠军,印证了其通过场景创新连接用户的成功策略。