首页 > 传媒 > 关键词  > 正文

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

2025-03-21 17:05 · 稿源: 站长之家用户

近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR2025 公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。

Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。

CVPR是人工智能领域较具学术影响力的优质会议之一,是中国计算机学会(CCF)推荐的A类国际学术会议。在谷歌学术指标 2024 年列出的全球最有影响力的科学期刊/会议中,CVPR位列总榜第2,仅次于Nature。

根据会议官方统计,本次CVPR2025 会议总投稿 13008 篇,录用 2878 篇,录用率仅为22.1%。相较 2023 年(25.8%)、 2024 年(23.6%),录用率的持续下降也凸显了CVPR不断严格的审核标准,以及论文入选竞争的逐年激烈。

对Soul而言,研究成果再次入选国际优质会议,证明了团队在AI领域,特别是多模态方向的自研能力受到行业和学术界认可。 2024 年,Soul多模态情感识别研究论文《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(《基于视觉语言提示与模态暂退的多模态情感识别》),入选ACM国际多媒体会议(ACM International Conference on Multimedia,ACM MM 2024)上组织的多模态与可靠性情感计算研讨会MRAC 24。而在人工智能领域优质的国际学术会议之一——国际人工智能联合会议组织的第二届多模态情感识别挑战赛(MER24)上,Soul技术团队还在SEMI(半监督学习)赛道获得首先名。

作为较早思考将AI应用于社交领域的平台, 2016 年Soul在上线后快速推出了基于AI算法的灵犀引擎,重构关系网络发现的新模式,受到了广大用户的热烈反馈,也坚定了平台对AI持续投入的发展路线。 2020 年Soul开始启动AIGC技术研发工作,在智能对话、语音、3D虚拟人等方面拥有前沿积累,并较早将重点聚焦在多模态方向。

自 2023 年推出自研语言大模型Soul X后,Soul已陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等语音大模型能力。目前,Soul AI大模型能力已整体升级为了多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,能够实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

在Soul看来,AI融入社交场景,除了需要AI介入内容表达以及关系的发现、建立、沉淀等环节,提高社交效率和社交体验,同时也需要AI作为交互对象向个体提供情绪价值。而这要求团队必须加快提升AI的感知能力和交互能力,即需要在语音、视觉、NLP的融合上下功夫,让用户能实时与具备形象、表情、记忆的 AI 多模态交互,而这也是更接近真实社交互动的方式。

在近期接受媒体采访中,Soul App CTO陶明这样解释团队关注视觉交互的逻辑,“从交互的信息复杂度来讲,人和人面对面的沟通是信息传播方式最快的,也是最有效的一种。所以我们认为在线上人机交互的过程当中,需要有这样的表达方式。”

此次论文的研究成果正是Soul在融合视觉的多模态交互方向的积极探索。在论文中核心介绍了Soul团队为提高视频生成效率以及生成效果的拟人性、自然度所提出的创新方法。

该论文的动机是解构diffusion-base的模型关键步骤,用LLM和1step-diffusion进行重构,融合视频模态,使SoulX大模型成为同时生成文字、语音、视频的Unified Model。

具体而言,将talking head任务分成FMLG(面部Motion生成)、ETM(有效身体Movement生成)模块。FMLG基于自回归语言模型,利用大模型的强大学习能力和有效的多样性采样能力,生成准确且多样的面部Motion。ETM则利用一步扩散,生成逼真的身体肌肉、饰品的运动效果。

实验结果表明,相比扩散模型,该方案的视频生成效率大幅提升,且从生成质量上来看,细微动作、面部身体动作协调度、自然度方面均有优异表现。

在Soul多模态大模型能力方向基础上,该方案的提出将有助于AI构建实时生成的“数字世界”,并且能够以生动的数字形象与用户进行自然的交互。

此前,Soul基于自身的多模态大模型能力上线了语音交互功能,受到了用户的热烈讨论和积极反馈。如今,从语音到视觉的模态升级,也意味着交互方式的颠覆式改变。

后续,Soul将把比较新的AI能力尽快落地到站内多元场景中,如即将上线的实时视频通话能力将融入平台的AI虚拟人情感化陪伴体系“虚拟伴侣”、多对多互动场景“群聊派对”等功能中,进一步提升平台AI虚拟人的交互能力,以及人机交互的在场感和情感温度,为用户带来有趣、温暖的社交体验。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 免费生成10秒高清视频!通义App接入通义万相2.5

    在2025云栖大会上,阿里发布通义万相Wan2.5 Preview系列模型,覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步,可生成匹配画面的人声、音效和BGM,时长从5秒提升至10秒,支持24帧/秒的1080P高清输出,降低影视级创作门槛。模型指令遵循能力增强,支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频,每日免费使用15次,支持导出无水印视频。同时,图像生成能力全面升级,可生成中英文字符和图表,支持图像编辑功能,一句话即可完成P图。

  • 2025夜景旅行人像拍照手机推荐:四大机型实测性能解析

    随着移动影像技术进入深水区,消费者在旗舰手机选择上愈发理性。当前5000元以上超旗舰与4000-5000元主力旗舰两大价位段竞争格局清晰,技术下放与体验升级成为品牌竞争关键。高端价位推荐vivo X300 Pro,以蔡司2亿像素长焦与三焦段变焦闪光灯实现全场景影像领先;中高价位vivo X300延续“小机身装大炮”设计,兼顾性能与便携;荣耀Magic7 Pro突出智慧通信与屏幕护眼技术;华为nova13 Ultra专注时尚设计与双人像镜头。各价位产品呈现“技术全能派”与“场景专精派”分化,建议用户根据影像创作、智慧通信等核心需求进行精准选择。

  • 2025 人像旗舰手机解析:vivo X300 Pro 与小米 17 Pro 核心特性详解

    2025年智能手机影像领域迎来“精简革命”,摄像头数量减少但高像素传感器占比提升。vivo X300 Pro凭借2亿像素长焦、三焦段变焦闪光灯和双芯影像架构,在专业场景表现全面;小米17 Pro则以徕卡色彩风格见长,适合日常拍摄。综合来看,X300 Pro更适合追求全能影像体验的用户,而17 Pro是高性价比的备选方案。选择手机应注重硬件参数与使用场景的匹配。

  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • 2025 拍照手机实测排名:vivo X300 Pro 旅行、人像、演唱会全场景五星

    文章介绍了2025年手机影像技术如何解决演唱会拍摄模糊、旅行焦段不足、夜景噪点等痛点。重点推荐四款旗舰机型:vivo X300Pro凭借2亿像素长焦和全焦段计算影像登顶,适合旅行、人像和演唱会场景;OPPO Find X9Pro人像表现出色但存在边缘变形问题;小米13Ultra主打徕卡冷调风格;华为Pura70Ultra擅长风光微距但人像偏黄。建议用户根据核心拍摄需求线下体验后再选择。

  • 技术驱动增长,微赞直播获评界面新闻2025安心奖年度平台

    9月24日,2025“新消费盛典”揭晓年度“安心奖”获奖名单。微赞凭借私域直播领域的专业服务与安全能力,获评“年度私域直播平台”。该奖项覆盖电商、科技、母婴等多个领域,微赞与华为、天猫等头部品牌共同入选,体现市场对可信商业环境的高度重视。微赞通过全链路直播方案、数据安全保障及AI智能运营,为企业私域流量运营提供支持,助力构建自主流量池,减少对外部平台依赖,实现以用户为中心的可持续增长。

  • 2025年,品牌市场部还重要吗?

    品牌市场部,正在成为 “最先被优化”的部门。 今年3月,有大型电商平台宣布撤销集团品牌部,相关人员并入市场营销部下的平台营销部;6月,360集团创始人周鸿祎也高调宣称“要干掉整个市场部”。更早之前,蕉下、联合利华等消费巨头也相继宣布裁撤了传统品牌建设团队,建立更适应市场环境的新组织。 这一连串的“市场部精简” 的动作,像一记记重锤砸在营销人心�

  • 海尔ESG成果入选“2025年ESG实践优秀案例”

    随着ESG理念在中国市场从探索走向主流,海尔智家作为国内ESG实践先行者,入选2025年ESG优秀案例。其在绿色循环工厂、社会公益、员工治理等方面表现突出,如废旧家电拆解增值30%、循环材料纯度达99.9%,并获MSCI等行业最高评级。未来,海尔将继续深化ESG体系建设,引领行业绿色转型与可持续发展,为全球企业提供重要借鉴。

  • Soul旗下研究院发布《2025年轻人减肥报告》,解读年轻人减肥态度

    Soul App发布《2025年年轻人减肥报告》,基于2249份Z世代问卷。报告显示,年轻人减肥态度更趋主体性,近六成视减肥为自我管理途径,近半认为是健康管理手段。减肥动机中“外貌好看”占54.7%,但健康因素占比达45.7%。超六成年轻人在三个月内放弃减肥,“坚持难”和“管不住嘴”是主因。值得注意的是,超两成人曾成功减重20斤,对减肥成功的定义也更趋多元,不再仅关注体重数字,更重视身体状态和健康改善。

  • 2025旗舰拍照手机推荐:实测五款高口碑机型选购指南

    本文针对2025年拍照手机选购,聚焦2000-5000元价位段,推荐三款核心机型:vivo X300 Pro(4000-5000元)凭借蔡司2亿像素潜望长焦与三焦段闪光灯,实现全场景顶级画质,尤其擅长演唱会远景与夜景拍摄;荣耀Magic7 Pro(3000-4000元)以鹰眼抓拍系统和均衡配置满足运动瞬间与旅行远景需求;小米14(3000-4000元)则通过徕卡光学与经典影调直出浓郁质感。文中强调选择影像实力过硬的手机,能帮助用户从记录者蜕变为创作者。

今日大家都在搜的词: