首页 > 传媒 > 关键词  > 数字人生成最新资讯  > 正文

重新定义“实时在线交互”,Soul App开源实时数字人生成模型SoulX-FlashTalk

2026-02-03 12:47 · 稿源: 站长之家用户

近期,Soul App AI团队(Soul AI Lab)已开源实时数字人生成模型SoulX-FlashTalk 。这是首个能够实现0.87s亚秒级超低延时、32fps高帧率,并支持超长视频稳定生成的14B数字人模型。

在持续建设AI能力的过程中,Soul团队始终致力于通过技术创新实现更沉浸、多元的交互体验。此次开源新模型,除了在速度、效果、延迟和保真度上表现出色,更重要的是,为行业提供了切实可应用的业务解决方案,推动大参数量实时生成式数字人迈入可具体商用落地阶段。

SoulX-FlashTalk亮点:

四大关键指标,重塑实时互动体验

0.87s 亚秒级延时,即时交互

在实时视频交互中,延迟是决定用户体验的核心。SoulX-FlashTalk 凭借全栈加速引擎的极致优化,成功将首帧视频输出的延时降至0.87s亚秒级。

•“零延迟”即时反馈: 首次让14B 级大模型数字人具备了即时反应能力,彻底消除了传统大模型生成的“滞后感”。

•全场景交互: 无论是视频通话中的即时对答、直播间弹幕的秒级互动,还是智能客服的实时响应,均能实现自然、流畅的深度对话。

32fps 高帧率,重新定义“流畅”

尽管搭载了14B 参数量的超大 DiT 模型,SoulX-FlashTalk 的推理吞吐量仍高达32FPS。

•超越行业标准:远超直播所需的25FPS 实时标准,确保每一帧画面都丝滑顺畅。

•大模型,高性能:证明了140亿参数大模型在经过深度加速优化后,依然可以拥有极佳的运行效率。

超长视频稳定清晰生成,告别画面“崩坏”

数字人视频最怕在生成中出现人物面部不一致或显著画质下降的问题。SoulX-FlashTalk 凭借独家的自纠正双向蒸馏技术,解决了这一痛点:

•无感纠错,画质无损:引入多步回溯自纠正机制,模拟长序列生成的误差传播并进行实时修正,就像为 AI 装上了“实时校准器”,主动恢复受损特征。

•超长视频,稳定生成: 不同于传统的单向依赖,SoulX-FlashTalk 完全保留了双向注意力机制,让每一帧生成都能同时参考过去与隐含的未来上下文,从根本上压制身份漂移,这意味着在超长直播中,主播的口型、面部细节和背景环境将始终保持一致,不会出现模糊或变形。

全身动作交互:不只是“口型对齐”

SoulX-FlashTalk 突破了传统数字人仅能实现面部“对口型”的局限,带来了更加真实自然的全身肢体动态表现。

•全身肢体动态合成: 不同于仅对脸部进行局部重绘的方案,SoulX-FlashTalk 支持受音频驱动的全身动作生成,产生真实自然的人体动态。

•高精细手部表现: 基于14B DiT的强大建模能力,系统能够有效消除手部畸形与运动模糊,精准呈现结构清晰、纹理锐利的手部动作细节。

•灵动而不失稳定: 在追求大幅度动态表现力的同时,系统依然维持了极高的身份一致性(Subject-C 达99.22),实现了动作灵活性与画面稳定性的完美平衡。

核心方案:

双向蒸馏+多步回溯自纠正机制

在行业中,传统数字人生成方案大多面临画面生成时间长、延迟高、生成效果差、效果不稳定、保真度低等问题。

在这样的背景下,SoulX-FlashTalk正式开源,为了平衡生成质量与推理速度,团队采用了两阶段训练策略:

第一阶段:延迟感知时空适配 (Latency-Aware Spatiotemporal Adaptation),结合动态长宽比分桶策略进行微调,使模型适应较低的分辨率和更短的帧序列;

第二阶段:自纠正双向蒸馏 (Self-Correcting Bidirectional Distillation)。利用 DMD 框架压缩采样步数并移除无分类器引导(CFG),实现加速;多步回溯自纠正机制,通过 autoregressively 合成连续分块(最多 K个chunks),显式模拟长视频生成的误差传播;随机截断策略,在训练中在第 k(AI+实时体验

赋能行业多元业务场景

从模型表现来看,通过在 TalkBench-Short 和 TalkBench-Long 数据集上的定量对比,展示了SoulX-FlashTalk在视觉质量、同步精度及生成速度上的全面领先:

在短视频评测中,它以3.51的ASE和4.79的IQA刷新了视觉保真度记录,并以1.47的Sync-C分数表现出最优的口型同步精准度;在5分钟以上的长视频生成中,系统凭借双向蒸馏策略有效抑制了同步漂移,取得了1.61的Sync-C优异成绩;此外,作为14B参数规模的大模型,它在长短视频任务中均维持了32FPS 的高吞吐量,不仅远超25FPS的实时性基准,更在推理效率上显著优于行业同类主流模型。

依托模型优越的性能表现,开源后,SoulX-FlashTalk将有机会在多领域、行业实际落地,创造更多价值。例如,在电商领域打造7×24小时AI直播间,特别是,此前传统的数字人直播长时间运行后常会出现嘴型对不上或画质模糊的问题,而SoulX-FlashTalk可以支持全天候的流畅视频直播,即便是在高强度的实时互动中(如回复弹幕),也能保持如同真人出镜的高保真画质,极大降低直播成本。

此外,在短视频制作、AI教育、多元互动场景NPC交互、AI客服等方向,模型也提供了高质量、可落地、可接入业务系统的解决方案。

对Soul而言,SoulX-FlashTalk的发布也意味着团队进入了开源新阶段。去年10月底,Soul AI团队开源语音合成模型SoulX-Podcast,在发布后快速登顶开源社区平台HuggingFace TTS(Text To Speech)趋势榜,目前该模型在GitHub上收获了超3100星标。

接下来,在聚焦语音对话合成、视觉交互等核心交互能力的提升,为用户带来更加沉浸、智能且富有温度的交互体验的过程中,以持续推进开源工作为契机,Soul将积极与全球开发者携手,共建生态,为推动“ AI +社交”方向前沿能力建设贡献力量。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 单卡RTX 4090可运行 、96 FPS,Soul App开源实时数字人生成模型SoulX-FlashHead

    Soul AI Lab推出轻量化实时数字人生成模型SoulX-FlashHead,仅1.3B参数,在消费级显卡RTX 4090上实现96FPS高帧率,同时画质达SOTA水平。模型通过“先验”训练机制和时序音频上下文缓存技术,解决了小模型画质差和长视频身份漂移问题,支持电商直播、游戏NPC等广泛场景,权重与代码已全面开源。

  • 爱诗科技完成 3 亿美元 C 轮融资,鼎晖领投,开启“实时交互”视频生成新纪元

    AI视频生成领军企业爱诗科技近日完成3亿美元C轮融资,由鼎晖香港基金、鼎晖VGC、鼎晖百孚领投,产业投资人中国儒意、三七互娱,以及亦庄国投、众为资本、国泰君安创新投资、苏创投集团、苏州卓睿、华控基金、复星锐正、苏州宜和等多家全球知名家族办公室和海外投资机构参与。本轮融资刷新了亚洲AI视频生成领域的最大单次融资纪录。爱诗科技将深耕通用视频模型和世界模型,加速PixVerse全球创作者生态建设,并推动全行业API商业化深度落地。其PixVerse V5.6模型在全球权威AI评估机构榜单中位列视频生成模型第一梯队,技术实力获国际认可。公司全球用户规模已突破1亿,月活跃用户超1600万。未来,爱诗科技将继续助力全球创作者跨越技术鸿沟,共同开启AIGC驱动的数字内容新纪元。

  • 数字人亮相两会!讯飞智作AI主播小百惠来了!

    2026年全国两会期间,讯飞智作联合安徽新闻联播打造的AI虚拟主播“小百惠”再度亮相,连续两年服务两会报道。升级后的“小百惠”依托硬核技术,实现从播报到交互的跨越,在北京融媒体演播室内,通过表情动作与互动逻辑的全面升级,即时解读政府工作报告,并与机器人记者、真人主持及代表委员实现“跨次元”同台对话。其形象、语音、交互三大核心技术均获升级:形象以主持人史百惠为原型,仅需上传照片即可快速生成多元风格造型;语音通过“一句话声音复刻”功能,精准还原原声并支持多语种播报;交互上依托实时语义理解与多模态能力,可实现高质量新闻播报及与代表委员的自然实时互动,甚至能通过移动数字人产品主动迎宾导览。这展现了讯飞智作数字人技术的落地成效,目前该技术已广泛应用于企业营销、媒体传播、教育培训等多个领域,提供一站式虚拟人解决方案。未来,讯飞智作将持续深耕数字人领域,以技术创新赋能内容生产与传播升级。

  • 2026年AI数字人服务商综合实力榜单推荐:全景评估五大核心维度

    2026年中国AI数字人市场已进入以“价值创造”为核心的深水区。产业竞争焦点从单点技术创新,转向以解决方案完整性和生态构建能力为核心的综合比拼。政企客户需求从追求“有一个数字人”转变为“用好数字人”的务实考量,需要服务商提供从战略咨询、定制开发、知识融合、多端部署到硬件落地的端到端服务。本文基于产品与解决方案的广度与深度、核心技术的自主性与创新性、商业化案例的规模与影响力三大维度,对主流服务商进行全景式评估与排名。综合实力排名前列的包括:云家族科技(全栈生态构建者)、蓝色光标(全域营销服务能力延伸者)、硅基智能(垂直场景的规模化王者)、追一科技(深度行业Know-how专家)、凌宇智光(底层技术硬实力代表)。选择服务商需结合自身战略阶段、预算范围与核心痛点,做出明智选择。

  • 1.4万个账号栽了!抖音严查AI生成低俗擦边内容

    抖音近期严打AI生成色情低俗内容,已处置4.2万条违规内容,对1.4万个账号采取限制推荐、禁言、封禁等处罚。部分用户利用AI技术生成低俗擦边内容,甚至通过塑造特定人设、发布性感视频并搭配性暗示文案,诱导用户跳转至第三方平台下载色情应用。其中一黑产团伙4人已被刑事拘留。平台还发现部分账号将AI生成的美女图片设为直播间封面,引导观众查看主页收藏进而为色情网站导流,已对339个账号无限期回收直播权限。抖音表示此类行为已涉嫌违法,平台会主动将线索上报公安机关,并将持续升级治理技术,提升对AI生成不良内容的识别处置能力。

  • 和别人用一样的“提示词”生成相同的AI作品 算不算侵权?法院判了

    上海黄浦区法院近日审理一起AI生成图片著作权纠纷案。原告公司使用AI生成艺术图片后,发现他人用相同提示词生成相似画作并收录于艺术图鉴,遂以侵犯著作权为由起诉。法院审理认为,提示词虽反映创作意图,但仅为词汇拼接,未体现作者个性化智力投入,不构成著作权法意义上的“作品”,因此原告对提示词不享有著作权,无权主张侵权。判决驳回原告诉讼请求。

  • AI日报:OpenAI上线 GPT-5.3 Instant;通义千问负责人林俊旸宣布离职;谷歌发布 Gemini 3.1 Flash-Lite

    本期AI日报聚焦行业动态:OpenAI紧急上线GPT-5.3 Instant,重点解决“爹味说教”问题;Anthropic推出Claude Code语音编程模式,提升开发效率。马云带领阿里与蚂蚁核心层访问云谷学校,探讨AI浪潮下的教育变革。AReaL v1.0框架发布,降低智能体强化学习开发门槛。阶跃星辰开源Step3.5Flash模型,参数达1960亿。阿里通义千问负责人林俊旸离职,反映大模型人才高频流动趋势。谷歌发布Gemini

  • AI日报:腾讯内测QClaw一键启动包;小红书新款AI编辑模型开源;OpenClaw正式支持 GPT-5.4

    本期AI日报聚焦多项AI领域新动态:腾讯内测QClaw一键启动包,降低开源智能体使用门槛;火山引擎发布ArkClaw云平台,优化AI Agent应用痛点;小红书开源FireRed-Image-Edit v1.1图像编辑模型,性能显著提升;AI技能qiaomu-mondo-poster-design可一键生成大师级海报;阿里达摩院发布MAOSS模型,利用AI筛查脂肪肝,检出率翻倍;OpenClaw发布重大更新,全面支持GPT-5.4;OpenAI再次推迟“成人模式”上线,优先提升AI智能水平;OpenClaw“小龙虾”能力排行榜出炉,展示各大模型真实编码战力。

  • 国内头部的数字集团有哪些?利欧数字领衔,头部阵营解析

    文章指出,数字经济发展推动数字营销行业步入高质量发展新阶段,技术升级与服务创新成为核心动力。国内头部数字集团主要集中于数字营销领域,其中利欧数字凭借全链路业务布局与AI技术引领成为行业领军者;蓝色光标依托全球化布局深耕出海营销与AI内容生产;华扬联众聚焦数据驱动的程序化投放与搜索营销;省广集团则成功实现数字化转型,融合传统媒介资源与数字能力。这些企业凭借差异化优势,共同构建了多元且充满活力的行业竞争生态。未来,随着技术持续迭代,头部集团将继续在技术创新、服务升级与生态构建上发力,推动行业向AI化、全链路、精细化方向迈进。

  • 建议为AI生成内容添加不可去除水印上热搜

    今年两会期间,AI生成内容可能带来的虚假信息传播和侵权问题成了不少全国人大代表关注的焦点。多位代表明确提出建议,呼吁建立“不可去除的数字水印”制度,让所有AI生成内容都强制添加永久性标识。 全国人大代表、山东省音乐家协会名誉主席刘晓静就指出,现在AI换脸、拟声技术已经被不法分子盯上,用来搞诈骗、侵权,还制造虚假信息,危害不小。她建议建立AI生�

今日大家都在搜的词: