首页 > 传媒 > 关键词  > 数字人发展瓶颈最新资讯  > 正文

交互式3D数字人框架SentiAvatar开源:SentiPulse携手人大高瓴,让数字人和人类自然交互

2026-04-08 16:44 · 稿源: 站长之家用户

3D数字人行业已陷入发展怪圈:全行业的竞争维度,始终困在“视觉上够不够像人”的颜值内卷里。但行业集体忽略的是,再精致的建模、再逼真的渲染,都无法成为用户长期深度交互的核心理由。

真正卡住数字人产业发展天花板的,从来不是视觉层面的“不像人”,而是其始终未能构建起与人类相似自然的表达能力和更流畅的动作。很多时候,数字人看似嘴在动、手在挥,肢体动作却与对话语义完全脱钩,面部表情和台词情绪彻底割裂,这种深入骨髓的机械感与违和感,直接斩断了人与数字人之间建立情感联结、实现深度交互的所有可能。

人类真实沟通中,超70%的信息与情绪都藏在非语言信号里,耸肩的无奈、挑眉的质疑,这些细节才是对话的灵魂。但这背后是行业面临的三个瓶颈:一是中文对话场景高质量数据荒,覆盖全身动作的高质量数据集近乎空白;二是复合语义下动作漂移,面对融合情绪的复杂表达,模型语义理解能力急剧退化;三是音画节奏错位,动作机械生硬,与语音重音、停顿完全脱节。

这三道枷锁,把数字人困在“预设脚本播放机器”的定位里,始终迈不开从“能说话”、“能动”到“懂交流”的关键一步。而SentiPulse(思维光谱)联合中国人民大学高瓴人工智能学院推出的SentiAvatar交互式3D数字人框架,正是为打破这些瓶颈而来。面向全球开源的3D动作生成完整解决方案,让数字人跳出预设动作桎梏,实现贴合语境与情绪的自然实时交互,真正告别“提线木偶”式交互。

国内首个交互式3D数字人框架,让3D数字人动作有“灵魂”

针对行业底层痛点,SentiAvatar打造了3D动作生成新范式。

在数据底座层,SuSuInterActs数据集围绕单一角色SUSU(22岁,温柔活泼,情感丰富)构建。包含2.1万段片段、37小时的多模态对话语料,涵盖同步语音、行为标注文本、全身动作与面部表情,填补中文高质量数据的空白。

为打破场景限制,让数字人交互摆脱“脚本化”,团队在预训练阶段引入了自研的Motion Foundation Model动作基础模型,在200K+条异质动作序列(约676小时)上训练通用运动先验,让数字人的能力远超对话场景本身。

此外,SentiAvatar创新提出plan-then-infill双通道并行架构,在动作生成时,将身体动作与面部表情分开处理,先规划“做什么动作”,再插入“如何逐帧执行”,让整体动作生成效果更流畅。

具体而言,第一阶段,LLM语义规划器接收行为标签文本和稀疏音频Token,输出稀疏关键帧动作Token序列。为支持多轮流式连续生成,模型以前一句话的最后两个关键帧音频-动作Token对作为上下文前缀,从下一个关键帧位置续写,实现无缝跨句过渡;第二阶段,Body Infill Transformer在相邻关键帧之间填入中间3帧,以逐帧 HuBERT连续特征(768维,20FPS)作为条件信号。模型采用5帧滑动窗口,首尾帧已知,预测中间3帧(12个动作Token)。推理时使用迭代置信度解码策略(默认6步),逐步接受高置信度预测,避免一次性预测的质量退化。

权威实验结果显示,SentiAvatar在SuSuInterActs和行业通用BEATv2两个数据集上,多项核心指标均达到当前国际最优水平(SOTA),性能全面领跑行业主流模型。

在自建的SuSuInterActs测试集上,SentiAvatar的文本-动作检索召回率R@1达到43.64%,几乎是行业次优基线的2倍;在跨数据集、跨语言的BEATv2评测集上,SentiAvatar以FGD4.941、BC8.078的成绩,同时刷新两项指标的SOTA纪录,超越此前行业最优方案,充分验证了模型的跨场景、跨语言泛化能力。

基于自研高质量数据集、动作基础模型与核心架构,SentiAvatar实现了在0.3秒内生成6秒动作序列,支持无限轮次的流式交互。这意味着数字人可以在实时对话中持续生成连贯的动作与表情,无需等待整句结束再批量处理,能直接解决数字人“交互卡顿”的问题。

构建认知-表达闭环,夯实数字人“交互底座”

SentiAvatar已正式上线GitHub开源平台,面向全球科研机构与开发者全面开放,相关技术报告也已同步发布于arXiv。开发者可基于这套开源框架,低成本打造专属的3D数字人,也可拓展其在游戏交互、影视制作、机器人等领域的应用。

当数字人不再是冰冷机械的交互工具,它能读懂你面部表情的隐喻并反馈同样稀缺的情绪价值,变成能感知语境、理解情绪、主动表达的交互主体,下一代“数字生命”即将诞生。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 百度一镜升级全场景数字人平台:沙利文认证双料冠军,服务10万+商家

    2026年百度AI开发者大会上,百度宣布数字人品牌“慧播星”升级为“百度一镜”,推出全球首个全场景多智能体数字人平台,涵盖直播、视频和实时互动三大场景,并发布海外版。百度一镜依托文心大模型,实现规模化应用,直播转化率提升29%、成本下降63.3%,视频产量提升95%,实时互动响应时间小于2秒。海外版支持12种语言,覆盖TikTok等平台,助力商家全球化,推动内容生产从“团队作业”走向“一人成团”。

  • 获国家发明专利授权!淘车车自研AI定价数字人重构二手车定价体系

    近日,国内专业二手车交易平台淘车车宣布,其基于深度学习的二手车价格评估模型训练方法及装置获得国家知识产权局发明专利授权。该AI定价模型针对行业“一车一况”非标属性带来的主观偏差大、运营效率低、市场适配性弱等痛点,无需人工干预即可全流程自主定价,精度对标中高级评估师水平。该技术已在业务中落地为“定价数字人”,覆盖采购与销售环节,实现标准化、规模化定价。淘车车母公司Yusheng Holdings Limited已递交招股书,拟赴港上市。未来,淘车车将持续深化AI与交易场景融合,推动行业标准化、透明化发展。

  • 饲养员吃蒜薹 旁边的袋鼠也在吃:动作神同步

    饲养员吃个饭,旁边袋鼠看馋了。 5月7日,重庆某动物园里,一位饲养员坐在休息区,手里拿着馒头和蒜薹,正一口一口地吃着。没想到,旁边一只袋鼠慢慢凑了过来,先是好奇地盯着看,然后竟然模仿起饲养员的动作,主动啃起了蒜薹。 一人一鼠,就这么并肩坐着,一个吃馒头配蒜薹,一个专心啃蒜薹,画面意外地和谐。游客拍下这一幕发到网上后,迅速引发热议。 有网

  • 深度对话思迅商旗系统负责人:连锁超市数字化的底层

    思迅商旗定位为“连锁超市数字化经营中枢”,专注服务从单店向多店扩张的连锁超市。其核心价值在于破解多店管控、生鲜损耗、数据安全等痛点:支持断网收银保障稳定,模块化设计实现功能按需适配,实时数据同步与分级权限强化总部管控,AI私有化部署保障数据安全。2026年升级聚焦报表分析深化、商品管理灵活化、促销精细管控、会员体系完善及采购库存优化。选型�

  • 祛痘行业信任重建:数字化能否成为那把钥匙?

    生活美容行业最大痛点是信息不对称,消费者进店前不了解自身皮肤状态,服务中不知价格,离店后效果无保障。悟空祛痘通过数字化体系破解困局:AI智能测肤替代主观判断,统一电子签章锁定服务项目与价格,全程数字档案留痕确保可追溯。这套系统以数据替代话术、以合同替代承诺、以系统约束替代门店自律,让消费决策从主观转向客观。虽然数字化有明确边界,不越医疗雷池,但证明了当信息透明时,消费者安全感会随之提升。

  • 工匠行AI智能轮椅亮相数字中国峰会,“无感健康检测”成展区亮点

    第九届数字中国建设峰会上,一款AI智能轮椅在贵州展厅单独展示,吸引众多参会者体验。该产品以“康、养、行、伴、护、预、培”七字方针为核心,将AI大模型融入银发康养场景,实现15秒无感健康检测,同步生成报告。它整合了健康管理、智能出行、语音陪伴、安全守护等功能,并积极对接国家补贴政策,以普惠价格让更多家庭享受智慧康养服务,推动科技惠老落地。

  • 把开户、充值和异常处理变成快动作,钛动科技为出海资产管理提速

    出海营销中,最消耗团队心力的往往不是创意本身,而是账户管理中的琐事:开户流程卡在资料审核、充值需多平台跳转、异常问题无人察觉。这些后台事务很少出现在宣传案例中,却每天困扰一线人员。当企业同时运营多市场、多平台、多账户时,账户管理直接成为影响效率与风险的前线能力。

  • 每日互动携个知·智能工作站亮相2026全球数据周 融入全球数字生态

    2026全球数字合作交流会在上海成功举办,主题聚焦“数据产业化、产业数字化、数据国际化”。大会汇聚全球政企学研精英,共商数据要素国际合作。每日互动总裁刘宇受邀在“AI Agent全球产业生态论坛”发表演讲,强调AI应“用得起、用起来”,并展示其“个知·智能工作站”系列产品,以“云边端库”架构兼顾数据安全与智能普惠。此外,公司“发数站”助力数据流通,已在杭州等地落地应用,吸引30多个国家近百家企业参展,推动AI从概念走向规模化。

  • 秉持算网原生路线,移动云为数字化提供坚实支撑能力

    数字经济加速发展,云原生技术成为企业提升竞争力的关键。移动云提出“算网原生”理念,通过容器化、微服务、DevOps等技术,打造全栈云原生服务体系,解决多云环境下的资源孤岛、网络互通等挑战。其容器服务CNP版实现跨域统一管理,云原生数据库如大云海山大幅提升性能,并满足信创安全需求。云原生应用安全服务覆盖全生命周期,提供事前预防、事中防控、事后隔离能力。移动云持续深化云原生技术,推动行业数字化转型。

  • 巴西文化部长访问快手:深化中巴数字创意与技术应用合作

    近日,巴西文化部长玛格丽特·梅内塞斯与驻华大使高望率团访问快手北京总部,双方就中巴文化年框架下的数字内容、生成式AI及创意经济合作达成多项共识。快手海外版Kwai在巴西拥有超6000万月活用户,已投入超70亿雷亚尔,计划今年本地生产超200部短剧。双方将在音乐、影视、美食等领域深化合作,推动文化互鉴。巴西部长强调快手是重要数字普惠平台,未来将借助AI技术赋能青年创作,拓展中巴文化共创新空间。

今日大家都在搜的词: