首页 > 传媒 > 关键词  > 正文

这是要颠覆数字人行业规则吗?!神马工场多模态数字人重装登场!

2023-08-07 10:00 · 稿源: 站长之家用户

目前我们知道,数字人技术已经广泛应用在短视频、带货、直播、金融、医疗和客户服务等多个领域。数字人应用的便利性也得到了很多行业的认可。但是数字人模型的建模复杂,成本高昂,视频生成的形象单一等问题却一直是行业内,特别是口播博主、短视频带货等应用不够全面的主要痛点。率先在行业内降低数字人建模和视频生成成本,将数字人进行全面普及的神马工场致力于这方面的研发,为了解决这个问题,第二代多模态数字人技术也准备就绪,即将准备投入市场。

近期有幸收到神马工场邀请,前往位于上海的市北高新产业园的神马工场总部探访,对第二代多模态数字人技术进行一个全方位的体验。

在进入神马工场总部前,我还提前做了功课,对神马工场数字人技术也做了一番了解,目前神马工场数字人采用的是自研矩阵训练算法,数字人的唇形与语音适配水平达到了行业前三,适配率更是到达了95%以上;将原本万元内的数字人建模费用直接给打到百元水平,做普通人用得起的数字人产品对神马工场来说绝非一句口号那么简单。所以这次来到总部也是满怀期待,在这里技术人员给我介绍第二代多模态数字人的特点。

首先,多重模式。目前主流的第 一代传统数字人建模是一人一个模型,每个模型的录制时间都需要在4-5分钟以上,而且录制过程中是一镜到底,录制后是不能有中间部分的剪辑处理,模特基本要保持从开始到结束基本一致的情感、语气和表现。简单的说,我如果是情感类博主,一个模型只能录制一种情感模式,比如开心,从头到尾必须表现出内容的一致性,不能出现悲伤表情的内容。否则后期数字人生成出来就会有明明是在讲欢乐的故事,数字人表现的却很悲伤的状态,这个明显就不合适了。神马工场多模态数字人很好的解决了这个问题,模特可以同时录制悲伤和开心两种或多种模式的素材,每种情感模式各录一段时间,就能在一个数字人模型中建立多种造型模式,生成的视频可以随意切换,这对于口播博主来说是非常必须的功能。

第二、造型多变。以往被带货主播抱怨的服饰单一的问题,现在也在神马工场多模态数字人系统中得到了升级。一个数字人以往只能用一种服饰妆容建模,同一人需要多个造型可能需要建立多个数字人模型,而且生成视频还需要反复用不同数字人来切换,费时费力。现在好了,神马工场第二代数字人模型可以在一个模型中植入多套服饰和妆容,生成视频时候可以任意切换服饰,简单加上转场特 效就能美好解决口播博主,乃至Vlog博主们最吐槽的一套衣服从头穿到尾的困扰,多变造型更适合短视频中场景的任意搭配。

第三、容错率高。做过数字人模型的朋友一定知道,数字人拍摄素材过程中是不能出现NG(笑场、穿帮)镜头的。传统数字人虽然可以一定范围内解决念错台词的问题,但是也是需要模特有一定表演和临场应变能力,这无疑增加了普通人完成数字人视频素材采集的难度。而第二代神马工场多模态数字人解决了这个困扰普通用户的问题,用户可以录制长时间视频,哪怕视频中出现一定的笑场、或是其他有问题的表情、语句,生成数字人模型后也可以通过多模态跳帧模式避免,让输出的数字人保持正常造型,避掉素材中有问题的部分影响数字人视频的生成,提高建模容错率,有效降低普通用户拍摄建模素材的难度。

第四、性价比高。传统数字人制作是一个造型一个模型,无法做到多造型用一个模型,神马工场第二代多模态数字人可以做到一个模型多个造型。如果以单模型多造型的方式来计算,建模成本足足降低了几倍。神马工场原来的价格已经是行业低价,第二代多模态数字人问世后,势必将数字人价格打到行业难望项背的低价,也让这项技术的普及成为可能,给更多需要数字人的用户提供更高性价比的解决方案。

通过本次实地探访神马工场数字人的过程中,深刻了解到以科技主导为理念的神马工场,对于数字人技术如何解决实际问题,解决用户痛点方面,在利用其自身技术优势上起到了关键作用。产品迭代是为了更好的为用户服务,相信神马工场本次多模态数字人的推出,不仅在行业保持了领先优势,更能促进数字人技术的更好发展。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 蝉镜推出国内首个数字人内容生产MCP

    2025年5月20日,国内首个垂直领域数字人内容生产协议蝉镜MCP正式发布,标志着AI行业进入"技术普惠化"新阶段。该协议通过打通大语言模型与营销工具的全链路协同,实现"输入需求,AI自主完成全流程创作"的突破性创新。核心价值在于构建开放智能协同网络,支持不同AI模型自由组合,无需复杂API开发即可实现功能调用。企业只需输入简单指令,系统就能自动完成文案生成、素材匹配、视频剪辑等全流程,将运营效率提升300%以上,开发成本降低90%。蝉镜MCP独创"三无模式"(无模特、无场地、无拍摄),仅需上传短视频即可零成本生成数字人IP,单条视频成本降至个位数。目前已有企业通过该平台打造专业形象,单条视频播放量破百万。作为战略级产品,蝉镜MCP精准识别行业爆款标签,将AI创作与营销科学深度融合,推动营销行业进入"智能体协作"时代。数据显示采用该协议的企业客户留存率高达92%,远超行业均值。

  • 慧科讯AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • 破局多模态数据治理难点,数据标注重构企营销新基建

    文章探讨了AI数据标注行业的发展现状与未来趋势。主要内容包括:1)AI数据标注已成为企业数字化转型的核心基础设施,92.9%数据为非结构化形态;2)营销领域多模态数据融合正在重塑商业决策模式;3)慧科讯业等企业通过TDaaS服务帮助客户构建数据资产;4)数据标注服务商分为国际头部、自有生态型、垂直领域型和综合营销数字化型四类;5)未来趋势包括AI驱动的自动化标注、数据合规升级和人机协同模式创新。文章强调,高质量数据标注服务将助力企业实现从"可用"到"可信高效"的数字化转型。

  • 零工经济暗战升级,法大大助力大熊集团重构行业规则

    中国人力资源服务行业在数字化和灵活用工需求推动下快速发展,2023年服务机构近7万家,服务3.31亿人次。大熊集团作为行业领军企业,通过电子签名技术实现合同线上化,签约效率提升70%,成本降低90%。电子签名不仅解决异地签约难题,还沉淀数据资产,助力企业决策。该技术已覆盖18个行业,服务300万灵活就业者,推动行业从"人岗匹配"向"数据流动"升级,为灵活用工提供合规高效的解决方案。

  • 一级拓扑破局:易能时代98%+转换效率如何改写充电行业规则

    易能时代推出40kW充电模块,采用一级拓扑架构实现98%+转换效率,突破行业瓶颈。该技术通过PFC与DC-DC融合设计,减少能量转换层级,带来体积压缩、发热集中、控制简化等优势。相比传统两级拓扑,新架构在效率提升接近极限时另辟蹊径,以系统级创新实现每度电多赚几分、单站年省数十万的实际效益。文章指出高效率不仅是参数突破,更需融入充电站经济模型。技术路径选择反映企业对市场的前瞻判断,在快充赛道中,方向选择比速度更重要。易能的方案为行业提供了兼顾高效与可持续的新思路。

  • 618抢先剧透!AI数字人分身系统重磅升级:自定义装修+智能体

    该文章介绍了一个智能装修系统的五大核心功能更新:1.新增可视化自定义装修功能,无需编程即可自由设计前端页面;2.接入AI智能体系统,自动生成精准营销文案;3.新增API接口分销功能,支持批零差价盈利;4.全面接入DeepSeek技术,实现多平台高质量文案生成;5.新增VIP会员模式,严格绑定功能权限与有效期。系统通过智能化升级,显著提升了装修设计、内容创作和商业变现的效率。

  • 腾讯AI数字人AvaMo落地商用,百度/微美全息加速虚拟人生态闭环构建

    腾讯与Offshore公司达成战略合作,推出面向日本市场的AI数字人视频生成服务"AvaMo"。该服务基于腾讯云智能数字人技术,仅需1-3分钟视频样本即可创建高保真数字人,支持实时交互,能将30秒视频制作时间从传统的12小时压缩至15分钟。同时,百度也在数字人领域发力,展示手语数字人、直播数字人等应用案例。我国数字人产业生态日益完善,相关企业已达114.4万家。微美全息等企业通过整合AI、计算机视觉等技术,显著降低商业化门槛,推动数字人在社交、娱乐等场景的个性化应用。随着生成式AI技术发展,数字人制作效率和多样性显著提升,用户可打造更具个性化的数字产品。

  • 字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

    5月13日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了5款模型和产品,包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 用科技赋能工程管理,行业专家钟朝晖开启数字化转型新篇章

    在"数字中国"与"绿色建筑"战略驱动下,建筑行业迎来数字化转型机遇。钟朝晖作为BIM技术应用的先行者,针对国内BIM应用起步阶段的技术空白,自2019年起陆续开发了《BIM建筑工程项目进度管理系统》等系列创新软件。这些系统以数字模型为核心,实现了工程全生命周期的实时跟踪与智能预测,填补了国内建筑行业在BIM进度管理等领域的技术空白。钟朝晖持续深耕建筑信息化领域,围绕设计、成本、质量、安全等关键环节,开发出三维勘测设计、施工预算管理等多款行业领先软件,推动建筑管理向数字化、智能化、精细化转型。他强调数字化转型不仅是技术叠加,更是管理模式的重塑,将持续以创新驱动行业发展。