首页 > 传媒 > 关键词  > 正文

这是要颠覆数字人行业规则吗?!神马工场多模态数字人重装登场!

2023-08-07 10:00 · 稿源: 站长之家用户

目前我们知道,数字人技术已经广泛应用在短视频、带货、直播、金融、医疗和客户服务等多个领域。数字人应用的便利性也得到了很多行业的认可。但是数字人模型的建模复杂,成本高昂,视频生成的形象单一等问题却一直是行业内,特别是口播博主、短视频带货等应用不够全面的主要痛点。率先在行业内降低数字人建模和视频生成成本,将数字人进行全面普及的神马工场致力于这方面的研发,为了解决这个问题,第二代多模态数字人技术也准备就绪,即将准备投入市场。

近期有幸收到神马工场邀请,前往位于上海的市北高新产业园的神马工场总部探访,对第二代多模态数字人技术进行一个全方位的体验。

在进入神马工场总部前,我还提前做了功课,对神马工场数字人技术也做了一番了解,目前神马工场数字人采用的是自研矩阵训练算法,数字人的唇形与语音适配水平达到了行业前三,适配率更是到达了95%以上;将原本万元内的数字人建模费用直接给打到百元水平,做普通人用得起的数字人产品对神马工场来说绝非一句口号那么简单。所以这次来到总部也是满怀期待,在这里技术人员给我介绍第二代多模态数字人的特点。

首先,多重模式。目前主流的第 一代传统数字人建模是一人一个模型,每个模型的录制时间都需要在4-5分钟以上,而且录制过程中是一镜到底,录制后是不能有中间部分的剪辑处理,模特基本要保持从开始到结束基本一致的情感、语气和表现。简单的说,我如果是情感类博主,一个模型只能录制一种情感模式,比如开心,从头到尾必须表现出内容的一致性,不能出现悲伤表情的内容。否则后期数字人生成出来就会有明明是在讲欢乐的故事,数字人表现的却很悲伤的状态,这个明显就不合适了。神马工场多模态数字人很好的解决了这个问题,模特可以同时录制悲伤和开心两种或多种模式的素材,每种情感模式各录一段时间,就能在一个数字人模型中建立多种造型模式,生成的视频可以随意切换,这对于口播博主来说是非常必须的功能。

第二、造型多变。以往被带货主播抱怨的服饰单一的问题,现在也在神马工场多模态数字人系统中得到了升级。一个数字人以往只能用一种服饰妆容建模,同一人需要多个造型可能需要建立多个数字人模型,而且生成视频还需要反复用不同数字人来切换,费时费力。现在好了,神马工场第二代数字人模型可以在一个模型中植入多套服饰和妆容,生成视频时候可以任意切换服饰,简单加上转场特 效就能美好解决口播博主,乃至Vlog博主们最吐槽的一套衣服从头穿到尾的困扰,多变造型更适合短视频中场景的任意搭配。

第三、容错率高。做过数字人模型的朋友一定知道,数字人拍摄素材过程中是不能出现NG(笑场、穿帮)镜头的。传统数字人虽然可以一定范围内解决念错台词的问题,但是也是需要模特有一定表演和临场应变能力,这无疑增加了普通人完成数字人视频素材采集的难度。而第二代神马工场多模态数字人解决了这个困扰普通用户的问题,用户可以录制长时间视频,哪怕视频中出现一定的笑场、或是其他有问题的表情、语句,生成数字人模型后也可以通过多模态跳帧模式避免,让输出的数字人保持正常造型,避掉素材中有问题的部分影响数字人视频的生成,提高建模容错率,有效降低普通用户拍摄建模素材的难度。

第四、性价比高。传统数字人制作是一个造型一个模型,无法做到多造型用一个模型,神马工场第二代多模态数字人可以做到一个模型多个造型。如果以单模型多造型的方式来计算,建模成本足足降低了几倍。神马工场原来的价格已经是行业低价,第二代多模态数字人问世后,势必将数字人价格打到行业难望项背的低价,也让这项技术的普及成为可能,给更多需要数字人的用户提供更高性价比的解决方案。

通过本次实地探访神马工场数字人的过程中,深刻了解到以科技主导为理念的神马工场,对于数字人技术如何解决实际问题,解决用户痛点方面,在利用其自身技术优势上起到了关键作用。产品迭代是为了更好的为用户服务,相信神马工场本次多模态数字人的推出,不仅在行业保持了领先优势,更能促进数字人技术的更好发展。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin

  • 一场直播卖了5500万,数字人“取代”罗永浩?

    罗永浩的数字人,也掺和进了他的“真还传”。 6月15日,罗永浩的数字人亮相百度优选的直播间,和助理朱萧木的数字形象共同直播带货。据百度电商官方数据,这场直播持续了7个小时,观看人次超过130万人,GMV突破5500万,其中,1/3的产品销量超过罗永浩5月底的直播场次。 这场直播后,外界声音趋于两极化,一部分认为直播间数字人的拟真形态已经成熟,另一部分则质疑�

  • 数字人带货5000万,电商平台打响AI技术军备赛

    ​6月15日,罗永浩数字人在百度电商完成首场直播,吸引超1300万人次观看,GMV突破5500万元,创下数字人直播带货新纪录。 在这场头部主播数字人首秀中,AI起着关键作用,不仅驱动数字人做出8300个动作,还生成高达9.7万字的剧本式产品讲解,连罗永浩本人都说:“如果没有数字人,这得把我累成啥样!” 事实上,“头部主播+AI”带货的新尝试,背后是AI正在全面渗透电商平台�

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 加速拥抱数字化后,为什么奢侈品牌都在做KOS

    LOEWE的店员,在下班后迎来了她的第二个身份——小红书博主。 尽管这是以店员官方身份开设的账号,但Mia不是信息搬运工,更像是一个活跃在小红书的时尚顾问。 Mia几乎以日更的频率发布LOEWE全套OOTD。今年5月,她发布的笔记「LOEWE新款全网首发,14套轻松出街」获得超百点赞,评论区吸引了一批有强购买意愿的人群咨询价格。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 出门问问上榜「北京市数字经济100家标杆企业」,软硬结合战略显成效

    出门问问凭借在AI领域的技术积累入选《2024北京市数字经济发展标杆企业评价报告》百家名单。作为以AI为核心的科技公司,其通过"序列猴子"大模型构建了AIGC+CoPilot产品矩阵,涵盖AI配音、数字分身、短视频生成等多个领域。最新推出的TicNote智能硬件产品,融合了"会思考、有记忆"的AI Agent能力,实现了软硬件一体化创新。公司持续探索人机交互技术,致力于成为用户随身的AI思考伙伴,推动数字经济高质量发展。TicNote国内版已于2025年6月25日正式上线。

  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。