首页 > 业界 > 关键词  > AI数字人最新资讯  > 正文

一场没有“罗永浩”的直播,为百度AI正名

2025-06-24 09:26 · 稿源: 硅星人Pro公众号

声明:本文来自于微信公众号 硅星人Pro,作者:Yoky,授权站长之家转载发布。

5500万GMV,这可能是迄今为止,一个AI数字人单次直播带来的最高销量。

过去几年内,数字人直播代替真人主播的传言总是一波又一波,空无一人的直播基地无数手机屏幕“自动地”产生着GMV,这个画面曾经击中了无数网友的心。但现实是,这些数字人们机械重复的动作、无法随机应变的话术反而让真人主播们都松了一口气。

但这次,真正的转折点来了。6月15日,罗永浩数字人在百度直播的第一次亮相,连播近7小时,达成了1300万人次观看、GMV突破5500万的成绩,不仅破了AI数字人圈里的记录,甚至超过了真人的记录——互动量超真人直播间3倍。

一直以来,数字人技术成熟度的一个核心评判标准,都是与真人主是否存在差距,以及有多大的差距。而在此次的直播间,弹幕里“这是真的还是假的”的评论不断刷屏,已经证实了这次AI数字人的惊人效果。

更重要的是,这不是一次炫技式的表演,而是百度AI在真实商业环境的实战演练。当整个行业还在为文生视频的“确定性” ,百度已经用AI为商家和创作者们端起了第一个能真正“养活”自己的“饭碗”。

微信截图_20250623114025.png

如何用AI炼成“真”罗永浩?

这背后并非单一模型的技术突破,而是一套多模协同的数字人技术。简单来说,这套技术将语言大模型置于“总导演”的位置,统筹指挥着语音、视觉等各个“演员”,完成了一场几乎以假乱真的演出。

与传统数字人技术形成鲜明对比的是,过去的方案往往采用语言、语音、视觉三条独立流水线,各自生成内容后再强行拼接,这必然导致音画不同步、表情僵硬、言语乏味等问题。

百度的技术方案重点包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术,实现了数字人“神、形、音、容、话”的高度统一。最终呈现出一个具备高表现力,内容吸引人,人-物-场可自由交互的超拟真数字人。

具体而言,“剧本”模型扮演了总指挥的角色。它在生成时输入的并非只有文本,而是包含商品信息、历史视频、主播人设要求等多模态信息。剧本会生成对视觉和语音的具体要求,即所谓的“标签”,为后续的视觉和语音模型提供方向性指引,从而确保内容、语气和表情在语义上的高度一致性。

百度集团副总裁吴甜告诉硅星人,多模态协同的难点在于多个模型对于要求的理解是一致的。这意味着从剧本(导演)到语音、视觉(演员),整个团队对表演基调有统一认知。同时,各个演员(各模态模型)又保有自己的“发挥空间”,比如语音模型会根据自身对文本的细粒度理解调整语调顿挫,而不是完全被剧本的词语锁死。

以罗永浩数字人剧本为例,基于文心大模型4.5Turbo生成的剧本,充分展现了主播的个人特色,具备典型的罗氏幽默风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。

在单体完成“真老罗”的打造后,体现直播生命力的实时互动成为另一个更关键的挑战。面对评论区海量、无序的用户提问,以及与助播的配合上,数字人如何做到实时、自然的回应?这背后是一套动态决策系统。

在直播过程中,模型并非对每个问题都立即回复。系统会对评论区进行智能分析,结合主播当前的讲解节奏,选择合适的时机、合适的问题,以及合适的回答策略进行触发。这种“谋定而后动”的机制,远比简单的“一问一答”更接近真人主播的互动逻辑。

为了彻底解决实时生成的延迟问题,百度采用了“流式生成”的工程化设计。语言、语音、视觉三个模态并非串行等待,而是像流水线一样并行工作,极大缩短了用户感知的时延。同时,系统采用“离在线统一”的方法,部分可预见的交互内容可以提前处理,而需要即时反应的部分则在线动态生成。通过系统性优化,成功解决了生成视频这类高耗时任务的卡点问题,最终实现了丝滑的交互体验。

更进一步地,在双人直播中,大量的打断、复说、抢话等场景对语音合成提出了极高要求。吴甜提到,通过引入“对话上下文解码器”,模型能够结合历史对话信息进行推理,从而实现老搭档之间那种默契、自然的对话流。

在数字人形象生成以及驱动方面,百度通过结合多模态视频理解、跨模态信号生成、视频生成等技术,克服了高可控交互,高精度、长时间一致性保持等难点,实现了高一致性超拟真罗永浩数字人长视频生成。

而且在此过程中,能保证语音、口型、表情与动作始终保持高度同步,从而实现真正的「音、容、话」一致。

从炼成“罗氏幽默”到跑通商业闭环,百度数字人不仅为行业树立了新的技术标杆,更重要的是,它为AI技术如何从“热搜”走向真实的生产线,提供了一份极具说服力的答卷。

不要“超级应用”,要“超级有用”

对于在直播电商红海中拼杀的千万商家而言,现实的挑战正变得愈发尖锐:头部主播签约费动辄千万,自建团队每月固定开销数万甚至数十万,而流量获取成本却在持续攀升。在这种环境下,如何在保证效果的前提下控制成本,成为每个商家必须面对的生存课题。

数字人技术,一度被视为破局的希望。然而,早期的数字人更像是一个“不知疲倦的播报员”,形象呆板、互动生硬,无法传递信任,更遑论激发购买欲。它们解决了“有没有”的问题,却没能解决“好不好用”的核心痛点。市场真正需要的,不是一个仅仅能节省成本的“工具”,而是一个能真正替代真人、创造价值的“战力”。

那么,一个“真正可用”的数字人到底意味着什么?它不仅要形象逼真,更要具备三项核心能力:能理解商品、能与人互动、能建立信任。罗永浩数字人直播的案例,恰恰为这三点提供了行业标尺。它不再是简单的产品复读机,而是能用“罗氏幽默”与观众调侃,能根据实时提问调整讲解策略,最终实现了与真人主播几乎无异的带货效果。

从商业角度审视,这背后反映的是两笔关键账目的变化:

第一笔是成本账。数据显示,数字人直播能平均降低约80%的成本。这意味着商家可以将过去投入在昂贵主播身上的预算,转移到供应链优化和市场推广上,彻底重构成本结构。千元级别的投入,就能获得一个7x24小时在线的主播,这在过去是不可想象的。

第二笔是效率账。在保健品、教育、旅游等需要深度讲解的品类上,知识储备无限、表达精准无误的数字人,其转化效率已开始超越真人。对于拥有好产品但缺乏优秀主播的商家,或是不希望核心名师被直播消耗的教育机构而言,数字人代表着一条全新的增长路径。

“好用”的数字人并非凭空而来,它的出现反映了不同公司在技术路径上的战略分化。当我们从市场应用效果反推其背后的技术逻辑时,百度的选择便清晰地浮现出来。

当前行业的主流叙事集中在卷模型,各家比拼参数规模和基准测试成绩。而百度的路径更偏向卷应用,这一选择的底气源于其在多模态技术上的长期积累。

这种“应用为王”的战略,最终指向的是生产力的规模化落地。复刻罗永浩更多是技术天花板的展示,其真正的商业价值在于将这种能力以低门槛、可复制的方式赋能给广大中小商家。百度电商总经理平晓黎在接受采访时表示,相比追逐头部IP,更倾向于“让更多的中小商家、腰部商家,还有创作达人能够做起来”。

更关键的是,这条路径验证了AI产业期待已久的商业闭环。从行业发展的角度看,罗永浩数字人直播的意义远超一场带货本身。它为AI产业提供了一个清晰的价值验证:技术的最终价值必须通过为实体经济创造可度量的商业成功来检验。这种“超级有用”的路径,或许比追逐“超级应用”的概念更具现实意义。当然,这种模式能否被广泛复制,以及在更多垂直领域的适用性,仍需要市场的进一步检验。

举报

  • 相关推荐
  • 百度网盘上线知识问答功能:你的数据会自己“说话”了

    ,百度网盘宣布上线知识问答”功能,变成活的知识库”。 据了解,百度网盘通过AI技术整合用户在网盘中的数据,如学习资料、生活照片、办公文件等多源信息,形成结构化知识库。 它帮助用户快速查找”、问答”、创作”,实现知识的长期沉淀与高效复用。 从存储工具到知识中枢,百度网盘实现了从被动存储”到主动管理”的升级,构建你的第二大脑”。 它支持多模�

  • 最重要的搜索阵地,百度想誓死守住

    AI搜索的东风刮过两年,百度终于下决心,对自家搜索引擎“动刀子”。 7月2日,百度宣布开启十年来最大一次搜索改版,正式将搜索框改版成支持千字输入的“智能框”,从“给链接”跨越到了“给答案”。另外靠着智能体,百度搜索也进入了“解决任务”的阶段,并集成了AI写作、AI图片/视频生成等一系列服务。 当然,这还不够。在阿里夸克、字节豆包等产品不断往自家�

  • 百度搜索,跳出“框”外

    以AI为“黄金配方”,百度搜索已经悄然生长出了“肌肉”。用户侧最直观的感受是,曾经熟悉的搜索框变“大”了。 “大”从表面看是搜索框所能承载的内容和能调用的工具变多。例如,过去做旅行计划得靠“亲子出游”“漂流”“一天”等关键词堆砌,现在只要用自然语言提需求即可。

  • 百度2026届校招正式启动!AI相关职位占比超90%:双批次双机会

    今天,百度正式启动了2026届校园招聘,将发放4000offer,覆盖四大职位类别,共有256个细分职位,分布于北京、上海、深圳、广州、成都、大连、杭州七大城市。 值得一提的是,此次2026届百度校园招聘中,AI相关职位占比超九成,共新增90个AI相关职位,覆盖多模态、跨模态、大模型架构等方向。

  • 传统抗衰遇瓶颈?免疫细胞抗衰正引领一场关于青春与健康的新革命

    免疫细胞抗衰技术正成为全球健康新趋势。2023年《自然·衰老》研究显示,基因改造的CAR-T细胞能靶向清除衰老细胞,显著改善老年小鼠代谢功能,单次注射可提供15个月保护效果。欧美国家凭借技术优势率先布局,我国也在政策支持下加速科研成果转化。免疫细胞存储服务兴起,博雅干细胞库等机构通过国际认证,为用户提供符合标准的细胞保存方案。市场反馈显示,这项技术已成为高净值人群健康管理首选,未来或将在更广泛人群中普及。科技让人类有望通过保存年轻时的免疫细胞,为未来抗衰需求预留"生物弹药库"。

  • 双第一!百度智能云领跑2025上半年大模型中标市场

    2025年上半年,全球AI产业迎来关键拐点,多模态理解、深度逻辑推理等核心能力实现重大突破。大模型加速渗透产业核心场景,推动AI从通用能力向深度行业应用转变。我国大模型项目呈现爆发式增长,中标项目累计1810个,金额突破64亿元。百度智能云表现突出,以48个中标项目和5.1亿元金额稳居"双第一",在金融、能源、政务等重点行业持续领先。行业趋势表明,大模型市场正从"通用竞争"迈向"行业深耕"阶段,技术实力与落地能力成为关键。百度智能云依托领先的大模型技术与全栈智能基础设施,助力企业高效部署应用AI,目前已有65%央企选择与其合作。在能源、交通、金融等领域,百度打造了多个行业标杆案例,显著提升业务效率。

  • 有效订单增长65%,“交个朋友”淘宝直播间用一场618打出行业增长新样本!

    在刚结束的618大促中,交个朋友的成绩表现非常亮眼。 截至6月20日,交个朋友618全平台GMV突破21亿元,同比增长17.2%,订单量超600万单,场观人数突破7.5亿人次。其中,在淘宝平台有效订单同比增长65%,总场观2.5亿,总成交人数120万+,总成交GMV6.5亿。 在竞争白热化的618战场,交个朋友淘宝直播间不仅做到了业绩增长,更在内容、补贴、流量、组织等多维度上打出了一套独特�

  • 一场直播卖了5500万,数字人“取代”罗永浩?

    罗永浩的数字人,也掺和进了他的“真还传”。 6月15日,罗永浩的数字人亮相百度优选的直播间,和助理朱萧木的数字形象共同直播带货。据百度电商官方数据,这场直播持续了7个小时,观看人次超过130万人,GMV突破5500万,其中,1/3的产品销量超过罗永浩5月底的直播场次。 这场直播后,外界声音趋于两极化,一部分认为直播间数字人的拟真形态已经成熟,另一部分则质疑�

  • 一场直播百万人观看、一年涨粉1200多万,直播赛道迎来新风口

    ​一场直播超百万人观看,一年时间涨粉1200多万……这样的流量奇迹,真实发生在了一个新的直播内容赛道——直播大舞台。 去年7月,快手主播赵长龙嗅到了直播大舞台的风口,毅然决然选择转型,打造了“唐山泡泡龙大舞台”;一年后,他不仅成为了直播大舞台赛道的头部,而且带动了唐山当地的发展,让景区、商户和观众多方受益。 像这样的直播大舞台,如今已在全国�

  • AI日报:百度发布“绘想”平台与MuseSteamer;阿里音频驱动全身数字人模型OmniAvatar

    【AI日报】今日AI领域重要动态:1.开源语音大模型Step-Audio-AQAA发布,实现音频到语音的端到端自然转换;2.百度推出"绘想"平台与MuseSteamer,通过AI一键生成专业级视频;3.浙大与阿里联合发布OmniAvatar,音频驱动数字人技术取得突破;4.百度搜索迎十年来最大改版,新增智能框、百看和AI助手功能;5.xAI开发者控制台新增Grok4及Grok4Code引用,预示新一代AI模型即将发布;6.Gemin