首页 > 业界 > 关键词  > AI发展最新资讯  > 正文

一场文心大模型的「AI马拉松」

2025-05-25 09:17 · 稿源: 机器之心公众号

声明:本文来自于微信公众号 机器之心,作者:张倩,授权站长之家转载发布。

对于百度而言,既要保持长期主义的战略定力,也要在技术路径上灵活应变,这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。

2025年,模型能力的重要性依然无需多言。

从预训练的角度来看,虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说,预训练数据即将用尽,但海量的图像、视频等多模态数据资源依然有待挖掘。

从后训练的角度来看,强化学习新范式正在让 Scaling Law 焕发新生, 新一代的推理模型在数学、代码、长程规划等问题上不断取得新进展。

对于 AI 公司来说,保持对基础模型研发的投入依然非常必要。现阶段来看,这仍然是攀登智能高峰的本质所在。

而在这个领域,百度一直是一个不可忽视的力量。从2019年发布文心大模型1.0至今,文心大模型从知识和数据融合学习,到知识增强、知识点增强,从检索增强、对话增强、逻辑推理增强,到慢思考、多模态的技术演进并非偶然,而是早期技术探索形成的「积淀」持续推动的结果。正是这份「积淀」引领百度打造出超越 GPT-4o 的多模态大模型文心4.5Turbo,以及领先 DeepSeek R1、V3的深度思考模型文心 X1Turbo。这些技术发展,体现了百度在基础研究上「不变」的坚持与在 AI 快速迭代环境中适时求「变」的进取。

图片

在前两天的百度 AI Day 上,百度集团副总裁吴甜深入解读了文心最新模型的创新技术,并回应了业界对百度文心大模型的诸多关注。通过她的分享,我们得以一窥百度在基础模型研发领域坚持的核心理念与技术演进路径,也更加清晰地认识到了评测数据背后那个真实且充满活力的飞桨文心生态。

在 AI Day 现场,吴甜演示了一个文心 X1Turbo 解题的案例。这道题不光有文字描述,还有几何图,需要模型综合多模态信息进行推理。

图片

从文心 X1Turbo 的回答来看,它思考解答这个题目的思路非常清晰,能够自主规划,识别图片中的明面信息和隐藏含义,再思考分析,反思每个选项答案的准确性,最后综合给出解题步骤和答案。这在一些权威基准测试中也得到了验证。文心 X1Turbo 整体效果领先 DeepSeek R1、V3最新版,略低于 OpenAI o1满血版。

图片

此外,来自中国信通院的大模型推理能力评估也显示,文心 X1Turbo 在24项能力测试中表现突出 ——16项获5分、7项获4分、1项获3分,综合评级达到「4+ 级」,成为国内首款通过该测评的大模型。评估结果还表明,该模型在逻辑推理、代码推理、推理效果优化等技术能力及工具支持度、安全可靠度等应用能力均获得满分。这样一个来自第三方的评测意味着,文心 X1Turbo 已经站稳了国内推理模型的第一梯队。

除了推理能力,文心 X1Turbo 和之前的文心 X1之所以出圈,和它们的成本优势也密不可分。在能力相当的情况下,文心 X1把价格打到了 DeepSeek R1的一半;X1Turbo 则更进一步,把价格打到了 DeepSeek-R1的25%,这让一些海外开发者羡慕不已。

图片

一个搭建多年的全栈技术体系

用吴甜的话来说,无论是多模态还是深度思考,想做出好的效果都不是「一招制胜」,而是通盘的问题。好在,在百度多年构建起来的技术栈中,文心有很多「招式」可以用。

从多模态深度语义理解到多模态大模型

在国内,百度是最早开展多模态研究的 AI 公司之一。他们2018年就在「多模态深度语义理解」方面有所突破,例如视觉语义化和语音语义一体化。以此为基础,他们的技术路线一路演进,进入多模态大模型的时代。

吴甜提到,多模态大模型的核心难点之一在于如何有效地对多模态进行建模。围绕这一问题,他们从多个方向寻求突破,研制了:

  • 多模态异构专家建模:充分照顾到不同模态的特性;

  • 自适应分辨率视觉编码:解决不同分辨率视频在视觉编码上的差异化要求;

  • 时空重排列的三维旋转位置编码:充分利用视频数据中的时空、时序信息;

  • 自适应模态感知损失计算:根据不同模态的特性动态调整损失计算方式,解决模态间差异问题。

图片

采用了这些技术之后,模型在训练过程中学习效率提高了1.98倍,多模态理解效果提升了31.21%。

在她看来,多个模态之间是有相互增益的,多模态是大模型的一个发展趋势。

可以看出,百度对于多模态的技术投入将是长期而坚定的。

从慢思考到深度思考

长期追踪百度技术发展的朋友可能还记得,早在2023年10月,百度就发布过基于「系统2」的慢思考技术,X1和 X1Turbo 便是以此为基础进化而来。此外,2018年、2019年左右,百度就在强化学习方向有所突破,构建了 PARL 强化学习框架等基础设施,这也推动了今天的深度思考模型的研发。

然而,早期的强化学习所解决的问题和今天有所不同,之前的模型主要聚焦于解决单一任务,而今天的模型是解决大量通用任务。

为了迎接新的挑战,百度进行了多项技术创新,包括:

  • 自反馈增强技术框架:建立了「训练 - 生成 - 评估 - 增强」的闭环,让模型能够基于自身的生成和评估反馈能力不断自我迭代。

  • 融合偏好学习的强化学习:结合用户偏好学习的强化学习,提升模型对高质量结果的感知能力和数据利用效率。

  • 多元统一的奖励机制:融合多种评价标准(如结果正确性、执行反馈、思想深度、指令遵循等)对模型表现进行评判,引导模型向更优方向发展。

  • 思考与行动融合的复合思维链:模拟人类不同的思维模式(边思考边行动、先思考后行动、先行动再反思等),通过强化学习让模型在不同任务上探索出适合的思维链和行动链组合,提高解决真实长程复杂任务的能力。

图片

图片

这些解决方案的出现也是技术演进的自然结果。吴甜解读到,当前基础模型的泛化能力很强,意味着模型自己可以在多任务上做探索,给模型输出结果的反馈,通过强化学习技术,让模型自行调试方向不断进化,这是让模型效果提升的重要方式。

复杂的数据建设

当模型进化到多模态、深度推理,数据建设的难度也在随之增大。吴甜提到,多模态数据的建设本身比纯文本数据的建设难度、复杂性都要高。另外是现在大量的多模态的任务所依赖的输入,是一种经过加工或中间处理的状态。 比如说图的生成要给模型一个 Prompt,现在让文生图模型去画图用的 Prompt,要想达到好的生图效果,并不是天然日常所用的文字表达方式,往往要增加一些比如「纸质纹理」、「丁达尔效应」、图片的比例等等这些设计用语。所以需要借助一些技术方法去挖掘、合成。

另外一个难点是稀缺数据的建设。天然的数据分布并不是像我们所希望的那样能够和知识体系匹配起来,这个时候对于一些稀缺数据要进行挖掘。

在解决这些问题的过程中,百度之前研究多年的知识图谱帮助他们构建了完备的知识体系,为稀缺数据的挖掘提供了理论支撑和实践指导。

此外,他们打造了「数据挖掘与合成 - 数据分析与评估 - 模型能力反馈」的数据建设闭环,为模型训练源源不断地生产知识密度高、类型多样、领域覆盖广的大规模数据。

图片

从「飞桨」、「文心」到「飞桨文心」

文心的每一次性能提升,都离不开与飞桨的深度协同和联合优化,这也是百度和其他 AI 公司非常不同的一点。

作为国内第一个功能完备的开源深度学习平台,飞桨从2018年起一直在不断进化,如今已经迭代到了飞桨框架3.0版本。

在百度 AI 的技术架构中,它扮演的是关键的「腰部」角色—— 通过向上与模型层协同解决多模态统一和 MoE 专家均衡等问题,向下与算力层协同提升训练并行效率和推理性能,从而实现大模型的降本增效。

图片

此外,吴甜还提到,飞桨和文心的持续进步,离不开百度在持续构建的 AI 生态系统的贡献。通过多年积累,百度在全国多地落地产业赋能中心、数据生态中心和教育创新中心,依托飞桨深度学习平台和文心大模型,借助广泛的伙伴体系连接千行百业,接触到更多元化的行业需求,也赋能当地的产业智能化升级。

更重要的是,这一生态形成了数据反哺的闭环机制。那些沉睡在各行业中的稀缺数据,无法通过纯技术手段获取,只能通过深度的生态合作逐步挖掘整合,为文心大模型的持续进化提供了源源不断的养分。

长期主义的赛道选择:AI 马拉松

站在2025年这个时间节点回望,百度在 AI 领域的布局体现出明显的长期主义特征。从昆仑芯片到飞桨框架,到文心大模型,再到最上层的应用,百度走的是一条「全栈布局、自主研发」的技术路线。在接下来的赛程中,这种全方位的准备将成为其在竞争中坐稳牌桌的关键所在。

展望未来,两个技术方向是更被百度看好的:多模态和智能体。智能体是建立在基础模型上的复合 AI 系统,它将大模型从单纯的理解和生成工具,升级为能够进行多步骤思考、自主规划并调用工具的行动系统。未来,智能体将成为在应用中解决大量问题的主要方式。而基础模型多模态、深度思考能力的提升可以更好地托举智能体能力。

在提升模型能力的同时,百度还在模型的技术普惠上发力,文心 X1Turbo 的超低定价就是这一努力的代表。只有把模型的成本降得足够低,行业内的广大开发者才能在应用领域尽情施展,创造出一个蓬勃发展的大模型应用生态。

现阶段,整个 AI 生态仍在经历深刻变革,技术影响如涟漪般向外扩散。百度文心「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。

举报

  • 相关推荐
  • 易跑马拉松跑步机亮相知乎新知青年大会,与现代新知人“逃离五险一惊”

    2025年5月24-25日,知乎新知青年大会在北京798艺术区举办,聚焦当代青年面临的"五险一惊"健康困境(肥胖、亚健康、油腻、低能量、体味)。易跑作为家用健身品牌,携旗舰产品M5MAX马拉松跑步机亮相,以22°大坡度设计、52cm超宽跑带、Rhythm+Fun减震技术等创新功能,结合AI智能私教系统,为都市青年提供科学健身解决方案。该产品通过YPOOFIT健身APP接入DeepSeek算法,可定制

  • AI全景观赛革命,海信116英寸巨幕电视+星海大模型重塑家庭绿茵

    海信作为2025世俱杯官方合作伙伴,推出"世俱杯AI足球家庭焕新计划",通过AI显示、空气、美食等技术打造沉浸式观赛体验。其116英寸Mini LED电视UX系列采用独创RGB三维控光技术,实现97% BT.2020广色域,配合帝瓦雷音响系统,带来震撼视听效果。依托自研星海AI大模型,海信开发18个智能体,提供赛事预测、战术分析等深度互动功能。数据显示,海信全球出货量连续三年第二,中国品牌第一,在75英寸以上大屏市场占有率全球领先。国际足联主席因凡蒂诺高度评价海信通过技术创新赋能赛事体验的成就。

  • 淘宝正在发生一场“文艺复兴”

    今年618,一些商家发现,淘宝的流量政策正在变化。 一份给商家的淘宝新政策解析显示,淘天内部今年调整了策略,流量扶持的重点转向了真实成交增量。 所谓真实成交,是扣除退款、退货等资损后核算的真实成交额,直接体现商家实际到账收入及经营效益。 过去几年,仅退款等薅羊毛漏洞的存在等原因,使得电商整体退货率整体走高,很多平台的GMV已经不能真实反应商�

  • 超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

    超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

  • 全球首个女性肿瘤AI大模型 “木兰”正式进入临床应用

    快科技5月14日消息,华中科技大学宣布,全球首个女性肿瘤AI大模型木兰”,正式进入临床应用阶段。目前,公众可通过华中科技大学同济医院”公众号或掌上同济”APP,在互联网医院下的同济木兰AI咨询”栏目中获得免费服务。未来,该模型还将通过更多手机端线上平台、电脑端应用以及各级医疗机构等多种渠道,向公众开放。据介绍,木兰”由华中科技大学同济医学院附属同济医院主导研发,该模型以国内外权威的女性肿瘤医疗指南和高质量专家共识为基础,融合了同济医院近20年来的高质量病例数据。还整合了中国工程院院士、同济医院妇产科学系主任

  • 闲鱼在小红书发起了一场「地推」行动

    5月中旬的一天,我24岁的朋友Nancy从日本冲绳旅游归来,落地才发现自己的相机不见了,又想不起来落在哪里。 但她只用1天时间,就确认了相机所在,并让它顺利回国。 当天17点半,她先在闲鱼搜索「日本代打电话」,5分钟内找到正在出售这项技能的人,随即下单请对方帮自己向去过的各个地方打电话,询问是否有遗落的相机。 第二天日本时间早上8点,他们确认相机在机�

  • 中文大模型忠实性幻觉评测:豆包大模型幻觉率仅4%,位居全球收之首

    SuperCLUE+最新评测显示,豆包大模型1.5Pro以仅4%的幻觉率和96%的准确率位居全球榜首,超越DeepSeek、Gemini-2.5-pro和GPT-4o等主流模型。该模型在文本摘要、多文本问答等关键任务中表现优异,尤其在中文理解任务上国内领先。基于MoE架构设计,其综合性能超过多款超大规模预训练模型,推理成本显著降低。截至2025年3月,豆包大模型日均调用量达12.7万亿tokens,是一年前的106倍。IDC报告指出火山引擎以46.4%市场份额领跑中国公有云大模型市场。据悉,6月11日将发布豆包大模型最新升级进展。

  • 拉长的618正在酝酿一场新大促

    今年的618大促变得更长了。 持续超过一个月的周期,强调立减、直降加补贴的玩法,让用户对大促的感知变得更加多样。有人已经享受到了一件立减的实惠,有人还没意识到618已经开始,有人还在适应玩法的变化,很难像前些年那样,全民出动,卡点下单,同步清空购物车。 消费体感变化的背后,大促的属性、角色和机会正在发生变化,从此前共识的集中囤货节点和大品牌�

  • 7款AI大模型写高考作文,语文名师点评,豆包、GPT等斩获前三

    刚刚, 2025 年高考作文题目出炉,再次成为亿万网友关注的话题。越来越“聪明”的人工智能大模型写高考作文真题,会带给我们怎样的惊喜?阅卷老师又会给出怎样的分数呢?今年湖北高考语文采用全国一卷,作文题为根据给定的材料进行写作。根据阅卷老师的打分,豆包、通义千问、GPT-4o的作品斩获前三名。全国一卷阅读下面的材料,根据要求写作。( 60 分)他想要给孩子们唱

  • 九四智能亮相大阪,AI大模型驱动全球企业实现智能化转型

    2025年5月28-29日,九四智能(94AI)将携自主研发的"大模型联络中心"解决方案亮相大阪"2025呼叫中心CRM演示和会议"。该方案通过AI Agent技术实现从用户触达、需求挖掘到服务闭环的全流程自动化,助力企业重构客户服务与运营效率。作为智能语音领域领军企业,九四智能已在金融、电商、保险等行业积累创新实践,其解决方案支持多语种与文化适配,满足GDPR等全球合规要求。会议重点探讨了数字化转型背景下AI与CRM系统的深度融合,展示了AI在跨境场景中的语言、文化及合规优势。未来,九四智能将持续推动全球企业智能化转型。