6月20日-22日,一年一度的华为开发者大会(HDC2025)隆重启幕。大会期间,AI科技创业者、Al畅销书作者、人工智能头部自媒体博主GenJi(李艮基)携手华为博士天团,围绕盘古NLP大模型、盘古世界模型、具身智能,以及预测大模型四大核心内容,展开了一场深度技术对谈,华为AI领域核心研发团队首次集中揭秘,干货满满!
以下是本次直播实录“预测大模型”部分——
Genji:刚才提到的“预测大模型”这个词比较新,请简单概述一下。
常博士:现有所有的AI都是利用部分数据训练出的特定场景的模型来解决特定问题。我们希望通过预测大型模型可以在世界上所有可获取的数据知识中进行统一学习,然后将AI部署和应用于无限多的场景中。甚至在一些新出现的场景中,我们也可以迁移模型并加以利用。这就是我们的愿景:无限数据的学习,无限场景的应用。
Genji:我很好奇在盘古预测大模型中,您是基于什么动机和背景去做的?
常博士:企业面对有限数据构建 AI 分析模型时,既需要突破数据量不足的瓶颈,又要解决小样本场景下模型精度优化的技术难题,而现有技术体系尚未形成系统性解决方案。因此,我们对预测大模型的核心期望在于:通过构建具备知识泛化能力的模型架构,使其在完成多源数据学习后,能够无缝迁移至各类新兴业务场景及下游任务。这一需求的底层逻辑源于 To B 业务的现实约束 —— 当面对海量客户需求时,传统定制化解决方案难以规模化落地,而挖掘场景共性并实现批量式问题解决,成为破局的关键路径。
Genji:在这么多数据的技术架构探索中,您有什么发现和洞见可以与我们分享吗?
常博士:在 AI 应用实践中,视觉与语言领域因数据规模庞大,已通过大模型技术实现系统性突破。但更多垂直场景仍面临「定制化建模困境」:传统方案需针对每个场景的数据格式、类型设计专属网络结构,这种「一事一模型」的模式不仅难以覆盖海量场景,更导致不同模型间形成「智能孤岛」—— 各场景的 AI 能力彼此割裂,无法通过知识共享实现协同进化。
追根溯源,该问题的本质在于数据表征的碎片化。所有数据本质上都是对物理世界的离散化建模:
• 图像数据以二维网格为基本单元(像素阵列),无论是手机拍摄的风景照、天文望远镜捕捉的星系图像,还是显微镜下的微观影像,其数据结构均遵循格子空间规律,这也是卷积神经网络(CNN)通过局部特征扫描实现高效建模的底层逻辑;
• 文本数据呈现单向序列结构(字符流),与图像的二维空间截然不同,因此 Transformer 通过自注意力机制捕捉序列依赖关系;
• 工业传感器数据则更为复杂,不同设备的采样频率、空间分布、物理含义差异显著,导致其数据结构缺乏统一范式。
这种数据结构的多样性,使得传统 AI 模型必须针对特定场景设计专属架构。当石油钻井传感器数据(时序 + 空间多维信号)、医疗影像(三维体数据)、物流路径数据(图结构)等并存时,差异化的模型架构导致知识迁移难以实现。因此,突破的关键在于建立「数据原子级表征体系」—— 通过抽象不同数据形态的底层共性,在表征层面构建统一的数学语言,为跨场景智能迁移奠定基础。这一思路既需要解构物理世界的信息编码规律,也需重构 AI 模型的底层表征范式,是打破智能孤岛的核心技术路径。
Genji:在我听起来,我们目前要做的很像是爱因斯坦找寻的大一统理论,所以是这样吗?
常博士:是的。我们致力于构建的大一统 AI,其本质是通过全量数据的统一学习,实现“一次训练、全域迁移“的智能进化。这一目标的核心在于:让 AI 在掌握图像、语言、药物分子、工业数据等全类型数据的底层规律后,能自主适应从未见过的新场景,从而打破传统 AI“一场景区分一模型”的碎片化局限。我可以举个很简单的例子,我们可以把不同的数据嵌入不同的空间,就相当于照片、语言、药物分子、表格等分别在不同空间,我们可以将这些不同的空间想象成分子结构,人类分子的种类有无穷多个,可以合成非常多种类的分子,但是构成分子的原子数量并不是很多,也就是我们所谓的原子级表达,这是我们期望做到的,当有了原子级表达之后,所有的数据看来都是一样的,我就可以进行下一步的学习,通过原子级表征发现数据背后的普适规律。
Genji:在这个过程中有哪些应用的案例?
常博士:在具体应用里面,比如炼钢这个过程,输入层是铁矿石原料配比、燃煤量、氧气 / 空气注入量等实时变化的参数,输出层是铁水温度预测值。在这类复杂工业场景中,传感器数据量远少于视觉数据,仅靠本场景数据难以构建精准模型。而大一统 AI 方案通过跨领域数据学习,将预训练模型迁移至炼钢场景,实现高效适配。国内某大型钢厂应用后,模型预测准确率远超传统方案。此类工业场景在国内数量众多,大一统 AI 突破数据稀缺瓶颈,以知识迁移实现批量价值创造,为制造业数字化提供关键支撑。
Genji:既然已经做了这么多事情,那么您在这一块有遇到哪些攻坚克难的细节可以分享吗?
常博士:在全球及国内大模型聚焦语言、视觉、视频或单一行业(如蛋白质分析)的当下,华为自主研发的预测大模型走出了差异化路径。该模型在研发初期面临多重挑战:由于覆盖场景远超语言 / 视频等单一领域,即便投入大量资源仍难以穷举所有需求;更关键的是,业界缺乏可参考的成熟方案,团队需从零开始探索技术路线的正确性、效果及价值,甚至一度质疑核心问题的定位。我们逐渐意识到,传统的定制化模式无法根治问题,必须从底层实现大一统:统一数据格式、架构设计及模型体系。这一决策的核心逻辑在于:唯有通过标准化整合,才能突破场景碎片化瓶颈。如今团队已明确目标,正基于该思路推进技术落地。
Genji:在这个脉络里,您觉得未来预测大模型有什么发展趋势方向?或者您又有什么感兴趣的研究领域?
常博士:今年我们推出了基于统一编码与架构的首个技术版本。这条技术路径蕴含巨大探索空间,我认为未来学术界会有更多研究者投身于此 —— 唯有锚定「双统一」核心方向,才能推动技术沿着正确轨迹演进。
接下来我们规划了两条优化路线:第一条是延续现有技术路径,通过持续扩充数据规模优化模型性能;第二条聚焦 To B 场景落地难点:许多客户虽持有数据,却缺乏数据建模与分析能力;
预测大模型当前仍依赖“先定义问题再解决问题”的模式,需要与 Agent 智能体协作完成问题构建。这既是预测大模型在 B 端场景的突破方向,也是未来技术迭代的关键着力点。
Genji:您提到AGI,我相信AGI会到来,AGI到来也一定是以解决问题为导向的,那么关于AGI的未来,大模型的明天,您认为有哪些趋势和脉络?
常博士:AGI 的本质在于具备人类般的「通用智能」—— 如同人类从小学到职场的成长历程中解决了100件任务,未来面对第101件与过往完全不同的新任务,也能通过抽象过往经验的本质规律实现平滑解决。这种能力的核心特征是:
1、知识迁移的灵活性:不依赖特定场景的训练数据,而是从机械学习、语言理解、图像识别等跨领域经验中提炼共性逻辑(如因果推断、模式识别);
2、问题本质的洞察力:能识别新问题与历史任务在底层逻辑上的相似性(如将金融风控问题类比为医疗诊断的概率推理模型)。
上述两点构成 AGI 的核心进化闭环:
解决新问题 → 积累新经验 → 丰富知识基底;
发现新问题 → 定义新任务 → 驱动智能边界扩展。
这种模式如同人类科学发现的迭代过程 —— 从牛顿力学解决宏观运动问题,到爱因斯坦相对论主动发现时空本质问题。当 AGI 具备该能力时,其发展将突破人类预设的任务边界,形成自我驱动的“智能奇点”。
Genji:刚才常博士分享的过程中,引入了从小学到初中学习路径。这个世界从来不缺好答案,缺一个好问题。去年全国一卷的语文高考题目,也是这个类型的问题,像人工智能一直在探讨关于问题与答案之间的关联关系,我曾看过一本书叫《第三次教育革命》,在教育里,您刚才提到小学初中这个阶段,我们一般学习的东西,包含了知识、信息和经验,其中经验是最难获取的,知识反而成本没有那么高,因为它都印在书本上,就像您所说,基于理论推演出大一统,再通过大一统泛化,这个依托的就是经验,这也AGI,这其实是一件事情非常的“带劲”事情。
常博士:是的。我本科学习数学时常常做证明题,当时不理解其意义,老师说数学的本质是当你忘记所有具体证明后剩下的逻辑思维能力,这和 AGI 很相似:AGI 不应局限于记忆具体数据,而要从数据中抽象出普适规律,并用这些规律迁移解决全新场景的问题,这是合格 AGI 的标准;若能在此基础上自主发现问题、持续迭代进化,就能迈向强 AGI,其核心在于让智能摆脱具体知识的束缚,成为可自主认知和创造的规律发现系统。
围绕预测大模型的工业化和to B端展开探讨,华为云通过业界首创的triplet transformer统一预训练架构,将多源数据进行统一的三元组编码,并在同一框架内高效处理和预训练,不断强化预测大模型能力,为其跨行业、跨场景的泛化应用提供助力。
(推广)