中国工程院院士高文：没有大算力做大模型就是天方夜谭

2023-07-07 20:57 · 稿源：凤凰网科技

凤凰网科技讯 7月7日消息，中国工程院院士、鹏城实验室主任高文在世界人工智能大会昇腾人工智能产业高峰论坛上演讲时表示，没有大算力做大模型就是天方夜谭，这就和电力是一样的，可以省点电做出什么产品来，别人真正懂行的人听了都不信的，一定要有算力作为基础。

“美国的算力现在指数是排第一，比我们大概多了 30%的算力，那么也就代表 GDP 也比我们多 30%，什么时候我们的算力超过了美国，咱们的 GDP 就可以超过美国了。”

他表示，从现在开始，算力也是数字经济发展的一个指数，算力够，你的数字经济就能够发展好，不够就发展不好。

以下为高文演讲全文：

各位专家、各位领导，大家下午好!

前面的领导都讲得很好，算力是非常重要的一件事，今天上午陈书记在讲的时候也讲到，上要抓三件大事，人工智能方面其中就有一个是算力建设，算力建设非常重要的一方面，就像电力一样，我们知道原来李克强**抓经济的时候，李克强经济中有一个很重要的指数就是“克强指数”，是靠电力的消耗看整个经济的发展顺利不顺利，或者是正常不正常。

从现在开始，算力也是数字经济发展的一个指数，你算力够，你的数字经济就能够发展好，不够就发展不好。所以，特别是智能算力就非常关键。

所以跟大家分享关于鹏城云脑的智算平台，再就是分享一下在这个平台上面做的鹏城脑海大模型。

首先，我们说算力很重要，重要到什么程度呢?

清华大学的一个 2022 年的咨询报告说到了，经过统计计算力指数和 GDP 是正相关的关系，你算力越强你的 GDP 就越强，最右边的图可以看到，美国的算力现在指数是排第一，比我们大概多了 30%的算力，那么也就代表 GDP 也比我们多 30%，什么时候我们的算力超过了美国，咱们的 GDP 就可以超过美国了。

正是因为算力这么重要，所以发展人工智能和经济没有算力不可能，要有算力要有芯片，芯片做成机器，用这个机器训练这个模型，为了做这件事，我们在 2020 年深圳就做了一台机器，这台机器叫鹏城云脑II，这台机器的算力在 2020 年的时候是全世界做人工智能训练最强的一台机器，比当时微软、谷歌的机器都要强，相当于是 4000 块卡的机器，而且这台机器是 4000 块 A100 卡的机器，这台机器是用全光网络把它连起来的，节点和节点之间的延迟非常低。

因为，有了这台机器可以做很多事，包括我们可以做科学研究，可以做产业应用还有关键技术的研发。

这台机器刚刚我说有 4000 块卡，一个是鲲鹏 CPU，一个是昇腾 NPU，都是华为的。

有了这台机器以后，那么这台机器的性能行不行呢?就参加世界 TOP500 的超算的打榜，整个超算整个算力的打榜，同时它也有其他的赛道，我们参加的一个是 IO500 的赛道，你的输出和输入能力的赛道，我们从 2020 年 10 月份这台机器做出来以后，11 月份就参加打榜，连续 6 次第一，每半年有一次打榜，全节点连续二次第一。

所以，这台机器在做人工智能训练这件事，别人没办法和它比。这台机器的 AI 算力，这个是三年一次的，也参加了打榜，连续三次第一。这台机器不仅硬件强，接口能力和网络非常强，同时上面的软件也是配备得比较完备，包括怎么样做分布式计算，怎么样做命令调优、自研的调度规划等等。这台机器这么大规模的机器以前还是第一次，相当于它的四台机器，其实是四台我们的机器组成这一台了，上面有很多软件的挑战。

可能有的专家也许听到过，有人说全世界能在 1000 块卡上同时选连一个模型的只有几千人，能在 4000 块卡上训练的不超过 100 个人，在 10000 块卡上训练模型的人数更少了，大规模的卡上一起做事，对于软件规划、资源调度挑战非常大。

我们不仅仅是把鹏城云脑II用好，我们也承担了国家发改委的任务，用鹏城云脑II类似的华为生态的，用在昇腾 AI 集群，不管是 100P 和 900P 的算力结点，我们用网络把资源连起来，可以给大家提供，告诉你这里有资源可以通过网络去用。

同时，我们还把华为生态以外的，按照发改委的要求，希望这是异构的算力网的平台，我们也选择了部分其他厂商的算力，在 2022 年 6 月这个项目验收的时候，已经聚合的智能算力到了 2300P，云脑II只是 1000P，这个系统已经聚集了 2300P 的智能算力。

我们有了云脑II可以训练大模型了，训练大模型还是很费算力的，但是即使你可以训练大模型，现在的需求根本不够用，我们正在规划做云脑III。

下面我说说大模型，鹏城正在做一个大模型，这个大末是 2000 亿参数，也就是 200B 的参数，为什么做这件事呢?

不用再花时间了，因为有 Chat GPT 和类 Chat GPT 大模型在不停地涌现，同时因为现在很多公司都用这个东西做产业应用，去做服务。所以，现在这个模型变得很重要了，但是现在有钱的公司可以砸几个亿做这样的机器，甚至十几个亿和几十个亿，但是大多数的公司做不了。

这个领域需求这么大，怎么办呢?

我们鹏城实验室可以做一个底座，模型训练完开放出去，大家在这个底座说做垂直应用。按照这样的思路，我们首先有鹏城云脑II的算力，前一阶段我们积累了很多的数据，这一段时间前几个月我们通过各个渠道，包括购买拿到数据，先下面做清晰，清晰的数据很重，可能我拿到了 100 个数据，清晰完就剩几个了，因为有很多是重复和不规范的，这些东西拿掉就变得很小。虽然拿了很多的数据，但是真正用来做训练的数据只有 1%-5%。有了这个数据我们就可以做大模型底座。

这个大模型底座，我们就是用的生成式预训练模型，就是和 GPT 完全类似的底层的东西，用这个东西训练一个好的模型，希望可以开放出去。

现在这个模型我们想着 2000 亿参数，200B 的参数，这个训出来以后，我们希望把它给到合作伙伴那里，而且提供相应的指令微调和相应的人工增强学习的工具，甚至做一两个垂直领域，做样板作为垂直应用，怎么样用告诉大家，因为华为在这方面很有经验，我们建议谁想做垂直应用，可以到华为得到一些咨询用这个模型做他们的应用。

有了这个东西，我们希望能够快速把这个模型做完可以推向社会，让社会在这个模型上开发中国自己的人工智能大模型应用系统。现在我们正在紧锣密鼓往前推，应该是 8 月底第一次所有的训练就训练完了，9 月份就会把模型开放出去。

现在训练的数据有多大呢?我们说的是喂数据，每天喂 10 个 B，但是最重要喂一个 T 的数据，一个 T 是由几百个 T 清晰来的，现在数据都是中文和代码数据，现在 4000 多块卡的机器每天可以吃掉 10 个 B，100 天就能吃掉 1000 个 B，就是一个 T，我训练 2000 亿参数的模型，需要 4000 块卡训练 100 天。

这就是算力，你如果不够大的话，做一个模型还是很辛苦的，而且我现在才训练了一个 T 的数据，训练两到三个 T 的话，还要加两到三个 100 天，没有大算力做大模型就是天方夜谭，当然有很多人说我可以用限速(音)等等这样那样的，但是实际上这就和电力是一样的，可以省点电做出什么产品来，别人真正懂行的人听了都不信的，一定要有算力作为基础。

我们的算力到现在为止，怎么样把数据做好训练得快，我们有一套体系，有一个开源社区叫启智开源社区，这里面有很多的工程师做飞轮数据工程，可以使你清晰数据做得非常快，有很多自动和半自动的清晰数据，都可以帮助你。

模型训练，4000 块卡吃掉 10 个 B 的数据，整个的损失每天都在降一点，我们看着特别高兴，每天有数据汇报，一天降了 0.2，我们现在大概在 2 的上下浮动，我们希望最终可以降到 1.8 左右。

这是训练的过程，同时我们要考虑应用的时候有隐私数据有一些数据应用者，希望到你这个模型应用一下，但是不希望自己的数据被丢掉或者是看到，我们提供了隐私数据保护的模块，我们叫防损包，有了这样一套体系就可以支持应用了。

我们希望鹏城脑海出来了可以快速向社会赋能，可以让大家做数字政府、“一带一路”、智能制造、智慧金融、智慧医疗等等各种各样可能的应用，这里有黄颜色和白颜色，黄颜色是现在已经投进人去做了，你做指令微调和正向学习都需要。后面是放给合作伙伴去做的，而且我们还有一些完整的整个教育计划、人才计划，人才计划就希望这个模型训练放出来，大量培养人才，通过高校和合作伙伴培养，能让中国的大模型应用快速启动。

小结一下，鹏城实验室在鹏城云脑II硬件平台和鹏城脑海大模型这两件事都在和华为合作正在往前推进，希望可以对中国人工智能大模型用贡献一点力量，作为一个基石，希望大家多关心、多参与。

谢谢大家。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
讯飞星火大模型V3.5升级推出长文本、长图文、长语音大模型

科大讯飞今日发布重大更新，讯飞星火大模型V3.5升级，不仅推出了首个长文本、长图文、长语音大模型首次将多情感超拟人合成技术引入市场，并同步推出了星火智能体平台。这一系列创新举措，旨在为招投标应用和合同应用提供更为强大的技术支持。插件市场和原生应用也为开发者和用户提供更多功能和工具选择，共同构建讯飞星火大模型生态。

科大讯飞讯飞星火大模型V3.5 多情感超拟人合成技术
中国首个音乐SOTA模型「天工音乐大模型」今日公测

2024年4月17日，在「天工」大模型一周年之际，昆仑万维重磅宣布，「天工3.0」基座大模型与「天工SkyMusic」音乐大模型正式开启公测!一年前的今天，第一版天工大模型正式对外发布上线，一年来我们不断迭代模型，迭代应用产品，模型和应用都越做越好，以此回报广大用户的支持。「天工」系列大模型已集成了AI音乐、AI搜索、AI写作、AI长文本阅读、AI画图、AI语音合成、AI漫画创作、AI图片识别、AI代码写作、AI表格生成等多项能力，并将在未来加入AI视频功能，对标“超级应用”，成为人工智能时代的“超级大模型”。在“实现通用人工智能，让每个人更好地塑造和表达自我”的公司使命驱动下，昆仑万维将始终致力于AI技术与产品的创新开拓，不断提高AI产品的用户体验，与用户、研究人员、开发者们携手，共创国产大模型的未来。

天工3.0 大模型公测
荐算力不足，小模型成AI模型发展下个方向？

大模型不是AI的唯一出路，把模型做小也是本事。AI模型界是真的热闹，新的模型不断涌现，不管是开源还是闭源，都在刷新成绩。谁能在将模型做小的同时能实现性能的增长，也是实力的体现。

人工智能开源模型 Meta
荐挑战拯救痴心“舔狗”，我和大模型都尽力了

大模型化身为“痴情男大”，等待人类玩家的拯救。一款名为“拯救舔狗”的大模型原生小游戏出现了。大模型在学习这个世界，也在创造一个AINative的世界，无论是大模型原生小游戏是功能越来越全的大模型对话，都在展现世界内容的互动变革，随着尺度规律的不断发展，下一步会怎样?在这次技术交流日上，商汤最后放出了一段文生视频，一起来看看。

大模型
荐巨头狂卷代码大模型

让AI写代码正在越来越流行。今天蚂蚁集团智能研发平台CodeFuse推出了“图生代码”技术，这一技术集成在CodeFuse上，可将网页、App等设计图一键转化成前端代码。

大模型
每日互动持续增强大模型能力，推出、升级多款大模型应用产品

人工智能引领的"第四次工业革命"正在到来，特别是2023年以来，以大模型、多模态、生成式为特征的新一轮人工智能浪潮席卷全球，带来新的变革。在这机遇与挑战并存的时期，国内专业的数据智能服务商--每日互动快速响应、积极探索大模型、AIGC等先进数智技术，升级产品性能，驱动业务创新，并储备公司下一条S型曲线。每日互动本身就是优质数据资源的持有方，因此在未来，拥有海量鲜活的数据积累、深厚沉淀的数据治理能力、丰富多元的数据应用场景的每日互动将更有可为。
开源大模型食用指南官网地址入口详细环境配置、模型部署、高效微调方法教程

开源大模型食用指南是一个旨在帮助用户学习和应用开源大模型的全流程指导教程。它提供了详细的环境配置、模型部署、高效微调等方法，以简化开源大模型的使用和应用，让更多普通学习者能够轻松上手。要获取更多详细信息并开始您的开源大模型之旅，请访问开源大模型食用指南官网。

开源大模型食用指南
荐从小数据到大模型，“AI+”何以落地？

南京师范大学附属中学宿迁分校成立智慧教学小组，并以周为单位，对教师的智慧课堂应用数据进行复盘;中国人民大学附属中学丰台学校的教师们，已经习惯于课后通过课堂智能反馈系统总结自己的上课情况;而通过集体备课平台，北京师范大学广州实验学校的教师们可以随时随地进行线上交流互动和资源共享……在全国各地的中小学，AI技术正与教育不断融合。变化背后，有�

大模型
荐为什么要做长文本、长图文、长语音的大模型？深度解读讯飞星火V3.5春季上新

4月26日，科大讯飞发布讯飞星火大模型V3.5的功能上新，其中一个重点就是面向用户各种场景中高效获取信息需求，发布首个长文本、长图文、长语音的大模型，能够支持文档、图文资料、会议录音等各种信息来源的快速理解和学习能够结合各种行业场景知识给出专业、准确回答。效果到底如何?今年人形机器人发展火热，我们将一份长达70多页的人形机器人报告，丢给了讯飞星火。科大讯飞将在6月27日发布讯飞星火大模型V4.0，进一步实现对GPT-4Turbo的对标。

大模型
对标GPT-4！中国移动九天大模型通过双备案

日前，国家网信办公布已备案大模型清单，中国移动九天自然语言交互大模型”名列其中，标志着中国移动九天AI大模型可正式对外提供生成式人工智能服务。中国移动表示，这是同时通过国家生成式人工智能服务备案”和境内深度合成服务算法备案”双备案的首个央企研发的大模型。据介绍，九天自然语言交互大模型具有行业能力增强、安全可信、支持全栈国产化等特点，已

大模型清单中国移动九天生成式人工智能服务

今日大家都在搜的词：

热文

3 天
7天

中国工程院院士高文：没有大算力做大模型就是天方夜谭

今日大家都在搜的词：

热文

站长商机