首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

国产大模型梯队玩家,为什么pick了CPU?

2024-07-11 10:12 · 稿源: 站长之家用户

AI一天,人间一年。

现在不论是大模型本身,亦或是AI应用的更新速度简直令人直呼跟不上——

Sora、Suno、Udio、Luma……重磅应用一个接一个问世。

也正如来自InfoQ的调查数据显示的那般,虽然AIGC目前还处于起步阶段,但市场规模已初具雏形:

行业整体迅速发展固然是好事,但具体到每个的应用或者大模型的落地来说,面临的竞争也越发激烈了。

例如前不久各个大模型厂商之间展开的非常激烈的“价格战”,主打一个比谁更便宜,甚至直接把大模型价格推向“厘时代”。

加上最近OpenAI的“断供”事件,更是让国内厂商们在打出“轻松搬家”计划的同时,再加码Tokens送送送的力度。

究其原因,也是与当下应用为王,尤其是以尽量低的成本把业务快速落地的这一大趋势紧密相关。

那么问题来了,大模型玩家们何以在又快又好又省之间做到平衡?

这就回到了那个避不开,同时又是成本里占绝 对大头的因素——算力。

现在提及大模型的训练和推理,很多人的第 一反应或许就是想到了GPU。

诚然GPU在高性能上占据着一定的优势,但它所存在“硬伤”也是比较明显,那便是供应不足、价格昂贵。

何以破局?国产大模型第 一梯队玩家百度智能云千帆大模型平台,就给出了自己的一个更具“效价比”的解法:

具体到算力的部署上,百度智能云AI与大模型平台总经理忻舟认为:

一言蔽之,在大模型时代,CPU甚至比以往更加重要了,而且是能让大模型和应用做到“快好省”落地的关键因素之一。

那么具体“上岗”效果又是如何,我们继续往下看。

国产头部大模型玩家,pick了CPU

国内AIGC应用爆发,这其中,百度智能云千帆大模型平台功不可没。

作为企业使用大模型的”一站式”服务平台,千帆大模型平台自去年3月发布以来已有超12万客户使用,累计调优模型2万个,孵化应用4.2万个。

这些应用覆盖教育、金融、办公、医疗等众多场景,为行业数字化转型提供了有力支撑。

在教育领域,千帆大模型平台赋能了试题生成、在线批改、题目解析等应用,提升了教学和备考效率。

例如用户可以提供参考材料,设定题型和难度,平台就能自动生成高质量的试题。而交互式的题目解析,则可以针对每位学生的薄弱环节,提供个性化的学习指导。

在办公场景,千帆大模型平台与业内头部企业合作,共同打造了智能写作助手等创新应用,能够根据用户输入的关键词,快速生成招聘文案、营销方案、数据报告等专业文档。

还可以专注于各类写作场景,可以智能生成论文大纲、项目汇报、品牌宣传稿等,提升了行政和营销人员的工作效率。

医疗健康是千帆大模型平台的另一大应用赛道。基于医疗知识库训练的模型,可以自动生成体检报告解读,用通俗易懂的语言向用户解释各项指标,并给出个性化的健康指导。

这让普通大众也能更好地了解自己的身体状况,实现”健康自主管理”。

可以看到,千帆大模型平台在多个领域实现了AI模型的”最后一公里”落地。

那么千帆大模型平台是怎么支撑如此多AI应用的呢?

答案是:让CPU成为客户的选择之一,让“效价比”的红利普惠千行百业。

之所以如此,百度智能云所给出的解释是:

至于效果,以Llama-2-7B为例,在第四代英特尔® 至强® 可扩展处理器上输出 Token 吞吐可达100TPS 以上,相比第三代提升了60%。

△Llama-2-7b模型输出Token吞吐

在低延迟的场景,同等并发下,第四代至强® 可扩展处理器的首Token时延比第三代至强® 可降低50%以上。

在将处理器升级为第五代至强® 可扩展处理器之后,较上代的吞吐可提升45%左右,首 Token 时延下降50%左右。

△Llama-2-7b模型首Token时延

并且千帆大模型平台团队根据实践经验还表示:

不仅如此,利用充足的CPU资源,降低对于AI加速卡的需求,从而降低 LLM 推理服务的总体拥有成本 (TCO),特别是在离线的 LLM 推理场景中表现出色。

而且在千帆大模型平台上,可不止是有自家的ERNIE,还有很多主流的大模型都集成于此。

这也在一定程度上从侧面印证了第五代英特尔® 至强® 可扩展处理器在性能上的过关。

英特尔第五代至强,如何让性能和效率变得Pro Max?

百度智能云千帆大模型平台,不止需要大模型推理一种工作负载,它其实是一个覆盖大模型全生命周期的平台。

具体来说,千帆大模型平台提供数据标注,模型训练与评估,推理服务与应用集成的全面功能服务,以及快速应用编排与插件集成,助力大模型多场景落地应用。这样一来,比起专为大模型推理部署专用加速器,充分利用平台已广泛部署的CPU资源,就是更划算的选择了。

对于千帆大模型平台上存在的大量离线大模型应用需求来说,如生成文章总结、摘要、评估多个模型的效果等,这类需求对推理的时延要求其实不高,但内存容易成为瓶颈。

采用CPU来做,扩展内存更方便,还可以利用起平台闲时的算力资源,进一步提高资源利用率,起到降低总拥有成本的作用。

在这个大背景下,第五代英特尔® 至强® 可扩展处理器中的性能密集型通用计算应用负载(类似P Core性能核)的设计就尤为关键了。

与E Core(能效核)相比,P Core采用了追求性能最 大化的设计,能承载非常重的负载,同时还兼顾了AI推理加速。

采用此设计的第五代至强® 可扩展处理器,在兼顾AI推理加速这一点上可不是说说而已,而是软硬件协同优化,各方面都考虑到位了。

硬件方面,英特尔® AMX(高 级矩阵扩展)技术,正是为大模型推理重深度学习中大量的矩阵乘法运算专门优化的,可以理解成”CPU 里的 Tensor Core”。

有了英特尔® AMX,处理器每个时钟周期可完成高达2048个INT8运算,比上一代AVX512_VNNI指令提升8倍之多。

更重要的是,英特尔® AMX加速器是内置在CPU核心里的,让矩阵存储和运算更近,这一特性应用在大模型推理上,能够降低处理下一个Token的时延,让终端用户的体验更好。

△英特尔® AMX 可以更有效的实现 AI 加速

软件方面,百度智能云千帆大模型平台已经引入了针对英特尔® 至强® 可扩展平台深度优化的大模型推理软件解决方案xFasterTransformer (xFT),并将其作为后端推理引擎。主要优化策略如下:

充分利用 AMX/AVX512等指令集,有效实现核心算子如 Flash Attention 等

采用低精度量化,降低数据访存量,发挥 INT8/BF16运算的优势

支持超大规模模型的多机多卡并行推理

△英特尔® 至强® 可扩展处理器 LLM 推理软件解决方案

最后还要补充的一点是,要知道选择一种硬件平台,不止关乎于设备本身的采购价格,还会影响到后续的维护成本,甚至人才储备成本。

所以正如百度智能云所言,高性价比的算力基础设施,与先进的大模型算法和平台软件相辅相成,让上层的开发者们能够更加平滑地应用,构建他们的业务,才能最 大化云计算平台的商业价值。

大模型时代,CPU大有可为

纵观当下,大模型正从实验室走向产业,从少数人的“玩具”变为大众可用的“工具”。

这意味着,大模型服务不仅要有优秀的性能表现,还要做到价格亲民、部署便捷。一言以蔽之,“快好省”成了大模型商业化的关键一环。

而要实现“快好省”,算力基础设施的选择至关重要。

传统观点认为,专用加速器才是AI的“标配”。但在供应紧张、成本高企的背景下,专用加速器的优势正在减弱。

相比之下,优化良好的高端 CPU 不仅能提供足够应对大模型推理的算力,而且具有更广泛的部署基础和更成熟的软件生态、以及更好的安全保障,开始受到越来越多业界玩家的青睐。

以英特尔® 至强® 系列为代表的x86架构CPU,拥有成熟完善的软件生态和广泛的应用基础。数以百万计的开发者可以利用现有工具和框架,快速构建和优化AI应用,而无需额外学习专门的加速器软件栈,降低了开发难度和迁移成本。

同时,企业级用户还可以利用CPU内置的多层次安全技术,实现从硬件到软件的全栈保护,充分保障数据安全和隐私。这些优势,是当前专用加速器难以比拟的。

由此可见,充分利用CPU进行推理,让AI从“烧钱游戏”变为“普惠科技”,正是AIGC产业应对算力门槛,推动规模化应用落地的关键一招。未来,随着技术创新和生态完善,这一模式还将为更多企业创造价值,为产业发展注入新的动力。

除了直接加速推理任务外,CPU在完整的端到端AI管线中还能有效完成数据预处理、特征工程等AI全流程中的关键步骤。而支持机器学习和图分析的各类数据库,也主要是构建在CPU之上的。以至强® 可扩展处理器为例,除了英特尔® AMX之外,还有诸如英特尔® 数据保护与压缩加速技术(英特尔® QAT)、英特尔® 存内分析加速器(英特尔® IAA)等一系列数据分析引擎内置于处理器中,通过卸载特定任务使CPU得到更好的利用,从而提升工作负载整体性能,实现数据分析加速。

由此可见,构建“快、准、稳”的 AI 应用,既要靠专用加速器强大的算力,也离不开CPU超强的通用计算能力去释放整个系统的潜力。

为了科普CPU在AI推理新时代的玩法,量子位开设了《最“in”AI》专栏,将从技术科普、行业案例、实战优化等多个角度全面解读。

我们希望通过这个专栏,让更多的人了解CPU在AI推理加速,甚至是整个AI平台或全流程加速上的实践成果,重点就是如何更好地利用CPU来提升大模型应用的性能和效率。(量子位)

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 零门槛数字IP上线,邦彦Nuwaai掀起世界人工智能大会(WAIC)互动体验热潮​

    邦彦技术在2025世界人工智能大会发布Nuwaai数字人平台,主打"3分钟创建AI数字IP"概念。该平台通过三大核心模块(形象塑造、才艺赋能、个性养成)实现数字人全流程创作,支持古风、职业装等多种风格定制,并能加载营销、直播等专业技能。相比传统方案,Nuwaai将开发成本降至8元起,交付周期缩短至3分钟,支持按需加载功能。平台定位"数字人生产力工具",覆盖营销、社交、娱乐等多场景应用,旨在推动数字人技术从概念探索迈向实用化。目前官网已开放注册,面向个人创作者和企业用户提供低成本数字IP解决方案。

  • 加速AI场景落地和产业赋能 云谷“论数”之人工智能产业应用大会圆满举办

    7月16日,云谷"论数"之"AI·场景落地+产业崛起 就在浙里"人工智能产业应用大会在杭州举行。活动由浙江省工程师学会等多家单位联合主办,聚焦AI规模化落地与科技成果转化。与会专家指出,2025年是AI发展关键年,浙江将深化场景落地实践,打造"应用实践-技术优化-价值创造"闭环。企业代表分享了AI在智能制造、智慧交通等领域的应用案例,强调技术需扎根产业需求。活动还成立了大数据与人工智能专委会,未来将促进产学研协同创新,推动AI在千行百业规模化应用,助力浙江打造全球AI创新高地。

  • 星辰聚智·才启未来:2025世界人工智能大会中国电信发布系列前沿能力及AI产品

    7月27日,TeleAI科技前沿论坛在上海模速空间举办,主题为"星辰聚智·才启未来"。论坛汇聚全球行业专家、青年学者及企业家,探讨AI创新趋势。中国电信发布多项AI成果:1)TeleAI研究院凭借大模型创新获2025SAIL之星奖;2)提出"智传网"三大定律(信容律、同源律、集成律)及生成式智能传输等创新技术;3)发布"星小辰"智能终端,整合高德地图、航旅纵横等服务;4)推出首款智能眼镜"天翼AI智镜",具备物体识别、实时翻译等功能;5)启动"青年智算计划",投入超600P算力支持AI创新。论坛展示AI在终端、机器人等领域的深度应用,体现中国电信"云改数转智惠"战略布局。

  • Checkout.com项尧受邀参与 WAIC2025 共话人工智能时代跨境支付新机遇

    2025世界人工智能大会(WAIC)于7月26-28日在上海举办,全球领先支付解决方案提供商Checkout.com受邀参与"无界人工智能:深化中英合作"主题论坛。其大中华区总经理项尧与行业专家探讨AI赋能跨境商业生态的创新实践,重点分享公司在代理电商平台(Agentic Commerce)领域的支付技术创新,包括与Mastercard、Visa合作构建支持AI代理交易的技术框架。作为支付行业领军者,Checkout.com通过智能支付网络帮助电商平台优化交易管理,支持多币种支付,每年为客户解锁数亿美元收入潜力。本届WAIC展览面积首次突破7万平方米,吸引800余家企业参展,涵盖40余款大模型及60余款智能机器人。

  • 加佳科技亮相世界人工智能大会,参与浦东重点项目签约并发布创新技术成果

    2025世界人工智能大会(WAIC)7月26日在上海开幕。加佳智云的"曦源一号"项目入选浦东新区人工智能重点项目并签约合作协议。加佳科技首次发布"数字商务智能体训练场"创新技术平台,与多家企业达成战略合作。浦东新区人工智能产业规模超1600亿元,占全市40%。加佳科技通过"曦源一号"训练场基础底座平台,为行业提供"硬件+软件+产业解决方案"一体化服务,推动AI与产业深度融合。大会期间,加佳科技展示其核心成果"数字商务智能体训练场"平台,该平台依托国产替代算力,提供全生命周期开发运营服务,降低企业AI应用门槛。加佳科技还与多家企业达成合作,加速构建开放共生的AI产业生态。

  • 智慧养老预告| 让养老更有AI!作为科技邀您共赴WAIC 2025世界人工智能大会

    2025世界人工智能大会(WAIC2025)将于7月26-28日在上海举办,主题为"智能时代 同球共济"。本届大会展览面积首次突破7万平方米,吸引800余家企业参展,展示3000余项前沿展品,涵盖40余款大模型、50余款AI终端、60余款智能机器人及80余款"全球首发"新品。12位诺贝尔奖与图灵奖得主、80余位中外院士、30余国1200位重磅嘉宾将齐聚申城,围绕大模型革命、算力新基建等十大方向展开对话。大会首次将"AI+医疗"列为核心议题,中国主导制定的全球养老机器人国际标准将在会上发布。面对中国3亿老年人口(其中失能半失能老人超4500万)的养老需求痛点,大会将探讨AI赋能智慧养老解决方案,推动"全域数据贯通→精准需求洞察→资源动态调度"闭环,重塑养老产业生态。

  • 金融壹账通智能客服赋能普惠金融,人工智能+助力新质生产力

    金融壹账通"小壹智能客服机器人"在第七届数字普惠金融大会上入选创新成果。该系统采用"大模型+小模型"组合策略,实现60%以上人工替代率,月均处理客户咨询数千万次。其创新点在于:1)通过自动问答与坐席辅助双模块设计,解决传统金融服务效率瓶颈;2)具备智能化运营能力,可自动生成优化方案、构建训练数据;3)已覆盖银行、保险等20余家金融机构,显著降低运营成本。该成果为中小金融机构提供了可复制的数字化解决方案。

  • 世界人工智能大会SAIL奖TOP30出炉!天鹜科技荣登榜单!

    世界人工智能大会SAIL奖TOP30榜单发布,天鹄科技凭借蛋白质大模型项目入选。该项目通过90亿条极端环境蛋白质序列数据和5亿条酶功能数据,训练出能跨越结构直接预测功能的AI模型AIACCLBIO™。该模型已服务30余家生物医药企业,成功优化30余款蛋白质,其中8款实现产业化应用。典型案例包括:将抗体稳定性提升4倍,每年为企业节省上千万元成本;优化后的急性胰腺炎检测酶成本仅为国际同类产品的10%,并实现千公斤级量产。SAIL奖是世界人工智能大会最高奖项,旨在激励技术创新和产业融合。

  • 万里数据库GreatDB亮相上合组织数字经济论坛 与哈萨克斯坦人工智能发展协会签署合作协议

    2025年7月11日,上海合作组织数字经济论坛在天津开幕。论坛由国家数据局与天津市政府联合主办,丁薛祥副总 理出席并致辞。会上,万里数据库与哈萨克斯坦人工智能发展协会签署合作协议,推出GreatDB上合版数据库产品。该产品具有安全可信、生态兼容、高性能等优势,是中国首个进入上合框架的标准化数据库产品。论坛汇聚600余位中外政要、企业代表和专家学者,共商数�

  • 人工智能行业每日资讯汇总:国内值得关注的AI资讯网站推荐

    本文介绍了在AI技术快速发展的当下,如何高效获取行业资讯的方法。推荐了国内5个优质AI资讯平台:量子位(专注国内AI企业动态)、机器之心(学术与产业并重)、AI科技评论(深度行业分析)、AIbase(综合信息聚合)和新智元(聚焦AI产业化)。文章建议通过关注公众号、使用RSS工具、创建浏览器书签等方式提升信息获取效率,强调持续关注权威资讯源能保持知识更新、提