首页 > 热点 > 关键词  > 正文

智源团队推出「生长策略」 解决大模型训练算力成本过高问题

2023-09-21 08:20 · 稿源:站长之家

站长之家(ChinaZ.com)9月21日 消息:近日,智源研究院联合中科院计算所、南洋理工大学(新加坡)、电子科技大学(成都)、哈尔滨工业大学(深圳)的研究团队共同提出了一种「生长策略」(growth strategy),以解决大模型算力成本极高的问题。

研究团队基于「生长策略」逐步构建了一个具有1010亿参数的FLM-101B大模型。实际训练结果显示,只需约10万美元(约70万人民币)的算力成本,就能成功训练出一个效果和GPT-3、GLM-130B可比的千亿大模型。

微信截图_20230921082238.png

「生长策略」的核心思想是让模型在训练过程中的参数量可以随着训练进行逐步扩展,从较小的参数规模扩展到更大的参数规模。研究团队利用这种策略成功地训练出了 FLM-101B 大模型,并且通过评测发现,该模型在知识能力和智能水平方面具有竞争力。

此外,研究团队还提出了一种基于 IQ 的评测方法,以更全面、客观地评估大模型的智力水平。他们从四个维度对大模型进行了 IQ 测试:符号评测、规则理解、模式挖掘和抗干扰评测。实验结果显示,FLM-101B 在这些评测任务上表现出了非常好的能力。

FLM-101B模型地址:

https://huggingface.co/CofeAI/FLM-101B

举报

  • 相关推荐
  • 何小鹏“剧透”:小鹏训练的一个物理大模型 是国内车企“独一份”

    快科技4月14日消息,今日早间,小鹏汽车创始人何小鹏在社交平台发帖称:作为最早把「智能化」作为核心的车企,小鹏的本质是「AI汽车公司」,我认为AI 最大的价值在于改变物理世界,而不仅是数字世界,我们要做一家面向全球的AI汽车公司,我更想通过 AI 来改变物理世界,这是很有意义的,但难度也更大。小鹏坚持全栈自研,去年率先在自动驾驶领域引入强化学习、模型

  • 伟世通×火山引擎:发布基于豆包大模型的智能座舱解决方案

    2025年上海车展期间,火山引擎与伟世通联合发布基于AI大模型的下一代智能座舱解决方案。该方案融合豆包大模型AI能力和伟世通高性能域控平台,通过端云协同架构和多模态交互技术,实现离线功能闭环运行和快速响应。方案接入火山丰富的内容生态,支持个性化推荐和"千人千面"自适应设计,同时具备多模态交互能力,实现更自然的人机交互。双方还将共同探索AI大模型在智能座舱场景的优化适配,助力车企打造差异化智能座舱体验。

  • 阿丘科技李嘉悦:大模型驱动的AI检测范式变革——大模型、小模型、智能体的协同进化

    3月28日,由机器视觉产业联盟主办、慕尼黑展览有限公司承办的VisionChina2025机器视觉展在上海新国际博览中心圆满落幕。阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会现场,围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”的主题,发表了精彩演讲。”今年,在这个快速变化的时代,我要补充一句:“AI工业视觉的格局正在加速变革,不会用大模型的将会被善用大模型的人淘汰。

  • AI 大模型的困境:数据才是真正的“燃料”

    一旦掉入AI坟场,幻觉将永远存在,噩梦才刚开始。最近有许多客户在考虑上AI大模型一体机、AI私有化、AI大模型部署等项目,但小心进入AI大模型的坟场,在光鲜亮丽的背后,AI大模型也面临着诸多困境,其中最为核心的问题便是数据。只有拥有高质量、多样化、易于管理的数据,AI大模型才能发挥出其真正的潜力,为企业带来更大的价值。

  • 摩尔线程以全栈创新亮相2025中关村论坛年会:国产GPU突破大模型算力瓶颈

    2025中关村论坛年会于3月27日至31日在北京举办。作为人工智能时代的智算底座,摩尔线程在"人工智能"集群展区展示了从端到边缘到云的全栈算力产品,包括夸娥万卡智算集群、全功能GPUOAM模组、MCCXD800X2服务器和人工智能计算模组E300等重磅产品,全面呈现了以国产全功能GPU为底座的通用加速计算平台及创新成果。我们的愿景是为美好世界加速。

  • 赛哺:哪些孩子更需要关注生长

    各项指标正常却不怎么长个?各种方法都用了却没见到成效?现代社会,一个令人揪心的真相正成为影响孩子长高的关键问题——心理健康。赛哺高提醒各位家长,在现代社会,孩子们面临着学业压力、社交挑战等诸多问题,长期焦虑、抑郁等心理问题逐渐成为影响孩子健康成长的 “隐形杀手”。令人揪心的是,这些心理问题不仅影响孩子的心理健康,还会导致孩子出现心因�

  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 易鑫宣布年内推出汽车金融行业首个Agentic大模型

    4 月15日,易鑫(02858.HK)在香港举行的“2 025 世界互联网大会亚太峰会”上宣布,将于年内推出汽车金融行业首个Agentic大模型。该模型通过自主决策智能体深度结合汽车金融场景需求,有望从根本上解决行业中长期存在的效率瓶颈和痛点。易鑫首席AI科学家、高级副总裁张磊现场演讲易鑫首席AI科学家、高级副总裁张磊在大会“人工智能大模型论坛”做主题演讲时,发布了这�

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 迅雷一键即可完成大模型下载

    近日,迅雷为提升用户使用体验,让用户能够更快更好地批量下载大模型所有文件,已针对大模型下载场景进行了优化,并上线了新版本插件,下载迅雷客户端且在浏览器安装迅雷插件即可使用。值得一提的是,在使用迅雷该插件功能创建任务时,将同时创建相对应的文件夹,下载完成后,所有文件都将在一个文件夹中,相比传统浏览器——需要用户逐个手动点击下载图标并�