首页 > 热点 > 关键词  > 正文

智源团队推出「生长策略」 解决大模型训练算力成本过高问题

2023-09-21 08:20 · 稿源:站长之家

站长之家(ChinaZ.com)9月21日 消息:近日,智源研究院联合中科院计算所、南洋理工大学(新加坡)、电子科技大学(成都)、哈尔滨工业大学(深圳)的研究团队共同提出了一种「生长策略」(growth strategy),以解决大模型算力成本极高的问题。

研究团队基于「生长策略」逐步构建了一个具有1010亿参数的FLM-101B大模型。实际训练结果显示,只需约10万美元(约70万人民币)的算力成本,就能成功训练出一个效果和GPT-3、GLM-130B可比的千亿大模型。

微信截图_20230921082238.png

「生长策略」的核心思想是让模型在训练过程中的参数量可以随着训练进行逐步扩展,从较小的参数规模扩展到更大的参数规模。研究团队利用这种策略成功地训练出了 FLM-101B 大模型,并且通过评测发现,该模型在知识能力和智能水平方面具有竞争力。

此外,研究团队还提出了一种基于 IQ 的评测方法,以更全面、客观地评估大模型的智力水平。他们从四个维度对大模型进行了 IQ 测试:符号评测、规则理解、模式挖掘和抗干扰评测。实验结果显示,FLM-101B 在这些评测任务上表现出了非常好的能力。

FLM-101B模型地址:

https://huggingface.co/CofeAI/FLM-101B

举报

  • 相关推荐
  • 依托鲲鹏处理器矩阵算力 中科大陈俊仕团队破解稀疏计算效率难题

    中国科学技术大学陈俊仕团队基于鲲鹏处理器,创新研发出面向稀疏矩阵的密集kernel直接求解器。该方案通过整合非零元为密集数据块,将不规则稀疏矩阵映射为统一稠密大块结构,采用基于密集矩阵运算的数值分解算法,显著降低不规则内存访问引发的计算开销。经测试,性能较SuperLU求解器平均加速32.2倍,在基础硬件配置下实现9.6倍性能加速,大幅压缩科学计算时间成本。

  • 顺丰推出“超时赔付”服务:快递员无需担责 成本由公司承担

    顺丰集团官方公众号发文,自12月1日起,顺丰在业内率先推出超时赔付”服务。 客户通过顺丰官方渠道下单顺丰特快”产品,若因顺丰原因导致派送超时,即可获得现金赔付。 目前,该服务已在大连、深圳、青岛、武汉等10个城市上线,未来计划逐步扩展至全国。 赔付标准以快递员揽收时系统预计的送达时间为基准,结合超时时长与客户会员等级,采用阶梯式方案执行。

  • 京东自研AI毛绒玩具上架:支持情绪感知 搭载JoyAI大模型

    京东近日推出首款自研AI毛绒玩具,主打无屏幕实体交互,旨在减少儿童对电子屏幕的依赖。该玩具基于京东JoyAI大模型技术,具备讲故事、知识问答和互动沟通功能,内置280本有声书资源,并能识别儿童情绪变化。此次共推出13款AI产品,覆盖多个品类,其中AI毛绒玩具系列凭借个性化设计受到市场欢迎,部分款式迅速售罄。

  • 拒绝做“套金属壳”的伪AI:看“大模型国家队”如何啃下硬骨头

    人工智能成为资本市场热点,随之而来的是鱼龙混杂的乱象。简单包装、打着AI旗号卖高价的“套壳”现象层出不穷。科大讯飞董事长刘庆峰强调,发展人工智能要有长期主义精神,告别“虚火”,把根扎在国产算力的土壤里。下半场比拼的不再是概念堆砌,而是全栈自主可控的硬实力与赋能千行百业的真本事。可靠与安全才是基石,算力是最大瓶颈。企业需构建安全底座并解决真实痛点,才能穿越周期。科大讯飞坚持“顶天立地”战略,既要在源头技术上领先,又要在产业应用上解决民生刚需,展示了AI技术“落地”的正确姿态。

  • AI不再健忘!红熊AI发布“记忆熊”,给大模型装上“海马体”

    当前大模型虽能力惊人,却普遍存在“记忆缺失”问题,制约了AI应用的深度与用户体验。红熊AI推出的开源记忆系统“记忆熊”,旨在突破这一瓶颈。它基于认知科学原理,构建了包含存储层、编排层和应用层的三层架构,模拟人类记忆的感知、提炼、关联与遗忘全周期,为智能体提供长期记忆框架。该系统不仅显著提升了任务性能与效率,降低了幻觉生成,更标志着AI设计从“即时响应”向“持续认知”的关键转变。记忆系统的完善,将驱动AI在医疗、教育、企业服务等领域实现更深度的智能化升级,开启人机协作的新时代。

  • 男子海洋馆内抽烟被白鲸喷水浇灭:训练形成条件反射

    ​近日,大连某海洋馆内发生的一起白鲸“精准喷水制裁”吸烟者事件,在网络上引发广泛关注。这场看似滑稽的动物“反击”,不仅成为大众热议的话题,更意外揭开了公共场所禁烟困境的冰山一角。 在该海洋馆内,一名男子对馆内醒目的禁烟标识视而不见,面对女性工作人员多次劝阻,依旧执意点燃香烟。就在他吞云吐雾之时,池中名为“石榴”的白鲸突然跃出水面,一

  • 戴尔科技集团 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

    OpenCSG与戴尔科技集团合作,推出深度融合算力与数据的智能转型参考架构。该方案以企业级智能平台CSGHub为核心,集成戴尔Pro Max with GB10高性能计算节点与PowerScale智能存储系统,通过Xnet协议实现数据与模型的高效流转。方案旨在解决企业智能化转型中数据效率低、算力成本高、流程协同难等痛点,提供从单机开发到生产集群的一体化演进路径,支持制造、金融、政务等多行业场景快速复制,加速企业从概念验证走向规模化智能落地。

  • 逗哥配音ai软件|创新升级:自研大模型引领声音创作新浪潮

    在短视频蓬勃发展的当下,AI配音软件“逗哥配音”凭借自主研发的大模型技术引发关注。该软件拥有近千种风格的发声人资源,覆盖多语言及方言,通过精准的节奏控制和情感表达优化,显著降低高质量音频制作门槛。其创新的声音克隆技术仅需少量数据即可生成高度相似的人工语音,结合人声分离、文案提取等实用工具,为创作者提供跨领域音频解决方案,推动数字内容生态向多元化、个性化发展。

  • 严重落后竞争对手!苹果AI团队重组:找来前微软高管接任

    苹果在AI领域的表现已经严重落后竞争对手,自2024年推出Apple Intelligence以来,其功能表现一直不佳。 前不久苹果宣布AI团队重组,原主管John Giannandrea转任顾问并将于明年初退休,如今苹果找来前微软高层Amar Subramanya接任领导AI团队。 Amar Subramanya是一位印度裔研究员,拥有华盛顿大学博士学位,他加入苹果前,在微软担任AI事业群副总裁四个月,主要负责Microsoft Copilot产品。 �

  • 冀·录|从“走廊明珠”到“智算高地”,廊坊智算中心厚植京津冀算力“后花园”

    廊坊凭借其作为京畿交通枢纽的区位优势,正从“京畿门户”转型为“算力高地”。依托京津冀协同发展战略,廊坊以博大数据廊坊计算中心为核心,构建起强大的算力基础设施,支持高达5万P的计算能力,并通过低时延通道实现与北京的高效数据互联。该中心采用绿色节能技术,PUE控制在1.25以下,以“硬件资源+软性服务”双轮驱动模式,支撑京津冀数字经济发展,推动区域从历史交通枢纽向数字经济新时代的算力枢纽跨越。

今日大家都在搜的词: