首页 > 关键词 > 大模型训练最新资讯
大模型训练

大模型训练

如何复盘大模型技术爆发的这一年?除了直观的感受,你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告,这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示,不同人群的观点存在显著差异,年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅提供资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

与“大模型训练”的相关热搜词:

相关“大模型训练” 的资讯2348篇

  • 李飞飞团队年度报告揭底大模型训练成本:Gemini Ultra是GPT-4的2.5倍

    如何复盘大模型技术爆发的这一年?除了直观的感受,你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告,这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示,不同人群的观点存在显著差异,年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

  • 首个国产单池万卡液冷算力集群正式启用!可满足万亿级参数大模型训练

    快科技3月24日消息,中国电信官方宣布,首个国产单池万卡液冷算力集群,天翼云上海临港国产万卡算力池正式启用,首批用户也同时入驻。据介绍,这不仅是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心。该集群采用新一代国产AI算力,通过高速RDMA连接各物理机节点,提供低延时、高吞吐量、无损通信网络和强大的并行计算能力,多项技术指标领跑全国。该集群还最高可支持万亿参数大模型,满足AI计算、深度学习、图形渲染等复杂训练任务对算力的要求。有机构认为,双碳背景下,IDC绿色化是大势

  • 亚马逊云科技与英伟达扩展合作 加速超万亿参数级大模型训练

    亚马逊云科技与英伟达扩展合作,加速生成式AI创新。双方将在亚马逊云科技上提供NVIDIABlackwell架构GPU,包括GB200GraceBlackwell超级芯片和B100TensorCoreGPU,以帮助客户解锁新的生成式AI能力。推出生成式AI微服务,推进药物发现和医疗领域的发展。

  • 中兴服务器R6900 G5实力领先,有效助力大模型训练

    中兴通讯推出专为大规模模型训练设计的旗舰GPU服务器—R6900G5。该中兴服务器具备卓越的计算性能、高速网络通信能力以及创新的能效表现,有望为人工智能和深度学习等领域带来全新的突破。相信中兴通讯会继续深耕科技创新,为用户提供更加优质、高效的最强算力解决方案,推动数字经济的繁荣发展。

  • 研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复

    随着对生成式人工智能技术需求的激增,大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战,密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。Oobleck的开发标志着利用固有冗余提高容错性的新里程碑,为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。

  • 智源发布FlagAttention算子集 适配多种大模型训练芯片

    为了满足大模型对计算资源的需求,智源研究院开发了FlagAttention项目,旨在构建一套适配多种芯片的大模型核心算子集合。该项目选择使用Triton作为开发语言,通过Triton的开放性和易用性,使得FlagAttention不仅支持NVIDIAGPU可以显著降低不同芯片之间模型适配的成本,提高大模型的训练与推理效率。FlagAttention还将支持更多功能,并与其他芯片厂商合作,优化算子的性能和适配。

  • Keras 3.0正式发布 引入全新的大模型训练和部署功能

    Keras3.0的发布标志着一次重大的更新迭代,经过5个月的努力,该版本在多个方面带来了显著的改进。Keras3.0全面支持了TensorFlow、JAX和PyTorch框架,这意味着用户现在可以选择在不同框架上运行他们的Keras工作流。Keras3.0的发布不仅为深度学习开发者提供了更多选择和工具在多方面的性能和灵活性上有了显著提升,为未来的深度学习应用奠定了更加坚实的基础。

  • 腾讯披露最新大模型训练方法:Angel框架升级 效率提升2.6倍

    在当前大模型参数规模呈指数级增长的情况下,腾讯近日披露了混元大模型训练的最新方法,通过升级自研机器学习框架Angel,成功提升大模型训练效率。这一升级使得千亿级大模型训练可以节省高达50%的算力成本,为应对算力紧缺提供了有力支持。腾讯内部已有超过300项业务和应用场景接入腾讯混元大模型内测,涵盖了文本总结、摘要、创作、翻译、代码等多个领域,这标志着整个生产链路的全面升级,从模型研发到应用落地形成了一站式的平台,进一步推动了大模型应用的发展。

  • AI视野:大模型训练芯片H200发布;GPT5已在训练中;阿里发布夸克大模型;GPT-4作弊被抓

    英伟达发布基于Hopper架构的新一代AI处理器H200,内存带宽提升至141GB和4.8TB/s,推理速度提高2倍,将于2024年第二季度开始发货。最受欢迎的自定义GPTTop9名单发布在OpenAI推出GPTs后,网友们以惊人速度创造了多样功能的自定义GPT,其中Top9包括设计、音乐、食谱等领域,展现了无限可能性。通过对Vimium进行改动,使其能够与GPT-4V互动,用户可以更快速、高效地处理大量信息,摆脱信

  • Together AI发布RedPajama v2 用于大模型训练

    TogetherAI发布了RedPajamav2,这是一个包含30万亿标记的数据集,旨在支持大型语言模型的研究和开发。高质量的数据对于这些模型的成功至关重要,但获取适当的数据集是一项繁琐的任务,需要大量时间、资源和金钱。这一数据集的发布对于AI研究和应用领域具有重要意义,为开发更强大的语言模型提供了支持和基础,有望推动AI领域的进一步发展。

  • 商汤科技与南方电网合作 推动电力行业AI大模型训练与应用

    商汤科技与南方电网数字电网集团有限公司签署战略合作协议。双方将发挥各自领域的技术和产业资源优势,共同推动电力行业AI大模型训练与应用、算力建设、标准建设、产业转化和市场拓展,加快推动电力行业的人工智能创新及应用,加速行业智能化升级。双方还将共同研究制定面向电力行业的大模型训练和部署的技术规范和测试标准,并在电力行业率先开展大模型即服务的创新业务模式,支持典型场景的智能化升级。

  • 中兴通讯:将发布支持大模型训练的最新AI服务器

    10月11日,中兴通讯在互动平台上表示,作为国内主流的服务器厂商,其一直在积极应对人工智能领域的应用需求,并适时推出满足各类AI应用场景的服务器产品。采取了以下两个策略:首先,针对中小型模型的训练和推理需求,中兴通讯在今年1月推出了G5系列服务器。中兴通讯计划在今年内发布一款支持大模型训练的最新AI服务器。

  • 中文在线与华为云签署合作协议 涉及大模型训练等

    中文在线集团股份有限公司与华为云计算技术有限公司正式签署合作协议。基于华为云在公有云、AI等方面的技术积累,双方将在内容和华为云领域进行合作,共同推动面向行业的业务解决方案落地。中文在线己拥有数字内容数据超过60TB,为AIGC相关技术的研发提供充足的基础数字内容资源。

  • 突破大算力瓶颈:华为支持超万亿参数大模型训练 等效于18000张卡

    在华为全联接大会2023期间,华为正式发布全新架构的昇腾AI计算集群Atlas900SuperCluster,可支持超万亿参数的大模型训练。华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛介绍,新集群采用全新的华为星河AI智算交换机CloudEngineXH16800,借助其高密的800GE端口能力,两层交换网络即可实现2250节点超大规模无收敛集群组网。华为改变传统的服务器堆叠模式,以系统架构创新打造AI集群,实现算力、运力、存力的一体化设计,突破大算力瓶颈。

  • 智源团队推出「生长策略」 解决大模型训练算力成本过高问题

    智源研究院联合中科院计算所、南洋理工大学、电子科技大学、哈尔滨工业大学的研究团队共同提出了一种「生长策略」,以解决大模型算力成本极高的问题。研究团队基于「生长策略」逐步构建了一个具有1010亿参数的FLM-101B大模型。实验结果显示,FLM-101B在这些评测任务上表现出了非常好的能力。

  • 华为发布全新昇腾AI计算集群 支持超万亿参数大模型训练

    华为在全联接大会2023期间发布了全新架构的昇腾AI计算集群Atlas900SuperCluster,该集群可支持超万亿参数的大模型训练。该集群采用了全新的华为星河AI智算交换机CloudEngineXH16800,并使用了创新的超节点架构,大大提升了大模型训练能力。该集群还通过提升系统可靠性,将大模型训练的稳定性从天级提升到月级。

  • 开源大模型训练框架Megatron-LLaMA来了 32卡训练可加速176%

    9月12日,淘天集团联合爱橙科技正式对外开源大模型训练框架Megatron-LLaMA,以让技术开发者们更方便地提升大语言模型训练性能,降低训练成本。Megatron-LLaMA是一个基于Megatron-LM的分布式深度学习训练框架,专门用于大规模语言模型LLaMA的训练。它降低了训练大模型的门槛,是开源社区一个重要的贡献。

  • 华为:盘古大模型训练效能已达业界主流GPU的1.1倍

    华为云数字文娱AI创新峰会2023日前在上海举行。华为云全球Marketing与销售服务总裁石冀琳表示,今年以来,华为基于大模型的AIGC技术在影视、游戏、音频、动漫等多个领域落地应用,给数字文娱产业带来了可预见的巨大价值。美图公司旗下美图设计室即基于华为云多模态大模型的以文生图和精准局部控制能力,直接构建模特试衣图片生成模型,在保留衣服细节的同时,又能适应人体不同的姿态,让AI生成的模特更真实更自然;同时通过多模态大模型能将模特出图的效率由数天降为几分钟,大大提升产品上新速率。

  • 报告显示:谷歌用水量正在飙升,AI大模型训练加剧水量消耗

    谷歌刚刚发布了2023年环境报告,有一个非常突出的点就是:该公司的用水量正在飙升。这家互联网巨头表示,2022年消耗了56亿加仑的水,相当于37个高尔夫球场的用水量。其最新的大型语言模型Llama2需要大量的水来训练。

  • 英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比高?

    关键词:M2芯片;Ultra;M1芯片;UltraFusion;ULTRAMAN;RTX4090、A800;A100;H100;LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPUGPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、大型语言模型、通用人工智能、GPU服务器、GPU集群、大模型训练GPU集群、大语言模型摘要:训练和微调大型语言模型对于硬件资源的要求非常高。主流的大模型训练硬件通常采用英特尔的CPU和英伟达的GPU。通过结合使用NVIDIAQuantum-2InfiniBand、MagnumIO软件、GPU加速的Spark3.0和NVIDIARAPIDS™,NVIDIA数据中心平台能够以出色的性能和效率加速这些大型工作负载。

  • 斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家

    现有大语言模型的训练和推理速度能再快一点——快多少?2-4倍。各种大模型都在用的FlashAttention今天正式发布第2代并开源,所有Transformer架构的模型都可使用它来加速。OneMoreThing最后,有网友发现,除了FlashAttention-2,最近还有一系列类似成果,包括DeepSpeed的ZeRO、马萨诸塞大学deReLoRA。

  • 腾讯将发布大模型训练自研向量数据库已申请自研向量数据库商标

    腾讯云将正式发布自研向量数据库,该数据库面向大模型训练,让企业原先花一个月时间才能完成的大模型接入,缩短到三天时间。企查查APP显示,腾讯科技有限公司于近日申请注册两枚“TENCENTCLOUDVECTORDB”商标,国际分类为9类科学仪器、42类设计研究,当前商标状态为申请中。

  • 腾讯将发布大模型训练自研向量数据库

    腾讯云将于7月4日下午发布一款自主研发的向量数据库,该数据库主要面向大规模模型的训练。通过使用这款数据库,企业原先需要花费一个月时间才能完成的大模型接入工作,将缩短到三天时间,极大提升工作效率。该数据库已经在腾讯视频、QQ浏览器的AI检索和查询场景中得到了成功应用。

  • 英伟达 H100 在 MLPerf AI 性能测试刷新纪录:11 分钟不到完成 GPT-3 大模型训练

    MLPerf基准测试是评估系统在一系列人工智能工作负载下的性能表现的重要指标。人工智能正在快速发展,生成式人工智能工作负载日益突出MLPerf也在与行业一起不断进化。英伟达不再只是我们成长过程中的游戏图形公司是迅速成为我们集体未来的关键推动者。

  • 微软推ZeRO++新系统:减少大模型训练时间和成本

    微软研究人员推出了名为ZeRO的新系统,用于优化训练大型AI模型,以应对高数据传输开销和有限带宽的难题。ZeRO建立在现有的ZeRO优化的基础上,并提供增强的通信策略,以提高训练效率,减少训练时间和成本。研究人员和实践者可以利用ZeRO更有效地训练像ChatGPT这样的模型,并在AI领域探索新的可能性。

  • 天垓100率先完成百亿级参数大模型训练,天数智芯迎来新的里程碑

    6月10日,在第五届智源大会AI系统分论坛上,上海天数智芯半导体有限公司对外宣布,在天垓100加速卡的算力集群,基于北京智源人工智能研究院70亿参数的Aquila语言基础模型,使用代码数据进行继续训练,稳定运行19天,模型收敛效果符合预期,证明天数智芯有支持百亿级参数大模型训练的能力。图天数智芯产品线总监宋煜在北京市海淀区的大力支持下,智源研究院、天数智芯与爱特云翔共同合作,联手开展基于自主通用GPU的大模型CodeGen项目,通过中文描述来生成可用的C、Java、Python代码以实现高效编码。爱特云翔目前拥有淄博临淄、宁夏中卫、青岛即墨等三个大数据产业园和IDC,总机柜数为2.2万个,已具备覆盖华北、华中、华东、华南的光纤网络,建立有北京、上海、淄博软件与算法研发中心、济南技术支持中心、深圳硬件设计中心、聊城智能物联生产线,及全国各地子公司等分支机构。

  • 朗玛信息:基于AI大模型训练 成功开发“朗玛·39AI全科医生”

    朗玛信息在5月28日发布公告称,成功开发出拥有自主知识产权的医疗健康人工智能产品——“朗玛.39AI全科医生”。该产品基于人工智能大模型训练,并形成人工智能“医生大脑”,可被广泛应用于基层医疗卫生机构,为全科医生提供人工智能服务,包括辅助诊断、健康咨询和健康管理,提升基层医务人员诊疗水平,为用户提供全生命周期的医疗健康管理咨询服务。“朗玛.39AI全科医生”在下一阶段将通过自主学习大量医学书籍、医学指南、专家共识和各类学术期刊,并接受强化学习和反馈训练,达到高级全科医生水平,形成“高级全科医生大脑”,能够按照医学指南精确判断患者病情、协助基层医生诊断疾病以及具备处理疑难重症的精确分诊能力。

  • 中兴通讯:新一代智算中心基础设施产品全面支持大模型训练和推理

    中兴通讯在互动平台表示,在算力基础设施领域,公司拥有全系列服务器及存储产品,包括通用服务器、GPU+服务器、液冷服务器以及全闪存储产品、混闪存储产品等。未来重点投入三个产品方向:1.+公司新一代智算中心基础设施产品,全面支持大模型训练和推理,包括高性能+AI+服务器、高性能交换机、DPU+等;2.+下一代数字星云解决方案,利用生成式+AI+技术,在代码生成、办公和运营智能化等领域展开研究,全面提升企业效率;3.+新一代+AI+加速芯片、模型轻量化技术,大幅降低大模型推理成本。报告内容显示,+2023+年1-+3+月,公司实现营业收入291.+4+亿元,同比增长4.3%;归母净利润26.+4+亿元,同比增长19.2%;扣非归母净利润24.+5+亿元,同比增长25.7%;经营性现金流净额达23.+3+亿元,同比增长95.9%。

  • 中兴通讯:​未来重点投入大模型训练智算中心产品

    中兴通讯在互动平台表示,在当前的数字经济时代,公司定位于“数字经济筑路者”,基于ICT端到端的全栈核心能力,包括芯片能力、硬件能力、操作系统能力、数据库能力、数字星云能力,围绕连接和算力,从ICT产业维度、行业应用维度助力数字经济发展。在ICT产业算力层面,公司将逐步从CT领域扩展至IT领域,形成覆盖IaaS、PaaS、SaaS的整体解决方案。未来重点投入三个产品方向:公司新一代智算中心基础设施产品,全面支持大模型训练和推理,包括高性能AI服务器、高性能交换机、DPU等;下一代数字星云解决方案,利用生成式AI技术,在代码生成、办公和运营智能化等领域展开研究,全面提升企业效率;新一代AI加速芯片、模型轻量化技术,大幅降低大模型推理成本。

  • AI视野:Civitai上线模型训练功能;文心大模型用户规模达4500万;OpenAI开发高准确度AI检测工具;富士康与英伟达宣布合作建设“AI工厂”

    在昨天的百度世界2023大会上,文心大模型4.0正式发布,开启邀请测试。文心大模型4.0在9月已开始小流量上线,过去一个多月效果又提升了近30%。Pytorch发布移动解决方案ExecuTorch支持移动设备AI部署PyTorch发布ExecuTorch,支持移动设备AI部署,以及PyTorch2.1更新,将NumPy代码编译为C/CUDA,速度提升35倍。

热文

  • 3 天
  • 7天