模型训练

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“模型训练”的相关热搜词：

相关“模型训练” 的资讯5047篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

李飞飞 GeminiUltra GPT-4
开源AI平台Lightning AI发布AI编译器“Thunder”以加速模型训练

开源人工智能平台LightningAI宣布与Nvidia合作，发布了名为“Thunder”的下一代AI编译器，旨在加速人工智能模型的训练速度。据LightningAI称，该编译器在实际场景中相比未优化的代码，可将大型语言模型的训练速度提高高达40%。LightningStudios的产品可以按四个定价级别购买:个人开发者免费，工程师、研究人员和科学家专业级;初创公司和团队的团队级别，以及大型组织的企业级别。

LightningAI Thunder AI编译器
首个国产单池万卡液冷算力集群正式启用！可满足万亿级参数大模型训练

快科技3月24日消息，中国电信官方宣布，首个国产单池万卡液冷算力集群，天翼云上海临港国产万卡算力池正式启用，首批用户也同时入驻。据介绍，这不仅是国内首个投入正式运营的国产单池万卡液冷算力集群，也是业内领先的全国产化云智一体公共智算中心。该集群采用新一代国产AI算力，通过高速RDMA连接各物理机节点，提供低延时、高吞吐量、无损通信网络和强大的并行计算能力，多项技术指标领跑全国。该集群还最高可支持万亿参数大模型，满足AI计算、深度学习、图形渲染等复杂训练任务对算力的要求。有机构认为，双碳背景下，IDC绿色化是大势

中国电信天翼云液冷算力集群
亚马逊云科技与英伟达扩展合作加速超万亿参数级大模型训练

亚马逊云科技与英伟达扩展合作，加速生成式AI创新。双方将在亚马逊云科技上提供NVIDIABlackwell架构GPU，包括GB200GraceBlackwell超级芯片和B100TensorCoreGPU，以帮助客户解锁新的生成式AI能力。推出生成式AI微服务，推进药物发现和医疗领域的发展。

亚马逊云科技英伟达生成式AI
中兴服务器R6900 G5实力领先，有效助力大模型训练

中兴通讯推出专为大规模模型训练设计的旗舰GPU服务器—R6900G5。该中兴服务器具备卓越的计算性能、高速网络通信能力以及创新的能效表现，有望为人工智能和深度学习等领域带来全新的突破。相信中兴通讯会继续深耕科技创新，为用户提供更加优质、高效的最强算力解决方案，推动数字经济的繁荣发展。

中兴通讯 GPU服务器人工智能
中山大学等提出ScaleLong扩散模型 scaling操作可以稳定模型训练

扩散模型中，UNet的longskipconnection上的scaling操作被证实能够稳定模型训练。在一些流行的扩散模型中，如Imagen和Score-basedgenerativemodel中，已经观察到设置scaling系数可以有效加速模型的训练过程。最近的一些后续工作也进一步验证了skipconnection上scaling的重要性，为这一领域的发展提供了新的思路和方向。

ScaleLong
OpenDiT：一个用来加速类似Sora的DiT架构模型训练和推理项目

OpenDiT是一个针对DiT训练和推断的高性能系统，它通过Colossal-AI提供支持，并以提高效率为目标。该系统通过优化内核、采用混合并行方法以及引入FastSeq等技术，能够显著提高GPU计算速度并降低内存占用，为DiT应用带来了巨大的性能提升。OpenDiT的出现为DiT应用的训练和推断提供了便利，其高效的实现方式和简单易用的接口使得用户可以更加专注于应用场景和算法的研究无需过多

OpenDiT
微软与Mistral AI达成技术合作，加速模型训练和开发

微软宣布与开源大模型平台MistralAI达成技术合作，着眼于加强人工智能与大语言模型领域的合作。合作的三个重点包括:微软将通过Azure云服务为MistralAI提供基础AI算力，助力其加速模型训练和开发。此次与微软的技术合作将进一步巩固MistralAI在大模型领域的领先地位，为用户提供更丰富的选择和优质的服务。

MistralAI 微软 AI头条
荐 AI绘图模型训练到推理，一个网页就能搞定

不会写代码，也能训练AI绘画模型了!只要借助这个框架，从训练到推理都能一站式搞定能一次管理多个模型。阿里巴巴团队推出并开源了这款万能图片生成工作台SCEPTERStudio。整个过程中，只有安装部署的环节需要用到一些简单的代码，之后的一切过程就都可以在Web界面里直接操作了。

AI绘图
荐 together.ai让AI模型训练快9倍，获NVIDIA参投1.025亿美元A轮融资

目前获得融资最多的两家大模型创业公司是OpenAI和Anthropic这两家公司最大的投资者分别是微软和亚马逊，他们投资的很大一部分不是资金是等值的云计算资源。这其实也就把这两家顶尖的闭源大模型公司“绑上了”科技巨头的“战车”。我们也期待更多教授/学者产业人/连续创业者的创业团队出现。

NVIDIA
欧盟扩大对AI初创公司的支持，提供超级计算机进行模型训练

欧盟计划通过提供超级计算机的处理能力，支持本土AI初创公司进行模型训练。该计划于去年9月宣布，并于上个月开始实施。Mistral在欧盟的超级计算访问计划中的早期参与可能表明思路的一致性。

AI初创公司超级计算机
研究团队开发开源大模型训练框架 Oobleck 提供快速且有保障的故障修复

随着对生成式人工智能技术需求的激增，大型语言模型的训练和容错性要求也在不断增加。为应对这一挑战，密歇根大学的研究人员开发了一款名为Oobleck的开源大型模型训练框架。Oobleck的开发标志着利用固有冗余提高容错性的新里程碑，为大型模型的高效训练和故障恢复提供了一种创新性的解决方案。

Oobleck
智源发布FlagAttention算子集适配多种大模型训练芯片

为了满足大模型对计算资源的需求，智源研究院开发了FlagAttention项目，旨在构建一套适配多种芯片的大模型核心算子集合。该项目选择使用Triton作为开发语言，通过Triton的开放性和易用性，使得FlagAttention不仅支持NVIDIAGPU可以显著降低不同芯片之间模型适配的成本，提高大模型的训练与推理效率。FlagAttention还将支持更多功能，并与其他芯片厂商合作，优化算子的性能和适配。
Keras 3.0正式发布引入全新的大模型训练和部署功能

Keras3.0的发布标志着一次重大的更新迭代，经过5个月的努力，该版本在多个方面带来了显著的改进。Keras3.0全面支持了TensorFlow、JAX和PyTorch框架，这意味着用户现在可以选择在不同框架上运行他们的Keras工作流。Keras3.0的发布不仅为深度学习开发者提供了更多选择和工具在多方面的性能和灵活性上有了显著提升，为未来的深度学习应用奠定了更加坚实的基础。

Keras
DeepMind提出语言模型训练新方法DiLoCo 通信量减少500倍

DeepMind的最新研究在语言模型训练领域取得突破，提出了分布式低通信方法。这一方法采用分布式优化算法，使得语言模型可以在连接性较差的设备集群上训练，不仅性能超越完全同步模型通信开销降低了500倍。这一创新性的方法不仅克服了基础设施挑战展示出卓越的性能和适应性，标志着语言模型优化领域的重大进展。

DeepMind
腾讯披露最新大模型训练方法:Angel框架升级效率提升2.6倍

在当前大模型参数规模呈指数级增长的情况下，腾讯近日披露了混元大模型训练的最新方法，通过升级自研机器学习框架Angel，成功提升大模型训练效率。这一升级使得千亿级大模型训练可以节省高达50%的算力成本，为应对算力紧缺提供了有力支持。腾讯内部已有超过300项业务和应用场景接入腾讯混元大模型内测，涵盖了文本总结、摘要、创作、翻译、代码等多个领域，这标志着整个生产链路的全面升级，从模型研发到应用落地形成了一站式的平台，进一步推动了大模型应用的发展。

大模型
英伟达提出新技术Tied-LoRA 减少模型训练参数

Nvidia的研究人员提出了一种名为Tied-LoRA的新技术，旨在改善低秩适应方法的参数效率。该方法通过将权重绑定和选择性训练结合起来，寻找了在性能和可训练参数之间的最佳平衡。对比其他参数效率方法、讨论局限性并确定未来探索的潜在领域仍然是重要的。

英伟达模型
荐 AI视野：大模型训练芯片H200发布；GPT5已在训练中；阿里发布夸克大模型；GPT-4作弊被抓

英伟达发布基于Hopper架构的新一代AI处理器H200，内存带宽提升至141GB和4.8TB/s，推理速度提高2倍，将于2024年第二季度开始发货。最受欢迎的自定义GPTTop9名单发布在OpenAI推出GPTs后，网友们以惊人速度创造了多样功能的自定义GPT，其中Top9包括设计、音乐、食谱等领域，展现了无限可能性。通过对Vimium进行改动，使其能够与GPT-4V互动，用户可以更快速、高效地处理大量信息，摆脱信

H200
Together AI发布RedPajama v2 用于大模型训练

TogetherAI发布了RedPajamav2，这是一个包含30万亿标记的数据集，旨在支持大型语言模型的研究和开发。高质量的数据对于这些模型的成功至关重要，但获取适当的数据集是一项繁琐的任务，需要大量时间、资源和金钱。这一数据集的发布对于AI研究和应用领域具有重要意义，为开发更强大的语言模型提供了支持和基础，有望推动AI领域的进一步发展。
艺术家现在可以通过 Nightshade 来反击人工智能：保护其作品免受 AI 模型训练的侵犯

新工具Nightshade赋予艺术家一种全新的力量，让他们能够在上传作品之前，对其像素进行不可见的修改，从在作品被AI公司用于训练模型时，令生成的模型陷入混乱和不可预测的状态。Nightshade的设计初衷是为了反击那些未经创作者许可就使用其作品训练模型的AI公司。开发者希望通过Nightshade的推出，能够迫使AI公司更加尊重艺术家的权利，例如愿意支付版税等。

Nightshade 人工智能 AI模型
商汤科技与南方电网合作推动电力行业AI大模型训练与应用

商汤科技与南方电网数字电网集团有限公司签署战略合作协议。双方将发挥各自领域的技术和产业资源优势，共同推动电力行业AI大模型训练与应用、算力建设、标准建设、产业转化和市场拓展，加快推动电力行业的人工智能创新及应用，加速行业智能化升级。双方还将共同研究制定面向电力行业的大模型训练和部署的技术规范和测试标准，并在电力行业率先开展大模型即服务的创新业务模式，支持典型场景的智能化升级。
荐 AI视野：Civitai上线模型训练功能；文心大模型用户规模达4500万；OpenAI开发高准确度AI检测工具；富士康与英伟达宣布合作建设“AI工厂”

在昨天的百度世界2023大会上，文心大模型4.0正式发布，开启邀请测试。文心大模型4.0在9月已开始小流量上线，过去一个多月效果又提升了近30%。Pytorch发布移动解决方案ExecuTorch支持移动设备AI部署PyTorch发布ExecuTorch，支持移动设备AI部署，以及PyTorch2.1更新，将NumPy代码编译为C/CUDA，速度提升35倍。

Civitai
SD模型交流网站Civitai上线模型训练功能

知名的SD模型交流软件Civitai线了Lora模型在线训练功能和货币化系统。这意味着用户可以使用Civitai训练他们自己的Lora模型，并有机会打赏模型作者。在速度方面，liblib.ai明显比Civitai快。

Civitai AI头条
中兴通讯：将发布支持大模型训练的最新AI服务器

10月11日，中兴通讯在互动平台上表示，作为国内主流的服务器厂商，其一直在积极应对人工智能领域的应用需求，并适时推出满足各类AI应用场景的服务器产品。采取了以下两个策略:首先，针对中小型模型的训练和推理需求，中兴通讯在今年1月推出了G5系列服务器。中兴通讯计划在今年内发布一款支持大模型训练的最新AI服务器。
srf-attention：一个提高深度学习模型训练效率的注意力机制

注意力很有用，但计算成本很高。一旦训练完成，通过一些微调计算，您可以减少SRF注意力并消除对序列长度的依赖，从大大加快速度。它可以帮助研究人员和开发者更高效地构建和训练深度学习模型，提高模型的性能和效率。

模型
OpenLM：一个专为中等规模语言模型设计的模型训练库

OpenLM是一个旨在训练中等规模语言模型的PyTorch代码库，它强调了最大化GPU利用率和训练速度的设计。该库已经通过训练OpenLM-1B和OpenLM-7B两个语言模型，分别在1.6T和1.25T的文本标记上进行验证，取得了令人瞩目的成果。OpenLM的团队成员和致谢也在文章中列出，表明了该项目的合作性质和开源精神。

OpenLM
中文在线与华为云签署合作协议涉及大模型训练等

中文在线集团股份有限公司与华为云计算技术有限公司正式签署合作协议。基于华为云在公有云、AI等方面的技术积累，双方将在内容和华为云领域进行合作，共同推动面向行业的业务解决方案落地。中文在线己拥有数字内容数据超过60TB，为AIGC相关技术的研发提供充足的基础数字内容资源。
突破大算力瓶颈：华为支持超万亿参数大模型训练等效于18000张卡

在华为全联接大会2023期间，华为正式发布全新架构的昇腾AI计算集群Atlas900SuperCluster，可支持超万亿参数的大模型训练。华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛介绍，新集群采用全新的华为星河AI智算交换机CloudEngineXH16800，借助其高密的800GE端口能力，两层交换网络即可实现2250节点超大规模无收敛集群组网。华为改变传统的服务器堆叠模式，以系统架构创新打造AI集群，实现算力、运力、存力的一体化设计，突破大算力瓶颈。
智源团队推出「生长策略」解决大模型训练算力成本过高问题

智源研究院联合中科院计算所、南洋理工大学、电子科技大学、哈尔滨工业大学的研究团队共同提出了一种「生长策略」，以解决大模型算力成本极高的问题。研究团队基于「生长策略」逐步构建了一个具有1010亿参数的FLM-101B大模型。实验结果显示，FLM-101B在这些评测任务上表现出了非常好的能力。
华为发布全新昇腾AI计算集群支持超万亿参数大模型训练

华为在全联接大会2023期间发布了全新架构的昇腾AI计算集群Atlas900SuperCluster，该集群可支持超万亿参数的大模型训练。该集群采用了全新的华为星河AI智算交换机CloudEngineXH16800，并使用了创新的超节点架构，大大提升了大模型训练能力。该集群还通过提升系统可靠性，将大模型训练的稳定性从天级提升到月级。

热文

3 天
7天

模型训练

与“模型训练”的相关热搜词：

相关“模型训练” 的资讯5047篇

热文

站长商机