11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
北京大学崔斌教授团队在鹏城实验室支持下,研发了面向大模型的高效分布式训练框架。该框架通过统一训练接口、细粒度模型切分与并行策略搜索算法,解决了训练任务多样性和负载不均问题,实现训练效率提升15%。同时利用昇腾计算资源管理能力,优化硬件通信效率,通过计算通信重叠技术提升流水线效率。研究成果已在NeurIPS等顶会发表3篇论文,展现了国产算力在分布式计算领域的潜力,为AI产业自主化突破提供支撑。
据报道,字节跳动旗下豆包大模型团队近日宣布了一项关于混合专家架构的重要技术突破,并决定将这一成果开源,与全球AI社区共享。这一技术通过一系列创新方法,成功将大模型的训练效率提升了约1.7倍,同时显著降低了训练成本,降幅高达40%。开源不仅有助于加速行业技术发展能为更多研究者和开发者提供宝贵的资源,进一步推动人工智能技术的创新与应用。
随着深度学习技术的不断发展,AI模型规模的不断扩大,越来越多的应用场景需要处理大规模的计算任务。Deepseek等大语言模型不仅要求高效的计算能力对显存、带宽和系统稳定性提出了极高要求。如果您正在寻找一款能够加速大规模AI模型。
DeepSeek新版模型正式发布,技术大佬们都转疯了!延续便宜大碗特点的基础之上,DeepSeekV3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。QLoRA一作的一个词评价就是:优雅。当然最后也确实帮上忙了贾扬清也再次感叹:最最后,除了本次官方公布的测试结果,Imsys匿名竞技场也出来提前预热了。
【新智元导读】最近,大模型训练遭恶意攻击事件已经刷屏了。Anthropic也发布了一篇论文,探讨了前沿模型的巨大破坏力,他们发现:模型遇到危险任务时会隐藏真实能力会在代码库中巧妙地插入bug,躲过LLM和人类「检查官」的追踪!就在昨天,某大厂模型训练遭入侵的事件,惊动了整个AI圈。随着AI模型能力继续提升,这些评估和缓解措施还够用吗?Anthropic研究者也表示,希望其他AI研究者和开发者都能加入改进这些评估的行列。
今天下午,字节跳动发布了关于实习生破坏大模型训练”的事实澄清公告。近期有媒体称字节跳动大模型训练被实习生攻击”,经公司内部核实,确有商业化技术团队实习生发生严重违纪行为,该实习生已被辞退。公司也将其行为同步给行业联盟和所在学校,交由校方处理。
今日,字节跳动大模型训练遭实习生攻击一事引发广泛关注,相关话题随即登上热搜。据大厂青年”爆料,据内部厂友透露,破坏模型训练确有其事,但传闻也有些夸张和虚构的信息。一位前字节技术员工表示,字节AILab的实习生权限和正职员工差异不大,也使得此次事件有了发生的机会”,其也对此次事件带来的恶性影响表达了担忧,这件事之后肯定会极大地收缩实习生的权
随着大模型的火热持续迭代,AI基础设施愈发成为云厂商的核心竞争力之一。7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。大模型时代的来临,将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”,也将持续升级底
快科技3月24日消息,中国电信官方宣布,首个国产单池万卡液冷算力集群,天翼云上海临港国产万卡算力池正式启用,首批用户也同时入驻。据介绍,这不仅是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心。该集群采用新一代国产AI算力,通过高速RDMA连接各物理机节点,提供低延时、高吞吐量、无损通信网络和强大的并行计算能力,多项技术指标领跑全国。该集群还最高可支持万亿参数大模型,满足AI计算、深度学习、图形渲染等复杂训练任务对算力的要求。有机构认为,双碳背景下,IDC绿色化是大势
亚马逊云科技与英伟达扩展合作,加速生成式AI创新。双方将在亚马逊云科技上提供NVIDIABlackwell架构GPU,包括GB200GraceBlackwell超级芯片和B100TensorCoreGPU,以帮助客户解锁新的生成式AI能力。推出生成式AI微服务,推进药物发现和医疗领域的发展。