首页 > 业界 > 关键词  > Cerebras最新资讯  > 正文

在全球芯片上训练!AI芯片初创公司Cerebras新推出七种开源语言模型

2023-03-31 15:10 · 稿源:站长之家

站长之家(ChinaZ.com)3月31日 消息:AI芯片初创公司Cerebras宣布进军大型语言模型领域,推出了七种新的开源语言模型。称为Cerebras-GPT 的模型系列的大小范围从1.11亿个参数到130亿个参数。

image.png

这家初创公司表示,这些模型使用 DeepMind 的Chinchilla公式进行训练,旨在让任何人都能以更低的成本使用它们,其消耗的能量实迄今为止公开可用的模型中最少的。

Cerebras 决定构建并提供这些开源模型它认为访问应该更加开放。Cerebras ML 研究科学家 Nolan Dey 在博客文章中写道:“最新的大型语言模型OpenAI 的GPT-4发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。该公司越来越多地使用封闭数据集构建大型模型,并仅通过 API 访问提供模型输出。要让 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问最先进的模型,这些模型对于研究和商业应用都是开放的、可复制的和免版税的。”

image.png

Cerebras模型的数据集尚未公开,目前可以通过HuggingFace访问模型本身。

在全球最大芯片上训练模型

Cerebras 以其WSE-2芯片而闻名,它是世界上最大的芯片之一,类似于一个8x8英寸的平板,每个平板包含2.6万亿个晶体管和85万个“人工智能优化”内核。

image.png

Cerebras 的CS-2系统包含大量 WSE-2AI 芯片。这家初创公司采用了其中的16个系统来为其 AI 超级计算机 Andromeda 提供动力。Andromeda于去年11月发布,旨在大大减少训练大型语言模型所需的时间。

这家初创公司甚至声称超级计算机可以处理具有巨大序列长度的大型语言模型,这是传统 GPU 根本无法做到的。在去年底接受AI Business采访时,Cerebras 首席执行官 Andrew Feldman 表示 Andromeda 已经帮助进行了 COVID-19研究。

这家初创公司已将注意力转向大型语言模型,以此来展示其技术的能力。

Cerebras-GPT 模型是在 Andromeda 上训练的,Cerebras 表示它能够“快速完成训练,无需GPU集群上所需的传统分布式系统工程和模型并行调优。” 用于训练 Cerebras-GPT 模型的集群也已通过Cerebras AI Model Studio在云端提供。

促进大语言模型大众化

主要的人工智能实验室已经做了很多开发语言模型的工作,但却隐瞒了有关底层系统如何工作的信息。例如,OpenAI在本月早些时候发布GPT-4引起了愤怒,只是透露了很少的技术规格,却没有提及所使用的确切数据或尺寸细节。

很多人,比如斯坦福大学的 AI 研究人员,认为由于 OpenAI 等公司已经关闭了他们的模型,这使得对这些技术的潜在影响进行研究变得更加困难。

Cerebras 设计了新模型以提供更广泛的访问,并表示希望这些模型将“作为有效培训的秘诀,并作为进一步社区研究的参考。”

站长之家注:

Cerebras-GPT 官方博客网址:https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/

Cerebras-GPT模型HuggingFace网址:https://huggingface.co/cerebras

举报

  • 相关推荐
  • 世俱杯亚欧巅峰对决!海信100吋电视AI芯片呈现高光瞬间

    文章主要报道了世界杯1/8决赛曼城与利雅得新月的精彩对决,重点描述了贝纳尔多·席尔瓦的凌空抽射和哈兰德的关键头球等精彩瞬间。同时指出100英寸大屏电视已成为观赛主流选择,海信电视凭借RGB-Mini LED技术和330Hz高刷新率等优势,能带来更沉浸的观赛体验。数据显示世界杯期间100英寸以上大屏电视销量同比增长超109%,海信全球市场份额达56.71%,领跑行业。文章强调优质大屏电视能提升观赛参与感,建议球迷选择画质优秀、刷新率高、视角广的100英寸电视,以获得最佳观赛效果。

  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�

  • 成都汇阳投资关于芯片+AI 眼镜核心公司

    AI眼镜芯片作为核心部件,2025年全球市场规模预计达570万台,同比增长110%。芯片算力决定处理速度与效率,低功耗特性延长续航时间。多家公司布局该领域,如韦尔股份(全球第三大CMOS厂商)、中科蓝讯(无线音频SoC芯片)、恒玄科技(AIoT芯片龙头)等。AI眼镜有望替代手机、电脑,成为元宇宙入口。投资建议关注短期市场情绪和资金流向,长期可布局具备核心竞争力的公司,如韦尔股份、恒玄科技等。投资需分散风险,谨慎决策。

  • 阿里巴巴发布全球首个胃癌影像筛查AI模型:CT就能识别早期胃癌

    浙江省肿瘤医院联合阿里巴巴达摩院,发布了全球首个胃癌影像筛查AI模型DAMO GRAPE。 该模型首次利用平扫CT影像识别早期胃癌病灶,并联合全国20家医院,在近10万人的大规模临床研究中大幅提升胃癌检出率。 相关论文在24日登上了国际顶级期刊《自然医学》(Nature Medicine)。 据国家癌症中心统计,我国每年新发胃癌约36万例,死亡26万例,死亡人数在所有恶性肿瘤中位列第�

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • 「6月26日AI日报」可灵AI推全球首部AIGC单元剧;谷歌开源AI智能体Gemini CLI

    AI行业近期动态汇总:1)豆包AI编程升级为"应用创作1.0",支持可视化编辑和实时预览,降低开发门槛;2)谷歌开源Gemini CLI工具,集成Gemini 2.5 Pro模型,提供免费编程助手;3)Anthropic推出"Artifacts"功能,用户无需编程即可在Claude中创建AI应用;4)出门问问发布TicNote+硬件产品,内置Shadow AI技术;5)OpenAI将Codex CLI重构为Rust语言以提升性能;6)谷歌发布Imagen4文生图模型,突�

  • 月之暗面放王炸!开源Kimi新模型:超新版DeepSeek R1全球第一

    月之暗面推出了针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。 该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,超越了刚发布不就、参数量达671B的新版DeepSeek-R1。

  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • 2025最新全球AI大模型排名,国内外模型动态洗牌(实时更新平台推荐)

    2025年全球AI大模型竞争进入白热化阶段,OpenAI、Google等国际巨头与中国企业激烈交锋。技术迭代远超预期,仅半年内排名就经历多次洗牌。当前全球AI大模型综合排名Top10显示:1)GPT-4.5综合80.4分领跑;2)Claude3.7编程领域领先;3)Gemini2.0多模态标杆;4)国产DeepSeek R1推理速度提升3倍;5)阿里Qwen2.5数学编程单项第一。中国模型通过开源策略、垂直优化和成本革命实现弯道超车,如DeepSeek R1仅耗资600万美元达到GPT-4水平,字节豆包采用稀疏MoE架构成本大幅降低。中文场景深度优化表现突出,如文心一言4.0方言交互准确率92%。开源生态爆发,通义千问全尺寸开源(7B~110B参数)在Hugging Face排名第一。权威评估需结合标准化测试、人类盲测和场景适配性。

  • 阿里云全栈AI技术引擎驱动SaaS企业全球化升级 构建出海新范式

    全球SaaS市场正以16.4%的年复合增长率迈向万亿规模,中国企业引领的智能化升级正在改写行业全球化叙事。阿里云发布"全栈AI+全球化"技术体系,通过端到端技术栈重构打造可扩展、低门槛的全球化智能基座,释放技术红利。通义千问大模型通过参数效率优化突破AI规模化应用的经济性瓶颈,支持119种语言适配不同市场。e签宝推出行业首个智能合同Agent,实现合同全生命