首页 > 业界 > 关键词  > Cerebras最新资讯  > 正文

在全球芯片上训练!AI芯片初创公司Cerebras新推出七种开源语言模型

2023-03-31 15:10 · 稿源:站长之家

站长之家(ChinaZ.com)3月31日 消息:AI芯片初创公司Cerebras宣布进军大型语言模型领域,推出了七种新的开源语言模型。称为Cerebras-GPT 的模型系列的大小范围从1.11亿个参数到130亿个参数。

image.png

这家初创公司表示,这些模型使用 DeepMind 的Chinchilla公式进行训练,旨在让任何人都能以更低的成本使用它们,其消耗的能量实迄今为止公开可用的模型中最少的。

Cerebras 决定构建并提供这些开源模型它认为访问应该更加开放。Cerebras ML 研究科学家 Nolan Dey 在博客文章中写道:“最新的大型语言模型OpenAI 的GPT-4发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。该公司越来越多地使用封闭数据集构建大型模型,并仅通过 API 访问提供模型输出。要让 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问最先进的模型,这些模型对于研究和商业应用都是开放的、可复制的和免版税的。”

image.png

Cerebras模型的数据集尚未公开,目前可以通过HuggingFace访问模型本身。

在全球最大芯片上训练模型

Cerebras 以其WSE-2芯片而闻名,它是世界上最大的芯片之一,类似于一个8x8英寸的平板,每个平板包含2.6万亿个晶体管和85万个“人工智能优化”内核。

image.png

Cerebras 的CS-2系统包含大量 WSE-2AI 芯片。这家初创公司采用了其中的16个系统来为其 AI 超级计算机 Andromeda 提供动力。Andromeda于去年11月发布,旨在大大减少训练大型语言模型所需的时间。

这家初创公司甚至声称超级计算机可以处理具有巨大序列长度的大型语言模型,这是传统 GPU 根本无法做到的。在去年底接受AI Business采访时,Cerebras 首席执行官 Andrew Feldman 表示 Andromeda 已经帮助进行了 COVID-19研究。

这家初创公司已将注意力转向大型语言模型,以此来展示其技术的能力。

Cerebras-GPT 模型是在 Andromeda 上训练的,Cerebras 表示它能够“快速完成训练,无需GPU集群上所需的传统分布式系统工程和模型并行调优。” 用于训练 Cerebras-GPT 模型的集群也已通过Cerebras AI Model Studio在云端提供。

促进大语言模型大众化

主要的人工智能实验室已经做了很多开发语言模型的工作,但却隐瞒了有关底层系统如何工作的信息。例如,OpenAI在本月早些时候发布GPT-4引起了愤怒,只是透露了很少的技术规格,却没有提及所使用的确切数据或尺寸细节。

很多人,比如斯坦福大学的 AI 研究人员,认为由于 OpenAI 等公司已经关闭了他们的模型,这使得对这些技术的潜在影响进行研究变得更加困难。

Cerebras 设计了新模型以提供更广泛的访问,并表示希望这些模型将“作为有效培训的秘诀,并作为进一步社区研究的参考。”

站长之家注:

Cerebras-GPT 官方博客网址:https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/

Cerebras-GPT模型HuggingFace网址:https://huggingface.co/cerebras

举报

  • 相关推荐
  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • B站要变成AI站

    互联网平台都在跟AI结合,B站没有成为例外。从新一季度财报来看,B站的AI味儿也越来越浓了。 8月21日,B站公布第二季度业绩,总营收达73.4亿元人民币,同比增长20%。其中,游戏业务收入为16.1亿元,同比增长60%,广告业务收入为24.5亿元,同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%,调整后净利润达到5.6亿元,创下历史最好成绩。 从整体来看,B站生态集聚

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 卖家精灵将亮相9月深圳CCBEC&武汉电博会,以AI+大数据赋能跨境卖家高效突围!

    9月跨境卖家盛会双城联动:17-19日深圳CCBEC展会聚焦全产业链生态,汇聚1500+供应商;19-21日武汉电博会以“链接全球·数创未来”为主题,探讨数字贸易创新。两大展会呈现最新行业成果,举办20+高端论坛,提供选品策略、流量运营等一站式出海解决方案。卖家精灵作为官方合作伙伴,将展示AI选品工具与运营指南,助力卖家赢得全球市场竞争优势。

  • MCP模型库深度解析:AI智能体工具调用生态的多元化与规模化发展

    AIbase旗下MCP模型库收录服务数量突破12万,标志着AI智能体生态迈向成熟。MCP协议为AI工具调用提供标准化蓝图,其成功取决于生态规模与活力。平台覆盖工具、知识库、数据源、控制系统等多元领域,展现高度多样性。一站式整合平台降低开发成本,助力企业快速构建复杂应用,成为感知AI技术风向的重要窗口。

  • AI模型库哪个好?2025年主流AI模型选型指南与API成本对比推荐

    AI时代企业核心挑战已从“能否做AI”转向“如何高效集成AI能力”。AI模型库通过聚合全球主流模型,提供透明化成本与能力信息,帮助企业实现快速原型验证、精准选型和成本优化。这种基础设施降低技术门槛,使非技术背景决策者也能深度参与技术选型,加速创新迭代并降低试错成本。

今日大家都在搜的词: