Groq大模型推理芯片每秒500tokens超越GPU，喊话三年超过英伟达

2024-02-20 14:06 · 稿源：站长之家

划重点:
1. Groq公司推出的大模型推理芯片，每秒500tokens的惊人速度超越了传统GPU，挑战谷歌TPU。
2. 该芯片由初创公司Groq研发，由谷歌TPU团队原班人马打造，推理速度提高10倍，成本降低十分之一，支持多种大模型。
3. Groq的目标是在三年内超越英伟达，采用自创的LPU方案，克服计算密度和内存带宽瓶颈，实现18倍于云平台速度的推理性能。

站长之家（ChinaZ.com）2月20日消息:Groq公司推出的大模型推理芯片以每秒500tokens的速度引起轰动，超越了传统GPU和谷歌TPU。该芯片由初创公司Groq研发，其团队成员来自谷歌TPU，包括创始人兼CEO Jonathan Ross，曾设计实现第一代TPU芯片的核心元件。

Groq采用了全球首个LPU（Language Processing Unit）方案，旨在克服计算密度和内存带宽的瓶颈，最终实现大模型推理性能比其他云平台厂商快18倍。据介绍，英伟达GPU需要大约10到30焦耳才能生成响应中的tokens，而Groq仅需1到3焦耳，使得推理速度提高了10倍，成本降低十分之一，性价比提高了100倍。

Groq的芯片采用14nm制程，搭载了230MB大SRAM以保证内存带宽，片上内存带宽高达80TB/s。在算力方面，该芯片的整型（8位）运算速度为750TOPs，浮点(16位)运算速度为188TFLOPs。基于自研的TSP架构，Groq利用机器学习工作负载的并行性对推理进行加速，并支持通过PyTorch、TensorFlow等标准机器学习框架进行推理。

Groq公司在演示中展示了其芯片的强大性能，支持Mixtral8x7B SMoE、Llama2的7B和70B等多种模型，并可直接体验Demo。不仅如此，Groq还喊话各大公司，扬言在三年内超越英伟达。该公司的推理芯片在第三方网站上的售价为2万多美元。

Groq公司以其创新的LPU方案和超越性能的大模型推理芯片，成为大模型推理领域令人瞩目的新兴力量，引领着技术的飞速发展。

Groq产品的特色亮点如下:

1. API访问速度极快:Groq提供了API密钥，可以访问世界上最快的开源大型语言模型（LLM）推理速度。他们的实现在Anyscale的LLMPerf Leaderboard上展示了相较于云服务提供商高达18倍的推理性能。

2. 支持开源LLM模型:*Groq支持Llama2-70B和7B，这两个由Meta AI创建的领先的开源基础LLM模型。这些Groq实现使用4096的上下文长度。

3. 支持其他模型:*除了Llama系列外，Groq还支持Mixtral8x7B，由Mistral AI创建，可根据请求提供。其他模型如Mistral和CodeLlama也可根据特定客户请求提供。

4. 免费试用期: 提供为期10天的免费试用期，可以根据请求进行刷新。在试用期间，用户将获得100万免费令牌，并且API与OpenAI API完全兼容。

5. 价格保证: Groq保证以击败任何已发布的相应模型的百万令牌价格。他们的定价相对较低，可以提供更具竞争力的服务。

6. 早期访问计划: Groq提供了Alpha版本的API的早期访问计划，免费供研究和开发目的使用。公共可用性计划于2024年第二季度。

7. 高性能硬件支持: Groq引擎（LPU™ Inference Engine）在性能上优越，通过硬件支持实现了18倍于云服务提供商的LLM推理性能。

Groq产品以其出色的推理性能、对多种开源LLM模型的支持以及具有竞争力的价格政策等特色，成为一个引人注目的选择。

项目入口：https://top.aibase.com/tool/groq

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐AI行业买英伟达GPU，花的钱比赚的多17倍

搞AI大模型，实在太烧钱了。如今的生成式AI有很大一部分是资本游戏，科技巨头利用自身强大的算力和数据占据领先位置，并正在使用先进GPU的并行算力将其推广落地。无论花掉多少钱，成为第一可能就会带来潜在的收益……但是什么样的收益，我们还无法作出预测。

AI 大模型资本游戏
大模型推理显卡选购指南：4090显卡为何成为不二之选

在人工智能领域，尤其是在模型训练和推理阶段，显卡的性能至关重要。随着模型的规模越来越大，对算力的需求也会倍增。新用户还可以免费领取500元卡时计算资源。

人工智能显卡性能模型训练
李斌：蔚来自研芯片一颗顶英伟达四颗

蔚来李斌近日表示，去年购买了很多的英伟达芯片，这耗费了公司不少钱，为此公司转向自研芯片，因为一颗芯片可以顶四颗，所以能降低成本。在2023蔚来日上，蔚来正式发布了首颗自研智能驾驶芯片神玑NX9031。配合蔚来汽车的最强安全冗余能力，神玑NX9031能够带来极致安心的驾驶体验，让驾驶者在享受智能驾驶带来的便利的同时，也能感受到蔚来汽车对安全性能的极致追求�

蔚来自研芯片智能驾驶
AI明星创业公司买英伟达GPU ，几周估值翻倍，但花的钱比赚的多17倍

在AI行业，尤其是生成式AI领域，技术的快速发展和应用的广泛前景吸引了大量的投资和关注。这一领域的高昂成本也引起了业界的广泛讨论。如何在追求技术进步的同时实现可持续的商业模式，是所有AI公司需要面对的重要问题。

英伟达
曝英伟达计划四季度推出RTX 5090！采用GDDR7、核心数增加50%

英伟达计划在今年第四季度推出RTX5090及RTX5080显卡。此将有助于英伟达合作伙伴扩大出货量，尤其是随着越来越多的玩家向高端升级，这些GPU的推出还将有助于提高GPU的平均售价。此外在光线追踪方面，英伟达RTX5090的性能目标是提高2.5倍，计算能力将提高2倍，功耗可能高达520W。

英伟达 RTX 5090
DBRX抢占开源大模型王座编程、数学等领域超越GPT-3.5

最新开源大语言模型DBRX以其惊人的1320亿参数量成为业界新宠。该模型不仅在语言理解、编程和数学等方面超越了业内领先的开源模型在效率上有所突破。随着其在各项基准测试中的优异表现，DBRX有望成为未来开源大模型发展的重要里程碑，为人工智能领域的进步贡献力量。

DBRX AI头条
联发科英伟达合力推新品，高通慌了

首次亮相的3nm天玑汽车座舱平台CT-X1在业内激起不小的波澜，被认为是友商8295的头号天敌。同时亮相的还有天玑汽车座舱平台CT-Y1和CT-Y0，采用4nm制程，汽车制造商可借助天玑汽车座舱平台实现从旗舰到高端车型的智能化体验升级，满足不同定位车型对高算力和强AI的需求。面向AI定义汽车的大势所趋，科技巨头们的深度合作展现出强大的市场影响力，这对联发科的对手们构成了不小的挑战正是激烈的产品和技术竞争，才是推动汽车产业持续创新与发展的原动力。
搭载英伟达GPU，全球领先的向量数据库公司Zilliz发布Milvus2.4向量数据库

在美国硅谷圣何塞召开的NVIDIAGTC大会上，全球领先的向量数据库公司Zilliz发布了Milvus2.4版本。这是一款革命性的向量数据库系统，在业界首屈一指，它首次采用了英伟达GPU的高效并行处理能力和RAPIDScuVS库中新推出的CAGRA技术，提供基于GPU的向量索引和搜索加速能力，性能可提升50倍。关注Zilliz微信公众号，回复“北极星”可了解详情。

NVIDIA GTC Zilliz
你买A卡还是N卡！AMD痛失一重要伙伴：微星全力做英伟达RTX系显卡

微星官网很难找到AMDRadeon7000系列产品，官方表示已经停产。微星官方确认，公司未来发展将专注于推出英伟达GeForceRTX系列GPU显卡产品。虽然市场需求飙升，但是英伟达近期采取以不变应万变的策略，没有追加订单，使得RTX4060Ti系列的情况更为突出。
性能超H100！英特尔发布新一代人工智能芯片Gaudi 3 压力给到英伟达！

英特尔发布了新一代人工智能芯片Gaudi3，引发了业界的广泛关注。Gaudi3的性能远超竞争对手英伟达的H100芯片，成为当前市场上最强大的AI芯片之一。这使得Gaudi3在AI领域的应用中具有出色的表现，特别适合处理大规模的深度学习模型。

英特尔 Gaudi3 AI头条

PhysDreamer:通过视频生成实现基于物理的3D对象交互

PhysDreamer是一个基于物理的方法，它通过利用视频生成模型学习到的对象动力学先验，为静态3D对象赋予交互式动力学。这种方法允许在缺乏真实物体物理属性数据的情况下，模拟出对新颖交互（如外力或代理操作）的真实反应。PhysDreamer通过用户研究评估合成交互的真实性，推动了更吸引人和真实的虚拟体验的发展。

3D交互视频生成物理模拟

AI快站:专注于提供HuggingFace模型免费加速下载服务的平台

AI快站是一个为AI开发者设计的服务平台，提供HuggingFace模型的免费加速下载，解决大模型下载缓慢和断开的问题，支持高达4M/s的下载速度，大幅减少等待时间，提高开发效率。

HuggingFace模型加速下载断点续传

Llama-3 8B Instruct 262k:一款由Gradient AI团队开发的高性能文本生成模型。

Llama-3 8B Instruct 262k是一款由Gradient AI团队开发的文本生成模型，它扩展了LLama-3 8B的上下文长度至超过160K，展示了SOTA（State of the Art）大型语言模型在学习长文本操作时的潜力。该模型通过适当的调整RoPE theta参数，并结合NTK-aware插值和数据驱动的优化技术，实现了在长文本上的高效学习。此外，它还基于EasyContext Blockwise RingAttention库构建，以支持在高性能硬件上的可扩展和高效训练。

文本生成长文本处理对话系统

CoreNet: 是一个用于训练深度神经网络的库。

CoreNet 是一个深度神经网络工具包，使研究人员和工程师能够训练标准和新颖的小型和大型规模模型，用于各种任务，包括基础模型（例如 CLIP 和 LLM）、对象分类、对象检测和语义分割。

深度学习神经网络计算机视觉

Llama-Chinese:构建最好的中文Llama大模型，完全开源可商用。

Llama中文社区是一个专注于Llama模型在中文方面的优化和上层建设的技术社区。社区提供基于大规模中文数据的预训练模型，并对Llama2和Llama3模型进行持续的中文能力迭代升级。社区拥有高级工程师团队支持，丰富的社区活动，以及开放共享的合作环境，旨在推动中文自然语言处理技术的发展。

NLP 开源中文优化

Interactive3D:通过交互式3D生成技术，实现高质量且可控的3D模型创建。

Interactive3D是一个先进的3D生成模型，它通过交互式设计为用户提供了精确的控制能力。该模型采用两阶段级联结构，利用不同的3D表示方法，允许用户在生成过程的任何中间步骤进行修改和引导。它的重要性在于能够实现用户对3D模型生成过程的精细控制，从而创造出满足特定需求的高质量3D模型。

3D生成交互设计模型控制

GraphRAG:结合文本提取、网络分析和大型语言模型提示与总结的端到端系统

GraphRAG (Graphs + Retrieval Augmented Generation) 是一种通过结合文本提取、网络分析以及大型语言模型（LLM）的提示和总结，来丰富理解文本数据集的技术。该技术即将在GitHub上开源，是微软研究项目的一部分，旨在通过先进的算法提升文本数据的处理和分析能力。

人工智能自然语言处理知识图谱

Qwen1.5-110B:Qwen1.5系列首个千亿参数开源模型，多语言支持，高效Transformer解码器架构。

Qwen1.5-110B是Qwen1.5系列中规模最大的模型，拥有1100亿参数，支持多语言，采用高效的Transformer解码器架构，并包含分组查询注意力（GQA），在模型推理时更加高效。它在基础能力评估中与Meta-Llama3-70B相媲美，在Chat评估中表现出色，包括MT-Bench和AlpacaEval 2.0。该模型的发布展示了在模型规模扩展方面的巨大潜力，并且预示着未来通过扩展数据和模型规模，可以获得更大的性能提升。

人工智能机器学习自然语言处理

ID-Aligner:一种用于增强身份保留文本到图像生成的反馈学习框架

ID-Aligner 是一种用于增强身份保留文本到图像生成的反馈学习框架，它通过奖励反馈学习来解决身份特征保持、生成图像的审美吸引力以及与LoRA和Adapter方法的兼容性问题。该方法利用面部检测和识别模型的反馈来提高生成的身份保留，并通过人类标注偏好数据和自动构建的反馈来提供审美调整信号。ID-Aligner 适用于LoRA和Adapter模型，通过广泛的实验验证了其有效性。

文本到图像身份保留反馈学习

Bundle of Joy:为忙碌的准父母提供宝宝女孩和宝宝男孩的名字选择。

Bundle of Joy是一个为准父母设计的应用程序，可以在几秒钟内为他们的新生儿浏览和筛选名字。该应用根据父母的偏好推荐名字，并根据父母的喜好进行学习，为他们提供适合他们口味的新的推荐。父母可以指示宝宝的性别，然后选择以下两个选项之一：名字的首选来源、宗教、主题、首字母和含义。他们开始根据自己的独特偏好获得漂亮的宝宝名字推荐。他们可以随时修改这些偏好，并继续根据自己的口味获得新鲜的推荐。

宝宝名字准父母姓名选择

StudyBoosterAI:解锁个性化学习和考试成功，帮助学生制定个性化学习计划、记忆技巧等，支持IB、IGCSE、ICSE、文凭课程和大学学生。

StudyBoosterAI通过AI技术提供个性化支持，包括定制化学习材料、生动的学习内容、个性化学习计划等，帮助学生更有效地学习和记忆知识。

个性化学习记忆技巧学习计划

SNAPVID:是一款智能视频编辑工具，帮助用户快速剪辑、添加字幕和动画表情，提高视频的吸引力和互动性。

SNAPVID是一款智能视频编辑工具，利用AI技术提供多个热门视频剪辑建议，用户只需点击一次即可创建多个病毒式视频剪辑。同时，用户可以根据需要自定义剪辑长度和风格，并添加自定义的字幕和动画表情。SNAPVID还支持批量导出和品牌定制，使用户能够轻松导出自己喜欢的视频剪辑并保存项目设置，方便在多个项目中复用。通过AI B Roll技术，SNAPVID还可以自动添加相关的库存视频，提升视频的沉浸感。

视频编辑 AI技术字幕

Recruiting Co:革新您的招聘游戏，使用我们的即时验证器来简化招聘。

Blue Saturn是一款招聘辅助工具，通过即时验证器帮助中型和大型组织验证大量申请者。它可以分析数百个申请者的信息，在不到1分钟内提供全面的报告和排名。Blue Saturn的主要优点是快速验证、全面报告和智能招聘。

招聘验证人力资源

Vidu:中国首个长时长、高一致性、高动态性视频大模型，一键生成高清视频内容。国内版的Sora

Vidu是由生数科技联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型。该模型采用原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。其快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。Vidu的问世代表了生数科技在多模态原生大模型领域的持续创新能力和领先性，面向未来，灵活架构将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。

AI视频生成高清视频多模态

Fusionos.ai:将市场营销活动从构思到上线，一天搞定。使用AI生成营销文案和适应各种渠道的创意，在几秒钟内生成所有尺寸的创意，获取可编辑的Adobe Photoshop创意，包括分层文本、高分辨率产品、背景等。实时协作于一个地方，连接您现有的工具。

Fusion OS是一个营销活动的增强平台，通过使用AI在同一天内生成并发布营销活动，极大地提高了活动的效率。它可以根据客户的要求生成营销文案和创意，为多个渠道生成适应的尺寸，同时还可以生成可编辑的Adobe Photoshop文件，包括分层文本、高分辨率产品、背景等。Fusion OS还提供实时协作功能，让团队成员可以在同一个地方进行协作，并连接现有的工具，集中管理数据和提供AI驱动的增长建议。

Groq​大模型推理芯片每秒500tokens超越GPU，喊话三年超过英伟达

今日大家都在搜的词：

热文

站长商机

Groq大模型推理芯片每秒500tokens超越GPU，喊话三年超过英伟达