GPT-4模型架构、训练成本和数据集信息泄露

2023-07-11 15:20 · 稿源：站长之家

站长之家（ChinaZ.com）7月11日消息:今天，SemiAnalysis 发布了一篇付费订阅的内容，「揭秘」了有关 GPT-4的信息，包括模型架构、训练成本、数据集等。

据称，GPT-4是由8个混合专家模型组成的集成系统，每个模型有2200亿个参数。推理过程中采用了混合专家模型，路由方式相对简单。训练数据集包含约13万亿个 token，训练时间为90到100天，成本达到6300万美元。推理成本为每1000个 token 约为0.0049美分。

QQ截图20230711152040.jpg

文章还提到了 GPT-4的视觉多模态、推测式解码等特点。这些揭秘的数据对理解 OpenAI 的架构决策非常有意义。

此外，文章还介绍了 A100上 GPT-4的训练和推理成本，以及如何拓展到下一代模型架构 H100。

（举报）

相关推荐

关键词：

「字少信息量大」，Salesforce、MIT 研究者手把手教 GPT-4「改稿」，数据集已开源

自动摘要技术取得了长足的进步，这主要归功于范式的转变——从在标注数据集上进行有监督微调转变为使用大语言模型进行零样本prompt，例如GPT-4。不需要额外的训练，细致的prompt就能实现对摘要长度、主题、风格等方面特征的精细控制。更多论文细节，可参考原论文。

GPT-4 数据集
智源开源中英文语义向量模型训练数据集MTP

智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP。这是全球最大的中、英文文本对训练数据集，数据规模达3亿对，希望推动解决中文模型训练数据集缺乏问题。作为中国大模型开源生态圈的代表机构，智源持续进行包括数据在内的大模型全栈技术开源，推动人工智能协同创新。
对标GPT-4代码解释器！港中大让模型写代码解决数学难题，得分超越GPT-4

对标GPT-4代码解释器，港中大最新研究放了个“大招”:他们开发了一个叫做MathCoder的大模型，数学能力直接在竞赛级“题库”Math上超过GPT-4。做到这一点靠的就是无缝集成代码的能力——在遇到数学问题时，它不仅能用自然语言推理能自动编写和执行代码来建模、推导公式与方程。通讯作者为李鸿升，为港中大电子工程系副教授，同时也就职于上海人工智能研究室。

GPT-4 MathCoder
谷歌让大模型更具“心智”，GPT-4任务准确率大增

谷歌联合多所高校的一项最新研究，让大模型开始拥有了人类的“心智”。在新的提示策略下，大模型不仅能推测出人类所面临的问题学会了用推测的结论调整自己的行为。来自谷歌、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。

GPT-4 大模型
智谱AI发布MathGLM数学模型算术任务性能优于GPT-4

智谱AI发布MathGLM数学模型，旨在增强大模型在数学推理方面的性能。它能够精确计算算术运算，包括基础算术运算和复杂混合运算，并提升模型的中文数学解决能力。MathGLM还在解决不同年级数学问题和数学应用题上进行了实验，取得了较好的结果。
荐GPT-4就是AGI，谷歌斯坦福科学家揭秘大模型如何超智能

【新智元导读】谷歌研究院和斯坦福HAI的两位专家发文称，现在最前沿的AI模型，未来将会被认为是第一代AGI。最前沿的LLM已经用强大的能力证明，AGI即将到来!通用人工智能，其实已经实现了?最近，来自谷歌研究院和斯坦福HAI的大佬发文称，现在的大预言模型就是通向AGI的正确方向现在最前沿的模型，已经拥有AGI的能力了!这两位作者都是AI业界大佬，BlaiseAgüerayArcas现在是Google

GPT-4
荐大模型总结摘要靠谱吗？比人类写的流畅，用GPT-4幻觉还少

作为自然语言生成中的一项任务，主要用来将一大段长文本压缩为简短的摘要，例如新闻文章、源代码和跨语言文本等多种内容都能用到。随着大模型的出现，传统的在特定数据集上进行微调的方法已经不在适用。本文还发现微调模型生成的摘要往往具有固定且严格的长度LLM能够根据输入信息调整输出长度。

大模型
荐训练成本降低16倍，极限压缩42倍！开源文本生成图片模型

StableDiffusion是目前最强开源文本生成图片的扩散模型之一，但对于那些没有A100、H100的中小企业、个人开发者来说有一个很大缺点，需要花费高昂的训练成本。为了解决这一痛点，Wuerstchen开源模型采用了一种全新的技术架构，在保证图片质量的情况下实现了42倍极限压缩。Wuerstchen生成图片展示根据Wuerstchen展示的案例，该模型对文本的理解能力非常好，生成的质量效果也能媲美StableDiffusion等目前最强开源扩散模型。

模型
Odin：一个利用GPT-4技术从数据中生成知识图谱的插件

GitHubRepo上的一个名为Odin的新项目引起了业界的广泛关注。该项目的主要功能是利用GPT-4技术从用户的数据中生成知识图谱。这是Obsidian社区一个非常有前景的插件。

GPT-4
利用合成数据微调ChatGPT超越GPT-4摘要性能降低63%成本和提升11倍速度

Elicit公司机器学习工程师CharlieGeorge在LangChain博客上发表文章介绍了他们使用合成数据微调ChatGPT在新闻摘要任务上超越GPT-4的研究成果。文章提到，尽管GPT-4被公认为世界上最强大的语言模型，但其调用限制、高成本和高延迟也限制了其实际应用。这为新一代AI应用大规模部署提供了路径。

ChatGPT GPT-4 AI头条

今日大家都在搜的词：

热文

3 天
7天

GPT-4模型架构、训练成本和数据集信息泄露

「字少信息量大」，Salesforce、MIT 研究者手把手教 GPT-4「改稿」，数据集已开源

智源开源中英文语义向量模型训练数据集MTP

对标GPT-4代码解释器！港中大让模型写代码解决数学难题，得分超越GPT-4

谷歌让大模型更具“心智”，GPT-4任务准确率大增

智谱AI发布MathGLM数学模型算术任务性能优于GPT-4

荐GPT-4就是AGI，谷歌斯坦福科学家揭秘大模型如何超智能

荐大模型总结摘要靠谱吗？比人类写的流畅，用GPT-4幻觉还少

荐训练成本降低16倍，极限压缩42倍！开源文本生成图片模型

Odin：一个利用GPT-4技术从数据中生成知识图谱的插件

利用合成数据微调ChatGPT超越GPT-4摘要性能降低63%成本和提升11倍速度

今日大家都在搜的词：

热文

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

黑神话官号更名系列游戏将开启宏大篇章

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

泡泡玛特王宁：本周将发布迷你版LABUBU

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

REDMI Note 15 Pro+将首发第四代骁龙7s

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

站长商机