OpenAI计划建立「数据市场」，训出GPT-5短缺20万亿 token

2024-04-08 14:27 · 稿源：站长之家

划重点:
⭐️ AI 公司面临高质量数据短缺，OpenAI 计划建立「数据市场」
⭐️ 数据供不应求可能导致人工智能发展受阻
⭐️ 公司探索合成数据训练方法以解决数据短缺问题

站长之家(ChinaZ.com) 4月8日消息:全网高质量数据集告急!据报道，AI 公司如 OpenAI、Anthropic 等正在努力寻找足够的信息来训练下一代人工智能模型。数据短缺问题日益突出，对训练下一代强大模型至关重要。面对这一挑战，AI 初创、互联网大厂开始寻找新的方法来解决算力和数据的瓶颈问题。

AI换脸人脸识别 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

据悉，GPT-5等强大系统的开发需要大量海量数据作为训练材料，然而高质量公共数据在互联网中已变得稀缺。

研究机构Epoch研究人员Pablo Villalobos估计，GPT-4是在多达12万亿个token上训练的。他继续表示，基于Chinchilla缩放定律的原理，如果继续遵循这样扩展轨迹，像GPT-5这样的AI系统将需要60万亿-100万亿token的数据。也就是，利用所有可用的高质最语言和图像数据后，训出 GPT-5仍短缺20万亿 token。

一些数据所有者如 Reddit 等机构也制定政策限制 AI 公司访问数据，加剧了数据短缺的困境。为解决这一难题，一些公司正在尝试通过合成数据训练模型，但可能会面临「模型自噬障碍」等问题。

对于数据稀缺问题，AI 研究人员和公司纷纷寻求解决之道。OpenAI 的 Ari Morcos 指出，数据短缺是一个前沿的研究问题，他的公司 DatologyAI 致力于改进数据选择工具，以降低训练 AI 模型的成本。此外，OpenAI 还在讨论建立「数据市场」，通过确定数据点对模型训练的贡献来支付费用，以帮助缓解数据短缺问题。

数据短缺对 AI 发展构成重大挑战，各公司正在探索不同的方法来解决这一问题。从合成数据到建立数据市场，AI 领域正在不断寻求突破，以确保训练下一代强大人工智能模型所需的数据资源。

（举报）

相关推荐

关键词：

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
小米15T/15T Pro发布：小米最强天玑旗舰 5400元起

9月25日，小米在海外正式发布15T和15T Pro两款旗舰手机。15T起售价650欧元（约5400元），15T Pro起售价800欧元（约6700元），均为12GB+256GB起步。两款机型设计基本一致，主要差异在核心配置：15T Pro搭载天玑9400+处理器、144Hz刷新率屏幕、90W有线+50W无线充电，后置三摄支持8K视频录制；15T采用天玑8400-Ultra、120Hz屏幕、67W有线快充。两者均配备6.83英寸OLED屏、5500mAh电池及相似影像系统。

小米15T 小米15T Pro
曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”，用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能，包括搜索个人数据、执行App内操作（如编辑照片）等。虽然不面向消费者发布，但该工具标志着苹果对Siri的全面升级已进入新阶段，旨在帮助员工高效完成测试。

苹果 Siri ChatGPT
真我GT8 Pro入网：挑战5000元以内最强Pro旗舰

真我GT8+ Pro已获入网许可，支持120W有线闪充，电池容量超7000mAh并兼容无线充电。核心配置包括第五代骁龙8至尊版、2亿潜望长焦、2K直屏、电竞双芯及大师级对称双扬声器。其2亿潜望长焦为realme独家技术，提供全维度影像自由，支持120倍变焦，10倍以上细节清晰，实现构图自由。该机主打质价比，挑战5000元内最强Pro旗舰，将于10月发布。

真我GT8 Pro 120W有线闪充
Miss Pep闪耀TikTok达人赛，以“时尚健康美学”燃爆纽约地标

2025年9月20日，纽约本土健康品牌Miss Pep受邀参加在American Dream Mall举办的“美国梦×TikTok达人明星全美品牌推广赛”。品牌通过产品展示、达人直播互动及宣讲，向日均超18万客流传递“健康与美缺一不可”理念。现场设置互动扫码送定制纹身贴等趣味活动，吸引大量潮流人士。多位顶流明星及达人助阵，结合线上线下联动直播，触达数百万粉丝，强化品牌认知。Miss Pep深耕健康美学30年，产品覆盖养颜、膳食补充等多领域，以“细胞级靶向修护+超天然成分”为核心，正加速全球化布局，覆盖超20国市场，致力成为健康美学的领军者。

品牌推广健康美学 TikTok营销
赫力昂联合Springer Nature旗下自然定制揭秘大脑抗衰

全球老龄化加速，大脑健康成为焦点。9月16日是中国脑健康日，9月21日是世界阿尔茨海默病日。数据显示，2020至2023年全球60岁以上人口增长40%，达14亿；中国60岁以上人口超3亿，占比22%。阿尔茨海默病带来的经济负担约占GDP的1.47%。科学界正探索维持大脑年轻态的机制，企业合作举办高峰论坛，专家分享前沿研究成果，强调40-60岁是干预黄金窗口期。复合维生素矿物质等营养干预手段显示认知改善潜力，未来需跨学科协作推动大脑抗衰研究普及。

脑健康阿尔茨海默病老龄化

今日大家都在搜的词：

热文

3 天
7天

OpenAI计划建立「数据市场」，训出GPT-5短缺20万亿 token

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

小米15T/15T Pro发布：小米最强天玑旗舰 5400元起

曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

真我GT8 Pro入网：挑战5000元以内最强Pro旗舰

Miss Pep闪耀TikTok达人赛，以“时尚健康美学”燃爆纽约地标

赫力昂联合Springer Nature旗下自然定制揭秘大脑抗衰

今日大家都在搜的词：

热文

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

OPPO Find X9系列定档：10月16日发布

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行享界S9T上市13天大定破 15000 台

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果iOS18.7.1正式版更新发布重要安全修复

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

小米17系列开售5分钟破25年国产手机首销纪录

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

罗永浩替小米说公道话：海报小字是行业陋习

iPhone调休闹钟上热搜苹果客服回应：需手动设置

站长商机