研究警告:到2026年，AI训练数据可能告急

2023-11-08 16:31 · 稿源：站长之家

划重点:
1. 高质量数据对AI至关重要:强大、准确和高质量的AI算法需要大量高质量的数据来进行训练。
2. AI数据可能告急:研究人员预测，如果当前的AI训练趋势继续下去，高质量文本数据可能在2026年之前告急，而低质量的语言数据和图像数据也将在未来告急。
3. 解决数据短缺问题的方法:为了解决数据短缺问题，AI开发人员可以改进算法，更有效地利用已有数据。此外，他们可以使用AI生成合成数据来训练系统，以适应特定的AI模型。

站长之家（ChinaZ.com）11月8日消息:随着人工智能（AI）达到巅峰，研究人员警告称，AI行业可能会面临训练数据告急的问题，这是强大AI系统的燃料。这可能会减缓AI模型的增长，特别是大型语言模型，并可能改变AI革命的轨迹。

为了训练强大、准确和高质量的AI算法，我们需要大量数据。例如，ChatGPT是基于570千兆字节的文本数据（大约3000亿字）进行训练的。类似地，stable diffusion算法(驱动许多AI图像生成应用，如DALL-E、Lensa和Midjourney)是基于包含58亿图像-文本对的LIAON-5B数据集进行训练的。如果算法的训练数据不足，将会产生不准确或低质量的输出。因此，训练数据的质量同样重要。低质量数据，如社交媒体帖子或模糊照片，容易获取，但不足以训练高性能的AI模型。

数据中心超级计算机 (1)

图源备注：图片由AI生成，图片授权服务商Midjourney

AI行业一直在不断扩大数据集的规模，这就是为什么我们现在拥有高性能模型，如ChatGPT或DALL-E3。与此同时，研究显示，用于训练AI的在线数据库增长速度远远慢于AI所需的数据集。在去年发表的一篇论文中，一组研究人员预测，如果当前的AI训练趋势继续下去，我们将在2026年之前用尽高质量文本数据，而低质量的语言数据将在2030年至2050年之间耗尽，低质量的图像数据将在2030年至2060年之间告急。尽管AI有望在未来几年内更有效地利用已有数据来训练高性能AI系统，从而降低数据需求，但数据短缺问题仍需解决。

如何解决数据短缺问题?

虽然上述问题可能让一些AI爱好者感到担忧，但情况可能没有看上去那么糟糕。关于AI模型未来的发展，还有许多未知因素，但有一些方法可以解决数据短缺的风险。一种机会是让AI开发人员改进算法，使其更有效地利用已有数据。未来几年内，他们有望能够使用更少的数据和可能更少的计算能力来训练高性能AI系统，这也将有助于减少AI的碳足迹。

另一种选择是使用AI来生成合成数据以训练系统。换句话说，开发人员可以简单地生成他们需要的数据，以适应其特定的AI模型。已经有几个项目正在使用合成内容，通常是从数据生成服务中获取的，这将在未来变得更加普遍。

开发人员还在寻找在线空间以外的内容，如大型出版商和离线存储库中的内容。想象一下在互联网之前出版的数百万篇文本，如果以数字形式提供，它们可能为AI项目提供新的数据来源。例如，新闻集团（News Corp）是全球最大的新闻内容所有者之一，最近表示正在与AI开发人员洽谈内容交易。这些交易将迫使AI公司为训练数据付费，而他们迄今大多免费从互联网上获取数据。内容创作者已经抗议允许未经授权使用其内容来训练AI模型，一些公司如微软、OpenAI和Stability AI已被起诉。获得对其工作的报酬可能有助于恢复创意工作者和AI公司之间存在的一些权力失衡。

（举报）

相关推荐

关键词：

苹果AirPods全球热销！累计收入将在2026年突破1000亿美元

市调机构Counterpoint Research发布报告称，得益于产品组合多样化与持续改进，苹果AirPods累计收入预计2026年突破1000亿美元。报告指出，苹果不断扩展AirPods产品线，2024年推出无主动降噪的AirPods 4，以亲民价格触达新兴市场及学生等价格敏感群体。
2026慕尼黑上海电子生产设备展：早鸟即将截止，精彩亮点抢先看

2026慕尼黑上海电子生产设备展（Productronica China）将于3月25-27日在上海新国际博览中心举办。展会规模近10万平方米，汇聚1000家电子制造企业，重点展示SMT技术、线束加工、智能制造等前沿领域。亮点包括：先进封装集成方案、AI视觉检测生产线、800V高压线束加工技术等创新成果。同期将举办多场行业论坛，探讨Micro LED产业化、新能源汽车三电系统等热点话题。早鸟优惠预订将于2025年7月31日截止，为电子制造业提供技术交流与商贸合作的高端平台。
《彩虹六号》国服启宣发布会落地2025BW，2026春季开启首测

7月13日BW2025现场，《彩虹六号》"薪火杯"社区邀请赛落幕，AG战队夺冠。赛事为期两周，全球创意总监Alex与国服制作人梁嘉升宣布国服将于2026年春节前后开启测试。国服承诺保持原汁原味体验，重点升级网络优化、反作弊和基础服务：部署多区域服务器节点保证流畅度；引入ACE防护方案打击外挂；保留原生好友系统并支持跨平台组队。针对国际服回归玩家提供专属标识和福利，同时启动创作者扶持计划。7月11日已开启国服预约，参与可获定制卡背等奖励。
百度2026届校招正式启动！AI相关职位占比超90%：双批次双机会

今天，百度正式启动了2026届校园招聘，将发放4000offer，覆盖四大职位类别，共有256个细分职位，分布于北京、上海、深圳、广州、成都、大连、杭州七大城市。值得一提的是，此次2026届百度校园招聘中，AI相关职位占比超九成，共新增90个AI相关职位，覆盖多模态、跨模态、大模型架构等方向。
折叠iPhone已进入P1原型开发阶段：2026年见

苹果公司正在推进可折叠iPhone的研发进程，预计这款创新产品将在2026年下半年正式亮相。据海外媒体报道，苹果的折叠iPhone项目已于6月进入P1原型开发阶段，随后还将经历P2和P3阶段，预计2025年底完成整个原型开发流程。根据天风国际分析师郭明錤透露，鸿海精密将在2025年第三或第四季度开始生产这款折叠屏幕iPhone，尽管关键的转轴部分尚未最终确定，但屏幕规格已定，将

可折叠iPhone 苹果手机 2026年新品
解锁电子制造未来，抢占早鸟最后席位——2026慕尼黑上海电子生产设备展助您开拓电子智造新商机

2026慕尼黑上海电子生产设备展（Productronica China）将于3月25-27日在上海新国际博览中心举办。展会规模近10万平方米，汇聚约1000家电子制造企业，覆盖电子制造全产业链。重点展示线束技术升级、SMT技术创新、点胶技术突破等前沿解决方案，特别关注新能源汽车高压线束、车载以太网、AI服务器等新兴领域。展会还将呈现自动化与工控融合的智慧工厂方案，以及AI视觉检测等智�

电子制造慕尼黑展上海博览会
苍井寿司新店潮：6月新增25家新店，待开业门店20家！两广名额告急！

华南领先寿司品牌苍井寿司自2014年成立以来持续创新，6月新增25家门店覆盖青岛、北京等地，另有20家筹备中。为加速扩张，公司推出新合作政策：1）湖南、江西等地新店享受合作费减免1万元及保证金减免5000元；2）政策有效期至2025年9月30日，名额有限。同时调整两广地区策略，重点拓展中西部市场。凭借稳健增长和品牌影响力，苍井寿司为合作伙伴提供可靠发展平台，现正开放加盟机遇。
妈妈为走失孩子留26年门听障男子走失后用8年画出回家路

近日，一则感人至深的故事在贵州遵义传开:患有听障的王光才在19岁外出打工后不幸走失，从此与家人失去联系。其父亲在漫长的盼望中离世，而母亲则坚守家门，为他留了整整26年的门，期盼着儿子有朝一日能够归来。 8年前，流浪多年的王光才被上海市救助管理二站救济。尽管他不识字也

感人故事王光才思念与归乡
三年前的老游戏海外翻红，收入环比增长260%！

最近，又有新面孔闯入美国iOS游戏畅销榜前列。一款名为《Love Island: The Game》（以下简称《Love Island》）的互动叙事游戏自6月开始爬榜，目前已在畅销榜TOP50待了20多天。这实为2022年1月上线的产品，过去三年甚少进入畅销榜前100名，没想到会在这个节点突然翻红。
AI新闻聚合网站推荐:2025年最值得关注的AI资讯平台

本文介绍了AI新闻聚合网站的重要性及其核心价值，分析了当前市场上优质平台的分类与特点，并提供了选择建议。AI新闻聚合网站通过算法筛选和人工编辑，为用户提供高质量、时效性强的AI资讯内容。文章推荐了综合性平台(AIbase)、技术导向平台(AI Research Daily)和行业应用平台(AI in Business)三类代表性网站，建议用户根据需求选择。同时强调了构建多元化信息获取体系的重要性�

热文

3 天
7天

研究警告:到2026年，AI训练数据可能告急

苹果AirPods全球热销！累计收入将在2026年突破1000亿美元

2026慕尼黑上海电子生产设备展：早鸟即将截止，精彩亮点抢先看

《彩虹六号》国服启宣发布会落地2025BW，2026春季开启首测

百度2026届校招正式启动！AI相关职位占比超90%：双批次双机会

折叠iPhone已进入P1原型开发阶段：2026年见

解锁电子制造未来，抢占早鸟最后席位——2026慕尼黑上海电子生产设备展助您开拓电子智造新商机

苍井寿司新店潮：6月新增25家新店，待开业门店20家！两广名额告急！

妈妈为走失孩子留26年门听障男子走失后用8年画出回家路

三年前的老游戏海外翻红，收入环比增长260%！

AI新闻聚合网站推荐:2025年最值得关注的AI资讯平台

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为MatePad Pro 12.2开启预约预计7月24日正式发布

华为鸿蒙智行：尊界S800上市50天大定破8000台

理想i8开启预定：7月29日上市预售价35-40万元

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

站长商机