首页 > 业界 > 关键词  > AI训练数据最新资讯  > 正文

研究警告:到2026年,AI训练数据可能告急

2023-11-08 16:31 · 稿源:站长之家

划重点:

1. 高质量数据对AI至关重要:强大、准确和高质量的AI算法需要大量高质量的数据来进行训练。

2. AI数据可能告急:研究人员预测,如果当前的AI训练趋势继续下去,高质量文本数据可能在2026年之前告急,而低质量的语言数据和图像数据也将在未来告急。

3. 解决数据短缺问题的方法:为了解决数据短缺问题,AI开发人员可以改进算法,更有效地利用已有数据。此外,他们可以使用AI生成合成数据来训练系统,以适应特定的AI模型。

站长之家(ChinaZ.com)11月8日 消息:随着人工智能(AI)达到巅峰,研究人员警告称,AI行业可能会面临训练数据告急的问题,这是强大AI系统的燃料。这可能会减缓AI模型的增长,特别是大型语言模型,并可能改变AI革命的轨迹。

为了训练强大、准确和高质量的AI算法,我们需要大量数据。例如,ChatGPT是基于570千兆字节的文本数据(大约3000亿字)进行训练的。类似地,stable diffusion算法(驱动许多AI图像生成应用,如DALL-E、Lensa和Midjourney)是基于包含58亿图像-文本对的LIAON-5B数据集进行训练的。如果算法的训练数据不足,将会产生不准确或低质量的输出。因此,训练数据的质量同样重要。低质量数据,如社交媒体帖子或模糊照片,容易获取,但不足以训练高性能的AI模型。

数据中心 超级计算机 (1)

图源备注:图片由AI生成,图片授权服务商Midjourney

AI行业一直在不断扩大数据集的规模,这就是为什么我们现在拥有高性能模型,如ChatGPT或DALL-E3。与此同时,研究显示,用于训练AI的在线数据库增长速度远远慢于AI所需的数据集。在去年发表的一篇论文中,一组研究人员预测,如果当前的AI训练趋势继续下去,我们将在2026年之前用尽高质量文本数据,而低质量的语言数据将在2030年至2050年之间耗尽,低质量的图像数据将在2030年至2060年之间告急。尽管AI有望在未来几年内更有效地利用已有数据来训练高性能AI系统,从而降低数据需求,但数据短缺问题仍需解决。

如何解决数据短缺问题?

虽然上述问题可能让一些AI爱好者感到担忧,但情况可能没有看上去那么糟糕。关于AI模型未来的发展,还有许多未知因素,但有一些方法可以解决数据短缺的风险。一种机会是让AI开发人员改进算法,使其更有效地利用已有数据。未来几年内,他们有望能够使用更少的数据和可能更少的计算能力来训练高性能AI系统,这也将有助于减少AI的碳足迹。

另一种选择是使用AI来生成合成数据以训练系统。换句话说,开发人员可以简单地生成他们需要的数据,以适应其特定的AI模型。已经有几个项目正在使用合成内容,通常是从数据生成服务中获取的,这将在未来变得更加普遍。

开发人员还在寻找在线空间以外的内容,如大型出版商和离线存储库中的内容。想象一下在互联网之前出版的数百万篇文本,如果以数字形式提供,它们可能为AI项目提供新的数据来源。例如,新闻集团(News Corp)是全球最大的新闻内容所有者之一,最近表示正在与AI开发人员洽谈内容交易。这些交易将迫使AI公司为训练数据付费,而他们迄今大多免费从互联网上获取数据。内容创作者已经抗议允许未经授权使用其内容来训练AI模型,一些公司如微软、OpenAI和Stability AI已被起诉。获得对其工作的报酬可能有助于恢复创意工作者和AI公司之间存在的一些权力失衡。

举报

  • 相关推荐
  • 老玩家跳脚!《GTA6》官宣跳票!延期至2026年5月26日发售

    快科技5月2日消息,《GTA》玩家恐怕又要跳脚了,原本以为《GTA6》今年肯定会发售,但R星官方则直接泼了一瓢冷水。R星官方今日发文称,《GTA6》现定于2026年5月26日发售。很抱歉这次发售时间比各位预期的要晚,玩家们对新一代《GTA》展现出的热情与期待,让我们整个团队都深感荣幸。感谢大家一直以来的支持与耐心等待,我们将竭尽全力完成这部作品。”据了解,R星最早在2023年发布了《GTA6》的首支预告片,距今已过去一年多时间,游戏仍未发售。而在前段时间,R星官方曾给出过今年年内”发布的模糊说法,这也让不少玩家燃起希望。不过此次?

  • 与Momenta达成战略协议 自动驾驶车辆2026年将引入优步平台

    快科技5月3日消息,Momenta与Uber(优步)联合宣布,双方正式达成战略合作协议,将自动驾驶车辆引入Uber平台,覆盖美国和中国以外的国际市场。据悉,首批合作商业化落地将于2026年初在欧洲启动,部署机器人出租车(Robotaxi),并配备车载安全员。双方表示,通过将优步的打车网络与Momenta的自动驾驶技术相结合,两家公司旨在加速和提供安全、可扩展和高效的Robotaxi服务。近年来,优步高层多次在财报电话会议及其他公开场合上加大了对公司自动驾驶战略的阐述力度。自2023年起,优步已与十多家汽车制造商达成合作,并投资了多家自动驾驶技

  • Meta压力山大!苹果智能眼镜预计将于2026年圣诞节上市

    苹果智能眼镜预计将在2026年末或2027年初与消费者见面,这一时间点比此前多数预测的2030年左右大幅提前。

  • 华为智能驾驶产品线总裁李文广:预计2026年高速L3规模化商用 27年城区L4规模商用

    华为智能驾驶产品线总裁李文广预测中国自动驾驶落地时间表:2025年L3高速试点商用,2026年高速L3规模商用;城区L4计划2027年商用;无人干线物流预计2028年规模商用。4月22日华为发布新一代ADS 4.0智驾系统,推出四款配置,旗舰版ADS Ultra支持高速L3功能,包含代客泊车、全场景泊车等六大核心能力,代表当前国内智能驾驶最高水平。李文广强调,当前L2监管趋严不会影响自动驾�

  • 法拉利首款电动汽车即将问世:预计 2026 全面亮相

    法拉利已提出可能对某些车型提价 10%,以抵消关税的影响 —— 这对于其超级富裕的客户群体来说,只是一个小小的影响……

  • 三星宣布成为2026上海世界技能大赛总享合作伙伴

    2025 年 4 月 11 日,世界技能组织宣布,三星正式成为 2026 年上海世界技能大赛的总享合作伙伴。这是自 2007 年以来世界高科技企业巨头三星连续第七次成为世界技能大赛的总享合作伙伴。签约仪式在上海举行,三星与中国技能组织、人力资源和社会保障部、 2026 上海世界技能大赛执行局及世界技能组织的主要领导出席签约仪式,本届大赛的技能竞赛经理和场地经理也共同见证�

  • 耳机迈进AI时代!2025年Q1中国AI耳机销量暴增960.4%:远超2024年整年销量

    快科技5月1日消息,2025年第一季度,中国AI耳机市场迎来爆发式增长。据洛图科技线上监测数据显示,该季度AI耳机在传统主流电商的销量达38.2万副,同比增长960.4%,远超2024年整年销量。这一增长得益于生成式AI技术的火热,推动智慧硬件产品不断涌现。AI耳机不仅具备实时翻译、会议记录等智能功能,还能通过语音交互实现情感陪伴,显著提升了用户粘性。从市场现状来看,AI耳机产品越发丰富,价格出现分层。0-1000元价格段的AI耳机销量占比达52.1%,同比增长近16倍,塞那、小度与声智科技三家占据该价格段80.5%的销量。1000-1500元价格段,?

  • Epic爆料虚幻6已在准备中!可能2027/2028年放出测试版

    快科技5月2日消息,近日Epic Games的CEO蒂姆斯威尼在播客节目中透露,虚幻引擎6已经在筹备中,并且有望在未来两三年内推出测试版。虚幻引擎5自推出以来,凭借其强大的功能和技术,已经成为了游戏开发领域的标杆,众多知名游戏如《光与影:33号远征队》《上古卷轴4RE》以及《巫师4》都采用了虚幻5引擎。斯威尼明表示,虚幻6还没确定具体的发布时间,但未来两三年内应该能放出测试版。虚幻6的核心目标是将目前分开的两套系统进行整合,一套是为第三方开发商提供的标准工具链,另一套是《堡垒之夜》专用的Verse脚本语言和特殊功能。整合之后?

  • 视觉中国发布2024年报及2025年一季报:AI赋能推动业务增长

    视觉中国(000681)发布2024年报及2025年一季报。公司深化"AI智能+内容数据+应用场景"战略,2024年营收8.11亿元(同比+3.89%),净利润1.19亿元(同比-18.17%);2025年Q1营收1.89亿元(同比+8.43%),净利润0.18亿元(同比+12.26%)。AI业务取得突破:自研视觉理解大模型与Deepseek等合作,推出智能搜索、智能审核等功能;AI创作生态签约超4900名创作者,销售超1800万元;战略投资企业AiPPT月访问量�

  • 借助AI,谷歌在2024年,封禁了3920万恶意广告账户

    谷歌终于找到了一个连“AI质疑者”都能无法反对的大语言模型(LLMs)应用场景……