首页 > 业界 > 关键词  > AI训练数据最新资讯  > 正文

研究警告:到2026年,AI训练数据可能告急

2023-11-08 16:31 · 稿源:站长之家

划重点:

1. 高质量数据对AI至关重要:强大、准确和高质量的AI算法需要大量高质量的数据来进行训练。

2. AI数据可能告急:研究人员预测,如果当前的AI训练趋势继续下去,高质量文本数据可能在2026年之前告急,而低质量的语言数据和图像数据也将在未来告急。

3. 解决数据短缺问题的方法:为了解决数据短缺问题,AI开发人员可以改进算法,更有效地利用已有数据。此外,他们可以使用AI生成合成数据来训练系统,以适应特定的AI模型。

站长之家(ChinaZ.com)11月8日 消息:随着人工智能(AI)达到巅峰,研究人员警告称,AI行业可能会面临训练数据告急的问题,这是强大AI系统的燃料。这可能会减缓AI模型的增长,特别是大型语言模型,并可能改变AI革命的轨迹。

为了训练强大、准确和高质量的AI算法,我们需要大量数据。例如,ChatGPT是基于570千兆字节的文本数据(大约3000亿字)进行训练的。类似地,stable diffusion算法(驱动许多AI图像生成应用,如DALL-E、Lensa和Midjourney)是基于包含58亿图像-文本对的LIAON-5B数据集进行训练的。如果算法的训练数据不足,将会产生不准确或低质量的输出。因此,训练数据的质量同样重要。低质量数据,如社交媒体帖子或模糊照片,容易获取,但不足以训练高性能的AI模型。

数据中心 超级计算机 (1)

图源备注:图片由AI生成,图片授权服务商Midjourney

AI行业一直在不断扩大数据集的规模,这就是为什么我们现在拥有高性能模型,如ChatGPT或DALL-E3。与此同时,研究显示,用于训练AI的在线数据库增长速度远远慢于AI所需的数据集。在去年发表的一篇论文中,一组研究人员预测,如果当前的AI训练趋势继续下去,我们将在2026年之前用尽高质量文本数据,而低质量的语言数据将在2030年至2050年之间耗尽,低质量的图像数据将在2030年至2060年之间告急。尽管AI有望在未来几年内更有效地利用已有数据来训练高性能AI系统,从而降低数据需求,但数据短缺问题仍需解决。

如何解决数据短缺问题?

虽然上述问题可能让一些AI爱好者感到担忧,但情况可能没有看上去那么糟糕。关于AI模型未来的发展,还有许多未知因素,但有一些方法可以解决数据短缺的风险。一种机会是让AI开发人员改进算法,使其更有效地利用已有数据。未来几年内,他们有望能够使用更少的数据和可能更少的计算能力来训练高性能AI系统,这也将有助于减少AI的碳足迹。

另一种选择是使用AI来生成合成数据以训练系统。换句话说,开发人员可以简单地生成他们需要的数据,以适应其特定的AI模型。已经有几个项目正在使用合成内容,通常是从数据生成服务中获取的,这将在未来变得更加普遍。

开发人员还在寻找在线空间以外的内容,如大型出版商和离线存储库中的内容。想象一下在互联网之前出版的数百万篇文本,如果以数字形式提供,它们可能为AI项目提供新的数据来源。例如,新闻集团(News Corp)是全球最大的新闻内容所有者之一,最近表示正在与AI开发人员洽谈内容交易。这些交易将迫使AI公司为训练数据付费,而他们迄今大多免费从互联网上获取数据。内容创作者已经抗议允许未经授权使用其内容来训练AI模型,一些公司如微软、OpenAI和Stability AI已被起诉。获得对其工作的报酬可能有助于恢复创意工作者和AI公司之间存在的一些权力失衡。

举报

  • 相关推荐
  • 苹果AirPods全球热销!累计收入将在2026年突破1000亿美元

    市调机构Counterpoint Research发布报告称,得益于产品组合多样化与持续改进,苹果AirPods累计收入预计2026年突破1000亿美元。 报告指出,苹果不断扩展AirPods产品线,2024年推出无主动降噪的AirPods 4,以亲民价格触达新兴市场及学生等价格敏感群体。

  • 2026慕尼黑上海电子生产设备展:早鸟即将截止,精彩亮点抢先看

    2026慕尼黑上海电子生产设备展(Productronica China)将于3月25-27日在上海新国际博览中心举办。展会规模近10万平方米,汇聚1000家电子制造企业,重点展示SMT技术、线束加工、智能制造等前沿领域。亮点包括:先进封装集成方案、AI视觉检测生产线、800V高压线束加工技术等创新成果。同期将举办多场行业论坛,探讨Micro LED产业化、新能源汽车三电系统等热点话题。早鸟优惠预订将于2025年7月31日截止,为电子制造业提供技术交流与商贸合作的高端平台。

  • 《彩虹六号》国服启宣发布会落地2025BW,2026春季开启首测

    7月13日BW2025现场,《彩虹六号》"薪火杯"社区邀请赛落幕,AG战队夺冠。赛事为期两周,全球创意总监Alex与国服制作人梁嘉升宣布国服将于2026年春节前后开启测试。国服承诺保持原汁原味体验,重点升级网络优化、反作弊和基础服务:部署多区域服务器节点保证流畅度;引入ACE防护方案打击外挂;保留原生好友系统并支持跨平台组队。针对国际服回归玩家提供专属标识和福利,同时启动创作者扶持计划。7月11日已开启国服预约,参与可获定制卡背等奖励。

  • 百度2026届校招正式启动!AI相关职位占比超90%:双批次双机会

    今天,百度正式启动了2026届校园招聘,将发放4000offer,覆盖四大职位类别,共有256个细分职位,分布于北京、上海、深圳、广州、成都、大连、杭州七大城市。 值得一提的是,此次2026届百度校园招聘中,AI相关职位占比超九成,共新增90个AI相关职位,覆盖多模态、跨模态、大模型架构等方向。

  • 折叠iPhone已进入P1原型开发阶段:2026年见

    苹果公司正在推进可折叠iPhone的研发进程,预计这款创新产品将在2026年下半年正式亮相。 据海外媒体报道,苹果的折叠iPhone项目已于6月进入P1原型开发阶段,随后还将经历P2和P3阶段,预计2025年底完成整个原型开发流程。 根据天风国际分析师郭明錤透露,鸿海精密将在2025年第三或第四季度开始生产这款折叠屏幕iPhone,尽管关键的转轴部分尚未最终确定,但屏幕规格已定,将

  • 解锁电子制造未来,抢占早鸟最后席位——2026慕尼黑上海电子生产设备展助您开拓电子智造新商机

    2026慕尼黑上海电子生产设备展(Productronica China)将于3月25-27日在上海新国际博览中心举办。展会规模近10万平方米,汇聚约1000家电子制造企业,覆盖电子制造全产业链。重点展示线束技术升级、SMT技术创新、点胶技术突破等前沿解决方案,特别关注新能源汽车高压线束、车载以太网、AI服务器等新兴领域。展会还将呈现自动化与工控融合的智慧工厂方案,以及AI视觉检测等智�

  • 苍井寿司新店潮:6月新增25家新店,待开业门店20家!两广名额告急!

    华南领先寿司品牌苍井寿司自2014年成立以来持续创新,6月新增25家门店覆盖青岛、北京等地,另有20家筹备中。为加速扩张,公司推出新合作政策:1)湖南、江西等地新店享受合作费减免1万元及保证金减免5000元;2)政策有效期至2025年9月30日,名额有限。同时调整两广地区策略,重点拓展中西部市场。凭借稳健增长和品牌影响力,苍井寿司为合作伙伴提供可靠发展平台,现正开放加盟机遇。

  • 妈妈为走失孩子留26年门 听障男子走失后用8年画出回家路

    近日,一则感人至深的故事在贵州遵义传开:患有听障的王光才在19岁外出打工后不幸走失,从此与家人失去联系。其父亲在漫长的盼望中离世,而母亲则坚守家门,为他留了整整26年的门,期盼着儿子有朝一日能够归来。 8年前,流浪多年的王光才被上海市救助管理二站救济。尽管他不识字也

  • 三年前的老游戏海外翻红,收入环比增长260%!

    最近,又有新面孔闯入美国iOS游戏畅销榜前列。 一款名为《Love Island: The Game》(以下简称《Love Island》)的互动叙事游戏自6月开始爬榜,目前已在畅销榜TOP50待了20多天。这实为2022年1月上线的产品,过去三年甚少进入畅销榜前100名,没想到会在这个节点突然翻红。

  • AI新闻聚合网站推荐:2025年最值得关注的AI资讯平台

    本文介绍了AI新闻聚合网站的重要性及其核心价值,分析了当前市场上优质平台的分类与特点,并提供了选择建议。AI新闻聚合网站通过算法筛选和人工编辑,为用户提供高质量、时效性强的AI资讯内容。文章推荐了综合性平台(AIbase)、技术导向平台(AI Research Daily)和行业应用平台(AI in Business)三类代表性网站,建议用户根据需求选择。同时强调了构建多元化信息获取体系的重要性�