首页 > 业界 > 关键词  > AI训练数据最新资讯  > 正文

研究警告:到2026年,AI训练数据可能告急

2023-11-08 16:31 · 稿源:站长之家

划重点:

1. 高质量数据对AI至关重要:强大、准确和高质量的AI算法需要大量高质量的数据来进行训练。

2. AI数据可能告急:研究人员预测,如果当前的AI训练趋势继续下去,高质量文本数据可能在2026年之前告急,而低质量的语言数据和图像数据也将在未来告急。

3. 解决数据短缺问题的方法:为了解决数据短缺问题,AI开发人员可以改进算法,更有效地利用已有数据。此外,他们可以使用AI生成合成数据来训练系统,以适应特定的AI模型。

站长之家(ChinaZ.com)11月8日 消息:随着人工智能(AI)达到巅峰,研究人员警告称,AI行业可能会面临训练数据告急的问题,这是强大AI系统的燃料。这可能会减缓AI模型的增长,特别是大型语言模型,并可能改变AI革命的轨迹。

为了训练强大、准确和高质量的AI算法,我们需要大量数据。例如,ChatGPT是基于570千兆字节的文本数据(大约3000亿字)进行训练的。类似地,stable diffusion算法(驱动许多AI图像生成应用,如DALL-E、Lensa和Midjourney)是基于包含58亿图像-文本对的LIAON-5B数据集进行训练的。如果算法的训练数据不足,将会产生不准确或低质量的输出。因此,训练数据的质量同样重要。低质量数据,如社交媒体帖子或模糊照片,容易获取,但不足以训练高性能的AI模型。

数据中心 超级计算机 (1)

图源备注:图片由AI生成,图片授权服务商Midjourney

AI行业一直在不断扩大数据集的规模,这就是为什么我们现在拥有高性能模型,如ChatGPT或DALL-E3。与此同时,研究显示,用于训练AI的在线数据库增长速度远远慢于AI所需的数据集。在去年发表的一篇论文中,一组研究人员预测,如果当前的AI训练趋势继续下去,我们将在2026年之前用尽高质量文本数据,而低质量的语言数据将在2030年至2050年之间耗尽,低质量的图像数据将在2030年至2060年之间告急。尽管AI有望在未来几年内更有效地利用已有数据来训练高性能AI系统,从而降低数据需求,但数据短缺问题仍需解决。

如何解决数据短缺问题?

虽然上述问题可能让一些AI爱好者感到担忧,但情况可能没有看上去那么糟糕。关于AI模型未来的发展,还有许多未知因素,但有一些方法可以解决数据短缺的风险。一种机会是让AI开发人员改进算法,使其更有效地利用已有数据。未来几年内,他们有望能够使用更少的数据和可能更少的计算能力来训练高性能AI系统,这也将有助于减少AI的碳足迹。

另一种选择是使用AI来生成合成数据以训练系统。换句话说,开发人员可以简单地生成他们需要的数据,以适应其特定的AI模型。已经有几个项目正在使用合成内容,通常是从数据生成服务中获取的,这将在未来变得更加普遍。

开发人员还在寻找在线空间以外的内容,如大型出版商和离线存储库中的内容。想象一下在互联网之前出版的数百万篇文本,如果以数字形式提供,它们可能为AI项目提供新的数据来源。例如,新闻集团(News Corp)是全球最大的新闻内容所有者之一,最近表示正在与AI开发人员洽谈内容交易。这些交易将迫使AI公司为训练数据付费,而他们迄今大多免费从互联网上获取数据。内容创作者已经抗议允许未经授权使用其内容来训练AI模型,一些公司如微软、OpenAI和Stability AI已被起诉。获得对其工作的报酬可能有助于恢复创意工作者和AI公司之间存在的一些权力失衡。

举报

  • 相关推荐
  • 新一代AI存储大幅提升训练效率,断点恢复速度提升

    AI训练频繁中断是行业难题。华为OceanStor A系列存储通过TB级集群带宽和高速读写能力,显著优化断点续训性能。AI大模型集群部署该方案后,恢复时间从15分钟缩短至1分钟,保障GPU/NPU算力资源充分利用。华为强调,高性能存储正成为以“存”强“算”的关键基础架构。

  • 续科天下发布全新XUKE TECH产品体系,为AI时代构建可靠数据基石

    续科天下发布XUKE TECH完整AI数据处理系统,推出Base、Embed、Vault三款核心产品,解决企业AI化过程中的非结构化数据处理难题。该系统能统一处理多模态数据,通过向量化转换和安全存储管理,形成端到端解决方案,帮助企业将70%的数据预处理精力转向模型开发,显著缩短AI项目上线周期,已在金融、互联网等领域验证实效。

  • 卖家精灵火热亮相杭州跨博会,以AI+大数据赋能跨境卖家高效出海!​

    2025杭州跨博会于9月25-27日成功举办,聚焦家电、宠物等六大产业带,吸引超2.6万人次到场。卖家精灵作为亚马逊服务商参展,通过万瓶定制水传递品牌温度,展示AI选品与运营工具,助力卖家数据化决策。展会整合跨境资源,推动企业转型与增长,未来将持续深化AI应用,促进行业从粗放经营向精细化运营升级。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 卖家精灵火热亮相武汉电博会,以大数据+AI驱动跨境电商新增长!

    2025年第十届武汉国际电子商务暨数字贸易博览会于9月19-21日成功举办,主题为“链接全球·数创未来”,展览面积达2万平方米。展会汇聚亚马逊、Wildberries等国际电商平台,通过展览、论坛等形式展示电子商务与数字贸易领域的前沿技术与创新应用。卖家精灵作为亚马逊官方服务商亮相,其“AI市场洞察”功能成为焦点,可基于大数据与人工智能快速生成市场分析报告,帮助卖

  • 宜享花依托AI与大数据技术,推动消费金融合规创新与服务提质

    宜人智科旗下品牌宜享花以人工智能与大数据技术为核心驱动力,构建覆盖全链路的一体化智能服务体系。平台在严格合规框架下,深度融合金融机构与多元场景资源,为消费者提供精准、安全的金融支持,并通过科技创新持续优化风控能力与服务体验。宜享花高度重视合规经营,建立覆盖业务全流程的个人信息保护机制,自主研发“Hawkeye反欺诈管理系统”有效识别并拦截欺诈行为。同时,平台发布《消费者权益保护2024年度报告》,建立六大消保评审维度,强化事前审查与专项检查机制。通过AI技术打造高效、智能的客户服务体系,累计提供智能客服超490万次,智能客服分流率达52%。未来,宜享花将持续深化科技应用,筑牢智能风控防线,完善消费者权益保护,为经济高质量发展注入科技金融新动能。

  • 腾讯云大数据TBDS重磅升级,助力金融行业构建Data+AI一体化数智新范式

    腾讯云在腾讯全球数字生态大会上宣布,其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”,旨在为金融机构提供兼具数据工程与数据科学能力的综合平台,打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构,实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度,并显著提升数据开发到模型上线的全链路效率。在金融场景中,新TBDS已应用于信贷自动审批等业务,帮助机构提质增效。未来,腾讯云TBDS将持续发挥专业化与智能化优势,助力金融行业加速数字化转型。

  • AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

    随着ChatGPT等AI搜索引擎普及,传统SEO正经历深刻变革。文章指出,超60%用户开始使用AI搜索,而AI直接给出答案而非展示链接,导致品牌面临可见度危机。为此提出GEO(生成引擎优化)概念,强调需通过专业工具监测AI排名,并推荐AIBase平台的多平台覆盖、真实场景模拟和竞品分析功能。最后给出四步优化流程:建立监测基准、分析排名差异、针对性内容优化、持续迭代,帮助品牌在AI时代建立竞争优势。

  • AI重塑经营体验:淘天为商家按下“减负键”

    10月15日,2025天猫双11将正式开启,电商人即将面临一场运营大考。 今年年初,淘天做了一次商家运营状况的深度调研。数据显示:淘天商家平均每天需要耗费近5小时在客服上、2小时在素材制作上,报名一场营销活动平均要耗费1小时以上。如果是双11大促这样的节点,商家的运营压力更大。 “不用说,这组数据对商家来说有些过于沉重。我觉得我们确实应该要敲敲板子了。”

  • 腾讯云大数据升级Data+AI能力体系,构建AI-Ready的数据智能平台

    9月17日,腾讯云在数字生态大会上宣布升级大数据产品矩阵Data+AI能力体系,覆盖底层架构、数据平台、数据应用全流程,助力企业应对数据治理、多模态融合与智能化应用等挑战。通过云原生架构、Data+AI一体化和Agent增强,推出TCLake智能数据湖、流湖引擎和企业级搜索ES,提升数据处理效率与智能化水平。WeData平台升级为端到端一体化Data+AI平台,打通数据接入、治理、建模、训练到推理全链路。引入AI+Agent能力,通过Data Agent和ChatBI等创新实践,将智能能力融入数据使用各环节,助力企业释放数据价值,形成差异化AI竞争力。

今日大家都在搜的词: