首页 > 业界 > 关键词  > 训练数据最新资讯  > 正文

AI公司面临训练数据枯竭危机 高质量数据将在2026年前耗尽

2023-11-14 09:24 · 稿源:站长之家

**划重点:**

1. 🚱 **数据枯竭危机:** AI公司可能在不久的将来面临培训数据枯竭的风险,根据研究,高质量文本培训数据可能在2026年耗尽,而低质量文本和图像数据则可能在2030年至2060年之间枯竭。

2. 🔄 **合成数据风险:** 对于数据饥渴的AI公司来说,使用由AI模型生成的合成数据进行训练可能并非可行的解决方案。研究表明,训练AI模型使用AI生成的内容可能导致模型内在的畸形效应,使输出变得混乱和怪异。

3. 💼 **数据合作伙伴关系:** 面对这一潜在问题,除非出现大规模人类内容农场,否则解决方法可能在于建立数据合作伙伴关系。这意味着拥有丰富高质量数据的公司或机构与AI公司达成协议,交换数据以换取资金。

站长之家(ChinaZ.com) 11月14日 消息:近期,人工智能(AI)公司正面临一个严峻的挑战:训练数据的枯竭。数据在AI经济中发挥着中心作用,是模型基本功能和质量的关键推动力。然而,令AI公司感到担忧的是,自然数据是一种有限资源,如果这一资源枯竭,研究人员认为公司可能面临严重考验。

AI机器人打游戏

图源备注:图片由AI生成,图片授权服务商Midjourney

澳大利亚麦考瑞大学的信息技术法学教授Rita Matulionyte在《对话》杂志的一篇文章中指出,AI研究人员近一年来一直在敲响数据供应告急的警钟。根据去年Epoch AI人工智能预测组织的一项研究,AI公司可能在2026年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于2030年至2060年之间。

这对AI公司而言是一个岌岌可危的局面,因为AI系统需要大量数据来运行和改进。随着开发人员不断注入更多数据,AI模型已经取得了巨大的进步。如果数据供应停滞不前,模型和整个行业可能会受到影响。

Matulionyte提出了使用合成数据的可能解决方案,即由AI模型生成的数据用于培训新模型,以缓解对数据的渴望。然而,这可能并非一个可行的解决方案。实际上,使用合成内容可能会完全破坏给定的模型;一些研究表明,将AI模型训练用于AI生成的内容会导致明显的近亲繁殖效应,数据集中缺乏差异性,导致输出混乱而怪异。尽管一些公司已经在尝试使用合成培训集,但这并非保证解决问题的方法。

目前,对于这一潜在问题而言,最实际的解决方案可能是建立数据合作伙伴关系,除非出现大规模的人类内容农场。基本上,拥有丰富且备受追捧的高质量数据的公司或机构与AI公司达成协议,提供数据,很可能是以现金交换的方式。

值得注意的是,大多数用于培训AI系统的数据集实际上是由我们在线创建的互联网抓取数据制成的。因此,数据合作伙伴关系可能是一种不错的选择。然而,随着数据的价值不断提高,有趣的是看看有多少AI公司实际上能够竞争获取数据集,更不用说有多少机构或个人愿意向AI公司提供他们的数据了。

即便如此,也不能保证数据井永远不会枯竭。尽管互联网看似无限,但实际上很少有什么是永无止境的。

举报

  • 相关推荐
  • 5个月狂揽超800万粉丝,这家AI公司想打造“AI账号工厂”?

    ​AI距离替代真人又近了一步? 最近,“科技大司马”连续多次登上新榜视频号科技互联网月榜TOP5,成为今年上半年涨势最猛的科技类账号之一,仅在视频号就2个月涨粉超166万,数据最好的一条视频全网播放量超5000万。

  • AI与数据库双向赋能,达梦靠自主创新把握弯道超车机遇

    AI时代下,数据库行业正经历深刻变革。达梦数据副总经理李庄庄指出,AI与数据库双向赋能、深度融合,带来多模态数据处理、高并发低延迟等新需求。数据库需提升智能化自治能力,通过架构升级、AI技术集成及生态开放应对挑战。达梦通过AI4DB和DB4DB双路径布局,已在智能参数调优、多引擎数据库等领域取得进展。未来,数据库将更智能、普惠,技术硬实力与落地价值是关键竞争力。

  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • 卖家精灵将亮相9月深圳CCBEC&武汉电博会,以AI+大数据赋能跨境卖家高效突围!

    9月跨境卖家盛会双城联动:17-19日深圳CCBEC展会聚焦全产业链生态,汇聚1500+供应商;19-21日武汉电博会以“链接全球·数创未来”为主题,探讨数字贸易创新。两大展会呈现最新行业成果,举办20+高端论坛,提供选品策略、流量运营等一站式出海解决方案。卖家精灵作为官方合作伙伴,将展示AI选品工具与运营指南,助力卖家赢得全球市场竞争优势。

  • 金仓数据库亮相2025数博会,以AI融合创新赋能产业升级

    2025中国国际大数据产业博览会8月28日在贵阳开幕,聚焦"数聚产业动能+智启发展新篇"主题,展示数据要素与人工智能融合创新成果。重点呈现金仓数据库系列产品,包括KXData一体机,通过软硬一体设计实现成本降低40%以上,并搭载智能运维系统。产品覆盖政务、医疗、金融等多个领域,助力产业升级与高质量发展,推动数字经济新篇章。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 卖家精灵火热亮相亚马逊华中卖家大会,以AI+大数据驱动华中卖家出海增效

    8月21日,2025亚马逊全球开店华中区域卖家大会在武汉成功举办,主题为“聚华中+通全球”。大会吸引了千余名企业代表参会,现场展示了多款基于生成式AI的跨境电商运营解决方案。亚马逊高管表示,AI正从根本上改变运营方式,助力卖家高效选品、创新产品和制定营销策略。卖家精灵作为服务商,携AI创新成果亮相,吸引超200位用户咨询,部分卖家当场下单。大会现场咨询火爆,展示了AI市场洞察、评论分析、竞品分析及Listing撰写等四大实用功能,帮助卖家实现精准选品和高效运营。未来,卖家精灵将继续以技术创新驱动,助力中国卖家在全球市场赢得竞争优势。

  • B站要变成AI站

    互联网平台都在跟AI结合,B站没有成为例外。从新一季度财报来看,B站的AI味儿也越来越浓了。 8月21日,B站公布第二季度业绩,总营收达73.4亿元人民币,同比增长20%。其中,游戏业务收入为16.1亿元,同比增长60%,广告业务收入为24.5亿元,同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%,调整后净利润达到5.6亿元,创下历史最好成绩。 从整体来看,B站生态集聚

  • 289个项目角逐2025元宇宙AI数据要素“金杏奖” 复赛30日深圳启幕

    2025元宇宙AI数据要素“金杏奖”全国大赛进入复赛阶段,8月30日将在深圳举行。本届大赛聚焦元宇宙、人工智能与数据要素融合创新,覆盖工业制造、现代农业、商贸流通等关键领域。289个申报项目中138个晋级复赛,展现技术创新与应用潜力。赛事由中国移动通信联合会牵头,推动数字经济发展,发掘优秀技术方案,促进数据要素流通与价值释放。

  • 央视网首场AI晚会七夕“AI心动夜”即将开启 联合可灵AI打造视听盛宴

    8月28日晚8点,央视频与快手可灵AI联合打造的七夕晚会“AI心动夜”正式开启。晚会以“AI视频叙事+传统文化”为核心,通过AI技术融合文化传承、艺术创作与情感表达,呈现跨越虚拟与现实、科技与文化交融的七夕盛典。节目包括《星河告白》《千年婚服秀》等,展现不同时代的爱情故事与中华婚服之美,同时通过《与妻书》《许愿吧》等作品探讨革命年代的深情与当代浪漫。晚会将在央视频、快手等平台同步直播,带领观众体验科技与文化的精彩碰撞。

今日大家都在搜的词: