首页 > 业界 > 关键词  > 训练数据最新资讯  > 正文

AI公司面临训练数据枯竭危机 高质量数据将在2026年前耗尽

2023-11-14 09:24 · 稿源:站长之家

**划重点:**

1. 🚱 **数据枯竭危机:** AI公司可能在不久的将来面临培训数据枯竭的风险,根据研究,高质量文本培训数据可能在2026年耗尽,而低质量文本和图像数据则可能在2030年至2060年之间枯竭。

2. 🔄 **合成数据风险:** 对于数据饥渴的AI公司来说,使用由AI模型生成的合成数据进行训练可能并非可行的解决方案。研究表明,训练AI模型使用AI生成的内容可能导致模型内在的畸形效应,使输出变得混乱和怪异。

3. 💼 **数据合作伙伴关系:** 面对这一潜在问题,除非出现大规模人类内容农场,否则解决方法可能在于建立数据合作伙伴关系。这意味着拥有丰富高质量数据的公司或机构与AI公司达成协议,交换数据以换取资金。

站长之家(ChinaZ.com) 11月14日 消息:近期,人工智能(AI)公司正面临一个严峻的挑战:训练数据的枯竭。数据在AI经济中发挥着中心作用,是模型基本功能和质量的关键推动力。然而,令AI公司感到担忧的是,自然数据是一种有限资源,如果这一资源枯竭,研究人员认为公司可能面临严重考验。

AI机器人打游戏

图源备注:图片由AI生成,图片授权服务商Midjourney

澳大利亚麦考瑞大学的信息技术法学教授Rita Matulionyte在《对话》杂志的一篇文章中指出,AI研究人员近一年来一直在敲响数据供应告急的警钟。根据去年Epoch AI人工智能预测组织的一项研究,AI公司可能在2026年前耗尽高质量文本训练数据,而低质量文本和图像数据的枯竭时间可能介于2030年至2060年之间。

这对AI公司而言是一个岌岌可危的局面,因为AI系统需要大量数据来运行和改进。随着开发人员不断注入更多数据,AI模型已经取得了巨大的进步。如果数据供应停滞不前,模型和整个行业可能会受到影响。

Matulionyte提出了使用合成数据的可能解决方案,即由AI模型生成的数据用于培训新模型,以缓解对数据的渴望。然而,这可能并非一个可行的解决方案。实际上,使用合成内容可能会完全破坏给定的模型;一些研究表明,将AI模型训练用于AI生成的内容会导致明显的近亲繁殖效应,数据集中缺乏差异性,导致输出混乱而怪异。尽管一些公司已经在尝试使用合成培训集,但这并非保证解决问题的方法。

目前,对于这一潜在问题而言,最实际的解决方案可能是建立数据合作伙伴关系,除非出现大规模的人类内容农场。基本上,拥有丰富且备受追捧的高质量数据的公司或机构与AI公司达成协议,提供数据,很可能是以现金交换的方式。

值得注意的是,大多数用于培训AI系统的数据集实际上是由我们在线创建的互联网抓取数据制成的。因此,数据合作伙伴关系可能是一种不错的选择。然而,随着数据的价值不断提高,有趣的是看看有多少AI公司实际上能够竞争获取数据集,更不用说有多少机构或个人愿意向AI公司提供他们的数据了。

即便如此,也不能保证数据井永远不会枯竭。尽管互联网看似无限,但实际上很少有什么是永无止境的。

举报

  • 相关推荐
  • 大家在看
  • 时速320公里!印度预计首条铁最快2026年前后开通

    近日印度方面表示,采用日本新干线模式的印度首条高铁预计最快2026年前后开通。印度高铁项目计划联结艾哈迈达巴德和孟买,连通孟买、塔那、苏拉特、艾哈迈达巴德等大型经济中心。该项目将沿高铁走廊建设24座河桥、28座钢桥和7条山地隧道,以及建设一条7公里长的海底隧道,这也是印度首条海底隧道。

  • 长安汽车朱华荣:自研半固态电池2026年年底上市!

    在今天的长安汽车2023年业绩说明会上,长安汽车董事长朱华荣表示,集团研发的半固体电池将于2026年年底上市。在2023年12月,长安汽车声称正在深耕半固态、固态电池的全新电解质材料开发、关键工艺开发,基于整车需求,正向开发领先的固态电池,从2025年开始逐步量产应用。长安汽车目前已组建先进电池研究院,拥有电池研发人员1200余人,其中包括高级专家、顶尖学术人才125人,未来将投入100亿元资金,到2024年电池团队达到3000人。

  • 105kWh!宝马新世代车型电池曝光:2026年开启国产

    宝马新世代X概念车在全球首秀发布会上,官方宣布了一系列令人期待的技术创新。新车型将采用800伏高压平台以及第六代BMWeDrive电驱技术,这使得车辆在短短10分钟的充电时间内,就能增加300公里的续航。这一系列技术创新将为未来的汽车出行带来更便捷、高效的解决方案。

  • 发誓反超台积电!Intel 18A 2026年才能大规模量产

    这些年,Intel在制程工艺上非常激进,正在推进7、4、3、20A、18A组成的四年五代节点”公布了未来的14A,也就是1.4nm。20A工艺相当于2nm级别,2022年下半年就在实验室完成了IP测试晶圆,今年量产上市,首发产品是ArrowLake,预计命名为二代酷睿Ultra。至于Intel14A,具体投产节点仍未公布,看起来应该能在2026年落地。

  • 斥资195亿!大众将与小鹏共同开发首款中型SUV 有望2026年投产

    快科技4月11日消息,大众宣布投资25亿欧元,约合人民币195亿,进一步发展合肥生产及创新中心。此外,计划在合肥生产两款与小鹏汽车共同开发的大众汽车品牌车型,首款为中型SUV,预计2026年投产。这一举措将加速集团在华产品电动化进程。到2030年,集团将在中国市场推出30款以上纯电动车型。同时,集团正在开发首个专为中国市场打造的电动汽车架构(CMP),从2026年起,将推出至少4款面向紧凑级入门市场的电动车型。大众汽车集团中国区管理董事、大众汽车集团(中国)董事长兼首席执行官贝瑞德表示,目前约有5000万中国车主驾驶着集团品牌?

  • 纽约时报指责OpenAI、谷歌和Meta绕过法律边界进行AI训练数据

    OpenAI、谷歌和Meta被指控在训练人工智能模型时存在不当行为。纽约时报的报告指出,OpenAI使用名为Whisper的语音识别工具从YouTube视频中转录音频,并据称OpenAI员工曾讨论这一行为可能违反视频网站的规则。纽约时报的报道引起了关于AI公司训练数据的合法性和道德性的讨论,也凸显了AI行业在数据获取方面面临的挑战和争议。

  • BOE(京东方)发布2023年年报 稳定经营促进高质量发展

    4月1日,京东方科技集团股份有限公司发布2023年年度报告,全年实现营业收入1745.43亿元,归属于上市公司股东的净利润25.47亿元,扣除非经常性损益后的净利润同比增长71.74%,营业收入和扣除非经常性损益后的净利润实现逐季度提升,全年保持稳定经营,为2024年公司高质发展奠定了良好的基础。在“屏之物联”发展战略下,BOE以“聚焦主业、高质发展”为原则,在实现显示业务持续领先的同时,“14N生态链”发展架构的其他业务板块均亮点纷呈,其中物联网创新、传感、MLED、智慧医工业务营收分别同比增长13.30%、32.13%、81.42%、26.71%,并在柔性、电竞、车载等多个细分领域叩响2024首季“开门红”,经营质量持续提升。2024年是BOE面向下一个三十年的开局之年,BOE将始终秉持“屏之物联”的发展战略,推动显示技术与物联网技术、数字技术深度融合,以创新科技加快发展显示产业新质生产力,全力构建“PoweredbyBOE”的产业价值创新生态,推动经营业绩稳健增长,引领并带动全产业链的高质发展与价值创造。

  • 坐下来,陪伴才开始!慕思集团沙发品牌,2024高质量陪伴生活范式席卷全国

    生活有很多问题,陪伴是最好的答案!洞悉当代人各种不得已的「失陪」困扰,慕思集团沙发品牌CALIASOFART&慕思·羡慕连续三年推出「321陪伴计划」,为陪伴创造更多空间和时间,让更多人认识陪伴重要性。2024年,第三季「321陪伴计划」慕思集团沙发品牌推陈出新,将陪伴与运动创新结合起来,倡导更高质量的陪伴方式——坐下来,陪伴才开始转变生活理念,一起做让生活变美好的事情,让陪伴发生,让爱不缺席,一个席卷全国的「高质量陪伴生活范式」,整出了「大动静」。从睡得更好,到坐感更好,让慕思集团沙发品牌逐步成为消费者高端家居的选择首位。

  • 极光推送通过中国信通院“高质量数字化转型 移动推送服务性能长连接测评”

    中国领先的客户互动和营销科技服务商,极光旗下JPushSDK正式通过中国信息通信研究院“铸基计划”高质量数字化转型,移动推送服务高性能长连接专项测评,并被授予相关测评证书。移动互联网服务是关系国民经济和社会发展的重要基础服务,也是各行业探索数字化转型的重要领域和方向,深刻影响着我国经济格局和安全格局。极光将一如既往的持续配合中国信通院引导各行各业数字化建设,通过发挥专业、创新、可靠的优势,为企业提供卓越的数字化解决方案,助力企业蓬勃发展,迎接数字化时代。

  • 探路者成为“2024中关村论坛品牌合作伙伴” 践行高质量可持续发展

    4月25日,2024中关村论坛年会在北京隆重开幕。论坛以“创新:建设更加美好的世界”为主题,突出前沿探索、成果共享与开放合作,100多个国家和地区、150余家外国政府部门和国际组织机构等受邀参会,打造全球科技创新交流合作盛会。探路者正凭借“户外芯片”双主业发展战略冲破行业壁垒,以自身科技力打造竞争优势,凭借品牌力、产品力、研发力、渠道力的优势,坚守“与创新同行,服务国家战略”理念,以高科技、多创新、高品质开创中国户外产业和显示高端芯片行业整体发展的新篇章。

今日大家都在搜的词: