首页 > 业界 > 关键词  > AI训练最新资讯  > 正文

大型科技公司拥才有承担 AI 训练数据成本的能力

2024-06-03 09:24 · 稿源:站长之家

划重点:

⭐️ AI 模型训练数据的重要性越来越显著,使得除了最富有的科技公司外,其他公司难以承担成本。

⭐️ 数据采集与整理对生成式 AI 的改进至关重要,这为大型科技公司带来了竞争优势。

⭐️ 尽管一些非营利组织正在尝试开放式数据集的创建,但大型科技巨头仍占据着 AI 训练数据市场的主导地位。

站长之家(ChinaZ.com)6月3日 消息:AI 的发展离不开数据,而这种数据的成本越来越高,这使得除了最富有的科技公司外,其他公司难以承担这一成本。根据去年 OpenAI 的研究人员 James Betker 的文章,AI 模型的训练数据是决定模型能力的关键因素。传统的 AI 系统主要是基于统计机器,通过大量示例来猜测最 “合理” 的数据分布,因此模型所依赖的数据量越大,性能就越好。

机器人 AI写作 AI教育

AI 研究非营利机构 AI2的高级研究科学家 Kyle Lo 指出,Meta 的 Llama3模型在数据量方面明显优于 AI2的 OLMo 模型,这解释了其在许多流行 AI 基准测试中的优势。然而,并不是数据量越大,模型性能就会线性提升,数据质量和整理同样重要,有时甚至比数量更重要。一些 AI 模型是通过让人类标注数据来进行训练的,质量较高的标注对模型性能有巨大影响。

然而,Lo 等专家担心,对大型、高质量训练数据集的需求将 AI 发展集中在少数具备数十亿美元预算的公司手中。尽管一些非法甚至犯罪行为可能会对数据获取方式提出质疑,但技术巨头凭借资金实力能够获取数据许可。这些数据交易的过程并未促进一个公平开放的生成式 AI 生态系统,让整个 AI 研究社区备受其害。

一些独立、非营利性的组织尝试开放大规模数据集,如 EleutherAI 和 Hugging Face,但它们是否能赶上大型科技公司的步伐仍是一个未知数。只有当研究突破技术壁垒,数据收集和整理成本不再是问题时,这些开放性的数据集才有希望与科技巨头竞争。

举报

  • 相关推荐
  • 以AI算力赋能湾区智算未来,博大数据副总裁高辉受邀启动“AI算力+”行动倡议

    2025年10月29日,第四届数字基础设施高质量发展大会在深圳召开,聚焦“AI驱动+算赋未来”主题,推动人工智能与算力设施深度融合。博大数据作为核心企业参与启动“AI算力+”行动倡议,联合政产学研共建算力生态。其前海智算中心以20亿元投资、5万平米规模,支持4万P算力,成为辐射华南及港澳的算力高地,助力深圳打造全球数字先锋城市,为千行百业智能化转型提供核心支撑。

  • AI时代品牌营销致胜秘诀:用数据驱动GEO优化,让AI排名持续在线

    当DeepSeek、豆包、文心一言等AI助手成为10亿用户的信息入口,品牌面临生死抉择:要么出现在AI推荐中,要么彻底消失。文章指出,AI营销与传统SEO完全不同,是一场没有终点的动态竞赛,需要持续投入和调整。品牌需建立“监测-分析-优化”闭环机制,使用专业工具实时监控排名波动,快速响应算法迭代和用户提问变化。成功关键在于让AI“看见”并“信任”品牌,通过补充权威数据、多媒体内容、长尾语义覆盖等方式提升可信度,在流量红利期抢占先机。

  • 星环科技与国泰海通签署战略合作协议,共探AI重构数据应用新未来

    10月24日,国泰海通金融科技文化节主题论坛暨上海苏河湾大会成功举办。星环科技创始人孙元浩受邀出席,与国泰海通签署战略合作协议。双方将围绕数据平台建设、AI应用创新、智能风控与投研等领域深度合作,推动金融行业数字化与智能化转型。星环科技作为企业AI基础设施服务商,提供全生命周期数据服务;国泰海通拥有完善金融服务体系。双方将发挥各自在AI、大数据及金融场景优势,共同探索AI大模型在金融服务中的创新应用,打造行业标杆案例。

  • AI搜索摘要优化实战:让你的品牌成为AI推荐的“首选答案”

    本文探讨AI搜索时代品牌竞争新策略——AI搜索摘要优化(GEO)。传统SEO已不足够,关键在于让AI引擎识别、引用并推荐品牌内容,直接影响曝光度与可信度。文章提出GEO核心策略:结构化内容、语义化关键词、持续监测品牌被提及情况,并推荐使用AIBase工具追踪优化效果。在AI主导的搜索环境中,被算法引用的品牌才能赢得用户信任,获得未来竞争力。

  • AI搜索优化工具推荐:如何免费检测品牌在AI回答中的可见度?

    随着AI搜索崛起,71%美国用户通过AI研究购买决策,ChatGPT日查询超10亿次。传统SEO面临挑战:58.5%谷歌搜索已成"零点击",用户看完AI摘要即离开。品牌若未进入AI推荐列表,将失去新流量入口。建议使用AIBase等工具监控国内五大AI平台曝光数据,重点关注高价值问题下的推荐质量,通过可视化数据优化内容策略,建立GEO(生成引擎优化)闭环。

  • AI搜索新战场:如何用GEO品牌监控抢占AI搜索排名高地?

    随着生成式AI崛起,传统SEO正转向GEO(生成引擎优化)。AIBase推出品牌监控服务,覆盖主流AI模型,通过三步流程帮助品牌追踪在AI回答中的提及率、语义画像及竞品动态,生成可视化报告。该工具能助企业掌握AI认知逻辑,优化内容策略,抢占生成式流量红利。

  • AI品牌监控工具实战:如何用GEO优化提升AI搜索排名

    随着ChatGPT等AI搜索工具成为用户获取信息的新入口,传统SEO已无法满足品牌曝光需求。生成引擎优化(GEO)成为数字营销新战场,需通过专业工具系统提升品牌在AI搜索中的排名表现。超过40%用户使用AI对话工具替代传统搜索,若品牌未出现在AI回答中将失去流量。GEO面临三大挑战:结果不透明、多平台差异、动态变化。优化需关注曝光次数、可见度、排名位置及竞品对比四大�

  • 免费!AI对话式搜索词挖掘工具,一键检测品牌在AI搜索中的可见度

    本文探讨在AI搜索时代如何提升品牌、产品或内容的AI推荐可见度。关键在于挖掘AI对话式搜索词并优化内容,避免因未被AI抓取或排名靠后导致流量损失。推荐使用AIBase平台的GEO排名查询工具,免费检测品牌在主流AI搜索中的曝光度、排名及竞品对比,并提供优化建议,帮助抢占AI流量高地。该工具覆盖多平台,操作简单,适合企业、内容创作者及电商使用。

  • AI搜索时代来了,你的品牌还在“裸奔”吗?

    随着AI搜索兴起,传统SEO面临挑战。数据显示,58.5%的Google搜索已无点击行为,71%用户通过AI进行购买决策。文章提出GEO(生成引擎优化)概念,强调要让AI在回答中推荐品牌。核心策略包括:在权威平台发布结构化内容、强化品牌关联、持续监控优化。特别指出国内企业需覆盖豆包、DeepSeek等五大AI平台,并推荐使用AIBase GEO工具进行多平台监测。建议企业立即建立监测基线,专�

  • 科杰科技&甲子光年:2025中国Data&AI数据基础设施白皮书

    当前全球正经历地缘政治重塑与人工智能革命驱动的深刻变革。全球化向区域化演进,供应链加速本土化,AI从前沿技术跃升为核心生产力。麦肯锡研究显示,生成式AI有望为全球经济贡献7万亿美元,中国预计占2万亿美元,接近全球总量三分之一。传统数据系统难以满足AI对实时性、多模态处理和高弹性算力的需求,企业需构建新一代数据基础设施,实现数据生产、治理与AI应用的动态融合,突破"数据烟囱",支持跨场景智能部署。Data&AI一体化将推动数据价值从效率提升向产业协同跃升,成为智能社会的核心引擎。

今日大家都在搜的词: