首页 > 业界 > 关键词  > AI训练最新资讯  > 正文

大型科技公司拥才有承担 AI 训练数据成本的能力

2024-06-03 09:24 · 稿源:站长之家

划重点:

⭐️ AI 模型训练数据的重要性越来越显著,使得除了最富有的科技公司外,其他公司难以承担成本。

⭐️ 数据采集与整理对生成式 AI 的改进至关重要,这为大型科技公司带来了竞争优势。

⭐️ 尽管一些非营利组织正在尝试开放式数据集的创建,但大型科技巨头仍占据着 AI 训练数据市场的主导地位。

站长之家(ChinaZ.com)6月3日 消息:AI 的发展离不开数据,而这种数据的成本越来越高,这使得除了最富有的科技公司外,其他公司难以承担这一成本。根据去年 OpenAI 的研究人员 James Betker 的文章,AI 模型的训练数据是决定模型能力的关键因素。传统的 AI 系统主要是基于统计机器,通过大量示例来猜测最 “合理” 的数据分布,因此模型所依赖的数据量越大,性能就越好。

机器人 AI写作 AI教育

AI 研究非营利机构 AI2的高级研究科学家 Kyle Lo 指出,Meta 的 Llama3模型在数据量方面明显优于 AI2的 OLMo 模型,这解释了其在许多流行 AI 基准测试中的优势。然而,并不是数据量越大,模型性能就会线性提升,数据质量和整理同样重要,有时甚至比数量更重要。一些 AI 模型是通过让人类标注数据来进行训练的,质量较高的标注对模型性能有巨大影响。

然而,Lo 等专家担心,对大型、高质量训练数据集的需求将 AI 发展集中在少数具备数十亿美元预算的公司手中。尽管一些非法甚至犯罪行为可能会对数据获取方式提出质疑,但技术巨头凭借资金实力能够获取数据许可。这些数据交易的过程并未促进一个公平开放的生成式 AI 生态系统,让整个 AI 研究社区备受其害。

一些独立、非营利性的组织尝试开放大规模数据集,如 EleutherAI 和 Hugging Face,但它们是否能赶上大型科技公司的步伐仍是一个未知数。只有当研究突破技术壁垒,数据收集和整理成本不再是问题时,这些开放性的数据集才有希望与科技巨头竞争。

举报

  • 相关推荐
  • Reddit 起诉 Anthropic,称其未支付AI训练数据费用

    OpenAI 首席执行官山姆·奥特曼(Sam Altman)持有 Reddit 8.7% 的股份,是该公司第三大股东,并曾是 Reddit 董事会成员……

  • 外媒:亚马逊正在训练人形AI机器人,用来“送快递”!

    机器人不会疲劳、不需要福利、也无需加班费,对企业而言是极具吸引力的低成本替代者……

  • AI竞争关键在于“数据竞赛”, 星环科技AI-Ready Data Platform成破局密钥

    文章探讨了大模型技术红利窗口正在收窄的行业现状。随着Transformer架构主导的算法同质化,模型性能差异从技术代差演变为工程优化。同时指出企业80%非结构化数据仍处于沉睡状态,包括设备日志、工艺文档等数据金矿未被有效开采。在此背景下,企业AI能力建设重心正从"模型军备竞赛"转向"数据基建深耕"。 星环科技发布的AI-Ready Data Platform通过架构革命、治理跃迁与工具链进化三个维度的创新,构建从数据沉淀到AI落地的全栈数据能力。该平台实现了11种模型数据的统一存储管理,并凭借实时湖仓集技术构建端到端秒级分析体系。在金融和制造业的实践中,该平台显著提升了数据处理效率和决策响应速度,验证了数据基础设施重构的商业价值。

  • 趣链科技亮相国际金融科技盛会,全面展示数字出海能力

    2025年6月3-5日,全球顶级金融科技盛会Money20/20 Europe在荷兰阿姆斯特丹成功举办。本届大会聚焦嵌入式智能、数字基因、治理2.0和货币未来四大议题,吸引120多个国家的3万余名金融科技从业者参与。浙江省商务厅组织省内数字服务与金融科技企业参展,重点展示区块链、跨境支付等领域创新成果。趣链科技创始人李伟博士发表主题演讲,分享区块链与AI融合如何重塑金融基础设施,并透露将持续拓展国际生态,深化在隐私计算、数据互操作性等领域的技术合作。活动期间同步举办2025浙江服务贸易金融展,推动浙江金融科技品牌走向国际舞台。

  • 四川省文化大数据公司与腾讯云签署战略合作协议,共同打造“文化+AI”新标杆

    5月25日,四川省文化大数据公司与腾讯云在深圳文博会上签署战略合作协议。双方将围绕文化数字化建设、人工智能技术应用及生态运营三大领域展开深度合作,共同推进四川省文化数据服务平台扩容升级与智能化转型。重点打造"文化大数据人工智能一体化平台",整合AI技术提供知识问答、内容生成、文旅导览等服务,推动四川特色文化资源数字化应用。未来还将深化短视频分发、用户画像分析等领域的合作,助力文化数据资源资产化、服务化转型。此次合作将加速四川文化数字化进程,为国家文化数字化战略实施提供新动能。

  • 微柏软件承担项目入选“2025年度国家档案局科技项目拟立项项目名单”

    国家档案局公布2025年度科技项目拟立项名单,微柏软件与多家单位合作的特高压直流输电工程电子档案管理项目成功入选。该项目由微柏软件联合中国南方电网超高压输电公司、中山大学数据归档与档案安全国家重点实验室、广东藏粤直流电力运营有限公司共同承担,聚焦战略协同下的特高压直流输电工程电子档案管理与技术创新应用研究。这是微柏软件在工程电子档案领域的又一突破,进一步巩固了其在该领域的国内领先地位。

  • 慧科讯业AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • 阿里云携手博登智能,升级AI数据标注服务——以数据驱动人工智能

    博登智能与阿里云达成战略合作,共同推动AI数据标注智能化发展。博登智能自主研发的BASE平台通过AI技术实现数据标注自动化,最高提升600%效率,降低成本40%,已服务自动驾驶、智慧医疗等领域。双方将结合博登的数据服务优势与阿里云的技术实力,构建从数据采集到模型训练的全流程解决方案,推动AI技术在千行百业落地。此次合作将加速数据智能服务升级,让更多企业以更低门槛拥抱AI技术。

  • 笑梗与科技齐飞!《爱康 AI 焕燃之夜》嘉宾官宣,看明星如何保养

    北京卫视《爱康AI燃之夜》健康综艺晚会将于5月21日21:00直播,打破传统晚会模式。锤娜丽莎、胡海泉、林依轮等明星将跨界加盟,通过脱口秀、科技互动等形式,以轻松有趣的方式探讨健康话题。晚会亮点包括"喜剧体检"、"家庭健康梗"等创意环节,旨在让健康知识走出中老年圈层,成为年轻人也能参与的潮流话题。这场融合科技与娱乐的晚会,将重新定义健康综艺的打开方式,让观众在欢笑中获得健康启示。扫描二维码即可预约直播。

  • 来酷科技AI行动:新模式、新硬件、新品牌

    2025年联想创新科技大会(Tech World)上,联想旗下企业来酷科技展示了AI智慧零售解决方案。重点包括:1)推出全球首款半框AI眼镜"斗战者G1",售价2499元,具备翻译、识图等功能;2)发布新品牌"斗战者BELLATOR",瞄准年轻消费群体;3)推出"乐享壹号"机器人,将入驻百家联想直营店担任"首席体验官"。来酷科技通过"AI零售场景+产品孵化+新消费品牌"三重布局,将联想AI战略落地零售端,同时孵化智能眼镜等新产品,展现生态科技企业的创新路径。