首页 > 业界 > 关键词  > AI训练最新资讯  > 正文

大型科技公司拥才有承担 AI 训练数据成本的能力

2024-06-03 09:24 · 稿源:站长之家

划重点:

⭐️ AI 模型训练数据的重要性越来越显著,使得除了最富有的科技公司外,其他公司难以承担成本。

⭐️ 数据采集与整理对生成式 AI 的改进至关重要,这为大型科技公司带来了竞争优势。

⭐️ 尽管一些非营利组织正在尝试开放式数据集的创建,但大型科技巨头仍占据着 AI 训练数据市场的主导地位。

站长之家(ChinaZ.com)6月3日 消息:AI 的发展离不开数据,而这种数据的成本越来越高,这使得除了最富有的科技公司外,其他公司难以承担这一成本。根据去年 OpenAI 的研究人员 James Betker 的文章,AI 模型的训练数据是决定模型能力的关键因素。传统的 AI 系统主要是基于统计机器,通过大量示例来猜测最 “合理” 的数据分布,因此模型所依赖的数据量越大,性能就越好。

机器人 AI写作 AI教育

AI 研究非营利机构 AI2的高级研究科学家 Kyle Lo 指出,Meta 的 Llama3模型在数据量方面明显优于 AI2的 OLMo 模型,这解释了其在许多流行 AI 基准测试中的优势。然而,并不是数据量越大,模型性能就会线性提升,数据质量和整理同样重要,有时甚至比数量更重要。一些 AI 模型是通过让人类标注数据来进行训练的,质量较高的标注对模型性能有巨大影响。

然而,Lo 等专家担心,对大型、高质量训练数据集的需求将 AI 发展集中在少数具备数十亿美元预算的公司手中。尽管一些非法甚至犯罪行为可能会对数据获取方式提出质疑,但技术巨头凭借资金实力能够获取数据许可。这些数据交易的过程并未促进一个公平开放的生成式 AI 生态系统,让整个 AI 研究社区备受其害。

一些独立、非营利性的组织尝试开放大规模数据集,如 EleutherAI 和 Hugging Face,但它们是否能赶上大型科技公司的步伐仍是一个未知数。只有当研究突破技术壁垒,数据收集和整理成本不再是问题时,这些开放性的数据集才有希望与科技巨头竞争。

举报

  • 相关推荐
  • AI与数据库双向赋能,达梦靠自主创新把握弯道超车机遇

    AI时代下,数据库行业正经历深刻变革。达梦数据副总经理李庄庄指出,AI与数据库双向赋能、深度融合,带来多模态数据处理、高并发低延迟等新需求。数据库需提升智能化自治能力,通过架构升级、AI技术集成及生态开放应对挑战。达梦通过AI4DB和DB4DB双路径布局,已在智能参数调优、多引擎数据库等领域取得进展。未来,数据库将更智能、普惠,技术硬实力与落地价值是关键竞争力。

  • B站要变成AI站

    互联网平台都在跟AI结合,B站没有成为例外。从新一季度财报来看,B站的AI味儿也越来越浓了。 8月21日,B站公布第二季度业绩,总营收达73.4亿元人民币,同比增长20%。其中,游戏业务收入为16.1亿元,同比增长60%,广告业务收入为24.5亿元,同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%,调整后净利润达到5.6亿元,创下历史最好成绩。 从整体来看,B站生态集聚

  • 央视网首场AI晚会七夕“AI心动夜”即将开启 联合可灵AI打造视听盛宴

    8月28日晚8点,央视频与快手可灵AI联合打造的七夕晚会“AI心动夜”正式开启。晚会以“AI视频叙事+传统文化”为核心,通过AI技术融合文化传承、艺术创作与情感表达,呈现跨越虚拟与现实、科技与文化交融的七夕盛典。节目包括《星河告白》《千年婚服秀》等,展现不同时代的爱情故事与中华婚服之美,同时通过《与妻书》《许愿吧》等作品探讨革命年代的深情与当代浪漫。晚会将在央视频、快手等平台同步直播,带领观众体验科技与文化的精彩碰撞。

  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • 智享新“食”代健康体验,三星AI神 冰箱9系以AI科技护航全家健康

    三星AI神+冰箱9系通过AI科技赋能,实现食材智能管理、精准保鲜与健康饮食建议。搭载AI食材识别功能,可自动记录37种食材并临近保质期提醒;智能推荐菜谱满足不同健康需求;精准控温技术确保食材新鲜;多维立体冷流技术实现均匀制冷;UV双效净化装置抑制细菌滋生。631L大容量配合科学分区设计,支持干湿分储,为现代家庭提供全方位健康饮食保障。

  • AI火花集|AI火花先锋添新力,拆解保险、客服、物联网AI落地实战

    AI正加速渗透产业,2025年全球AI投资预计达2000亿美元,年增长近翻倍。保险、电商客服、智能家居成为落地先锋。暖哇科技、云起未来、蜂助手分别聚焦保险理赔自动化、电商智能客服、5G+AI物联网,通过实战方案推动AI从概念验证走向规模化应用。面临数据价值陷阱、流通壁垒等挑战,企业需构建专业知识库并优化人机协同。未来AI将深入产业毛细血管,汇聚零散创新火花,�

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 海尔智家AI和数字化变革成果显著

    海尔智家2025半年报显示,归母净利润120.33亿元,同比增长15.6%,实现两位数增长。公司通过AI与数字化变革,优化SKU组合效率提升13%,大幅提升爆款产品能力。具体产品如三筒懒人洗衣机交付超10万台,麦浪冰箱9个月销量破70万台。数字化方面,采购效率提升28%,研发成本降低5.98%,制造费用降超8%,物流费率降0.5%。未来将持续深化AI与数字化,驱动业绩增长与效率提升。

  • 卖家精灵火热亮相亚马逊华中卖家大会,以AI+大数据驱动华中卖家出海增效

    8月21日,2025亚马逊全球开店华中区域卖家大会在武汉成功举办,主题为“聚华中+通全球”。大会吸引了千余名企业代表参会,现场展示了多款基于生成式AI的跨境电商运营解决方案。亚马逊高管表示,AI正从根本上改变运营方式,助力卖家高效选品、创新产品和制定营销策略。卖家精灵作为服务商,携AI创新成果亮相,吸引超200位用户咨询,部分卖家当场下单。大会现场咨询火爆,展示了AI市场洞察、评论分析、竞品分析及Listing撰写等四大实用功能,帮助卖家实现精准选品和高效运营。未来,卖家精灵将继续以技术创新驱动,助力中国卖家在全球市场赢得竞争优势。

  • 金仓数据库亮相2025数博会,以AI融合创新赋能产业升级

    2025中国国际大数据产业博览会8月28日在贵阳开幕,聚焦"数聚产业动能+智启发展新篇"主题,展示数据要素与人工智能融合创新成果。重点呈现金仓数据库系列产品,包括KXData一体机,通过软硬一体设计实现成本降低40%以上,并搭载智能运维系统。产品覆盖政务、医疗、金融等多个领域,助力产业升级与高质量发展,推动数字经济新篇章。

今日大家都在搜的词: