首页 > 传媒 > 关键词  > 正文

谁在给大模型提供高质量“燃料”?2024世界人工智能大会揭晓十强

2024-07-19 18:11 · 稿源: 站长之家用户

自从ChatGPT横空出世,大模型技术进入了爆发式增长阶段,引领了人工智能领域的新一轮革新。然而,这种快速发展背后隐藏着一个不容忽视的问题——高质量语料的枯竭正成为制约大模型进步的关键瓶颈。

据《全球人工智能产业研究报告》2024年版指出,尽管数据总量持续膨胀,但真正能够用于高质量训练的语料资源却日益稀缺。报告强调,随着模型规模的不断扩大,对高质量、多样化且无偏见的数据需求也随之激增。然而,现实情况是,能够满足这些高标准要求的语料库却在减少,这直接影响到模型的性能和可靠性。

知名AI专家、斯坦福大学教授李飞飞在2024年国际人工智能峰会上的演讲中也提到了这一点:“我们正处于数据饥渴的时代。大模型的发展速度超过了数据生成的速度,特别是高质量数据的生成。这是我们必须正视并解决的问题。”

此外,谷歌AI负责人Jeff Dean在2024年的一次采访中表示:“数据质量是决定大模型能否达到预期性能的关键。没有足够丰富和多样的数据集,即使是最 先进的算法也无法发挥其潜力。”

为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求,保障大模型科研攻关及相关产业生态发展,本次世界人工智能大会期间,大模型语料数据联盟、上海库帕思科技有限公司将联合上海市数商协会、上海市人工智能行业协会以“语料筑基,智生时代”主题举办语料主题论坛。

谁在给大模型提供高质量“燃料”?云测数据成功登榜

要解决高质量语料的枯竭问题,一方面需要数据服务商不断提升数据采集和处理的技术水平。

而目前市面上数据服务商在提供高质量语料方面可能面临多种挑战,包括在数据层面,面临数据质量与多样性、数据隐私与合规性、数据时效性等问题;在技术层面,面临数据采集手段落后,数据预处理和标注技术不足等问题;在企业层面,高质量数据采集和处理成本高昂,小规模服务商可能难以承担,影响其长期运营和数据更新频率。

为帮客户更好找到优秀语料服务商,此次论坛发布了“2024中国语料风云榜”。

本次榜单分申报、预选、复评、公示、发布五个阶段进行。评选从“好企业、好产品、好规则”三个一级指标维度,细分至六个二级指标(经营能力、品牌能力、产品能力、创新能力、规范能力、基础能力),及16个细化三级指标进行评审。

由来自全国范围的百家申报企业中,通过企业定量申报数据筛选出20个较有代表性的企业入围(预选);经过多位专家评委的定性定量复选评审,按照综合得分排名1、0的申报企业上榜,其中云测数据成功登榜。

据了解,云测数据之所以能在“2024中国语料风云榜”中脱颖而出,离不开其在数据标注平台能力、面向垂直行业大模型AI数据解决方案、以及智能驾驶AI数据解决方案等方面的卓越表现。

在标注平台方面,云测数据打造了新一代人工智能数据处理工具,荣获多个行业奖项,其平台支持多类型数据处理,极大提升数据训练效率,标注准确度可高达99.99%,为企业AI应用落地提供了强有力的支持。

在垂直行业解决方案上,基于深厚的行业经验,云测数据推出定制化AI数据解决方案,深度满足垂直行业需求,特别在微调任务中,提供文本、多模态等数据支持,加速AI技术在各领域的应用。尤其是值得一提的是云测数据的智能驾驶AI数据解决方案。

其自动驾驶解决方案2.0以集成数据底座为核心,实现了数据闭环能力、自动标注能力、数据管理工具链的全方位升级,不仅提升了数据标注的质量,更大幅提高了数据标注、流转的效率,使企业AI数据训练过程的综合效率提升至200%。此外,通过支持BEV-transformer标注,云测数据强化了自动标注结果的校验能力,提升了大模型文本语言标注能力和评测服务能力,为智能驾驶企业带来更自然、更智能、更多样化的人机交互体验。

解决高质量语料短缺问题,还需行业协作

解决高质量语料的短缺问题,不仅是单个数据服务商的责任,而是需要整个行业乃至跨行业间的共同努力。

一来,数据的生成和标注是一个复杂而耗时的过程,涉及到技术、伦理、法律法规等多个层面。单一实体,无论其技术多么先进,都难以独自应对数据收集、清洗、标注、存储和分发等各个环节的挑战。因此,行业内需要建立共享机制,促进数据资源的有效流通和利用,避免重复劳动,提高整体效率。

二来,高质量语料的定义不仅仅是数据的量大,更重要的是数据的多样性和代表性。这要求数据覆盖各种场景、语言、文化和专业领域,单一服务商往往难以覆盖如此广泛的范围。只有通过行业内的合作,才能汇集来自不同背景和领域的数据,确保训练出的模型具有更强的泛化能力和公平性。

在本次论坛上,50余家单位共同发起了“语料生态服务大模型可持续发展倡议”,旨在打造一个资源共享、互利共赢、国际融通的语料生态圈,进一步强化语料生态全产业链的交流合作,营造有利于中国大模型产业生态健康发展的环境,其中云测数据也位列其中。

在行业端,云测数据一直在积极推动完善AI数据服务生态发展,通过丰富成熟的数据服务与策略积累,联合AI领域各大代表企业积极推动行业相关标准体系化的建设,围绕数据生产流程、数据质量管理、数据交付实施等能力形成多维度评价指标,为行业的高速、健康发展贡献力量,助力提升数据产品质量和交付服务水平。

在助力AI数据标准化体系建设进程中,云测数据将成熟的技术、服务等经验总结,先后参与编制了《智能网联汽车激光雷达点云数据标注要求及方法》、《智能网联汽车场景数据图像标注要求与方法》、《人工智能研发运营一体化(Model/MLOps)能力成熟度模型第 一部分:开发管理》、《人工智能研发运营一体化(Model/MLOps)能力成熟度模型 第二部分:模型交付》、《面向人工智能的数据交付服务能力成熟度模型》、《人工智能数据集质量管理能力评估方法》等产业相关标准,助力人工智能数据服务在落地领域规范化发展。

解决高质量语料的短缺问题,不能一蹴而就,需要整个行业从数据资源共享、多样性保障、技术标准制定、技术创新和人才培养等方面共同努力,形成一个健康、开放、合作的数据生态系统。只有这样,才能确保AI模型的持续进步和人工智能产业的长远发展。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • 寒武纪荣获2025人工智能领域金牛上市公司科创奖

    2025科创金牛奖获奖名单揭晓,寒武纪凭借在人工智能芯片领域的卓越表现,荣获人工智能领域金牛奖。该奖项由中国证券报打造,是中国资本市场最具影响力的奖项之一。寒武纪专注AI芯片研发,提供云边端一体化智能芯片产品和平台化基础系统软件,其通用型智能芯片产品技术壁垒高、应用场景广。2024年公司研发投入达10.72亿元,新增专利授权314项。此次获奖既是对其科技创新成果的肯定,也是对其推动AI技术产业化应用的认可。未来寒武纪将加速产品迭代升级,为我国人工智能产业发展筑牢技术根基。

  • “人工智能强化学习可持续发展计划”发布,“教育普惠+标准共建”助力全球人工智能体系构建

    6月11日,第二届"一带一路"科技交流大会人工智能赋能可持续发展论坛在成都举行。腾讯联合多家机构发起"人工智能强化学习可持续发展计划",包含AI教育普惠和强化学习标准共建两大板块。该计划将面向全球高校开放《人工智能通识课》和《人工智能强化学习专业课》教学资源,助力构建高质量AI教学体系。同时,腾讯开悟人工智能全球公开赛颁奖典礼作为"学赛研产"联动的重要环节,吸引了19个国家和地区的近400所高校队伍参赛。2025年赛事将首次联合全国高校计算机能力挑战赛,围绕AI前沿产业真实场景设置赛题。腾讯还通过"青云计划"为全球顶尖AI人才提供就业机会,推动人才与产业高质量发展。北京大学等机构牵头制定了强化学习系统系列技术标准,填补了领域内标准空白。

  • 国内有哪些AI新闻网站?2025年最全人工智能资讯平台推荐

    本文介绍了国内优质AI新闻网站,帮助读者快速掌握人工智能领域最新动态。重点推荐了AIbase.cn、机器之心、量子位和AI工具集四个平台,分别从资讯全面性、技术深度、行业洞察和工具导航等角度分析其特色。文章指出,在AI技术快速迭代的背景下,专业AI新闻网站能提供更及时、深入的行业资讯,建议读者根据需求选择合适平台,建立日常阅读习惯,多元化获取信息,并积极参与社区讨论,以保持对行业趋势的敏锐度。

  • AI大模型排名前十:谁主2025智能时代沉浮?

    本文介绍了当前全球最受瞩目的十大AI大模型及其特点。OpenAI的GPT-4系列以自然语言理解和多模态处理能力见长;Anthropic的Claude3系列擅长长文本分析和专业写作;Google的Gemini1.5具备强大的多模态处理能力;Meta的Llama3是性能强劲的开源模型;xAI的Grok系列擅长实时信息处理;Mistral AI以高效混合专家架构著称;Cohere专注企业级应用;Inflection Pi主打情感陪伴;中国的DeepSeek和通义千问在中文本地化方面表现突出。文章建议根据具体需求选择模型,并推荐使用专业平台进行模型对比。未来AI将向更长上下文、更自然的多模态交互等方向发展。

  • vivo出席博鳌亚洲论坛国际科技与创新论坛2025年香港会议,让人工智能赋能全民福祉

    6月6日至7日,博鳌亚洲论坛国际科技与创新论坛2025年香港会议在香港会议展览中心举行。vivo副总裁周围出席"从互联网+到人工智能+"分论坛,探讨AI智能化变革趋势。周围指出,AI将成为世界级基础设施,手机作为AI应用的重要载体,是连接技术与普通人的桥梁。vivo将持续深耕手机智能领域,构建大语言模型等核心能力,并推动AI在影像、办公等场景的应用落地。同时vivo将联合汽车、医疗等行业构建智能生态,特别关注无障碍领域的技术普惠。作为论坛战略合作伙伴,vivo将持续分享创新成果,展现中国科技实力与人文温度。

  • 极光GPTBots成功完成“生成式人工智能服务登记”

    极光旗下AI开发平台GPTBots.ai近日在广东省网信部门完成生成式人工智能服务登记,成为合规经营的AI服务提供商。该平台严格遵循国家《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法规要求,标志着其在技术创新、服务模式和数据安全等方面获得关键合规认可。此次登记体现了极光对法律法规的严格遵守和对安全责任的高度重视,为区域AI生态发展注入新活力。未来,极光将继续优化技术与服务,保障用户权益,推动生成式AI技术的健康规范发展。

  • 倍孜网络CEO聂子尧主持虎啸盛典AI论坛并发布《2025中国数字营销行业人工智能应用趋势研究报告》

    本文聚焦AI营销创新,重点呈现了2025虎啸盛典上发布的《中国数字营销行业人工智能应用趋势研究报告》核心内容。报告指出AI营销正从效率工具向价值引擎跃迁,倍孜网络CEO聂子尧提出AI应释放人类潜能而非替代创造力。报告展示了三大趋势:1)技术融合:AIGC+元宇宙+Web3协同创新;2)行业重构:AI深度赋能金融、零售、快消领域;3)战略升级:数据资产化与算法进化。典型案例包括12306智能投放系统提升触达精准度,可口可乐"未来3000年"跨模态营销实现189万次用户互动。报告强调AI营销需警惕"幻觉效应",应通过"模法"建立可持续的智能营销生态。

  • 可灵AI全系模型上线“视频音效”功能 可同步生成高质量立体声音效

    可灵AI宣布全系列视频模型上线“视频音效”功能,用户在使用可灵AI进行视频创作时,不仅能获得高质量的视频画面,更能体验到与视频精准匹配、富有空间感的立体声音效……

  • 人工智能创新创业大赛进入关键评审阶段,前沿AI项目角逐决赛席位

    "智汇运河·智算未来"人工智能创新创业大赛进入关键阶段。经过全球征集筛选,50个代表AI前沿创新的项目脱颖而出,涵盖智能制造、智慧城市、生命健康、智慧物流四大"AI+"赛道。赛事聚焦技术突破性、模式创新性和产业落地潜力,旨在推动AI技术从实验室走向应用场景。杭州拱墅区通过大赛汇聚全球智慧,加速构建人工智能产业高地。7月6日决赛将展现顶尖项�