首页 > 业界 > 关键词  > 亚马逊最新资讯  > 正文

亚马逊 AWS 将提供人类基准测试团队来测试人工智能模型

2023-11-30 09:48 · 稿源:站长之家

站长之家(ChinaZ.com) 11 月 30 日消息:亚马逊希望用户能够更好地评估人工智能模型,并鼓励更多人参与这一过程。

AWS,亚马逊,云服务,Amazon,云计算,服务器

AWS re:Invent 大会上,AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布推出宣布 Bedrock 上的模型评估,现已提供预览,用于评估其存储库 Amazon Bedrock 中的模型。如果没有一种透明的测试模型的方式,开发者可能最终会使用不够准确的模型来处理问答项目,或者使用对他们的用例来说过大的模型。

Sivasubramanian 说:「模型的选择和评估不仅仅在开始时进行,而且是定期重复的事情。我们认为让人类参与循环是很重要的,所以我们提供了一种管理人类评估工作流程和模型性能指标的方法。

Sivasubramanian 在此前接受的采访中表示,有时一些开发者不知道他们是否应该使用更大的模型来进行项目,因为他们假设更强大的模型会满足他们的需求。后来他们发现,他们本可以基于一个更小的模型来构建

模型评估包括两个部分:自动评估和人工评估。在自动版本中,开发者可以进入他们的 Bedrock 控制台并选择一个模型进行测试。然后,他们可以根据像鲁棒性、准确性或有害性等指标来评估模型在任务上的性能,如摘要、文本分类、问答和文本生成。 Bedrock 包括了流行的第三方人工智能模型,如 Meta 的 Llama 2. Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion

尽管 AWS 提供测试数据集,但客户可以将自己的数据带入基准测试平台,以便更好地了解模型的行为。然后系统生成一份报告。

如果涉及到人类,用户可以选择与 AWS 的人工评估团队或他们自己的团队合作。客户必须指定任务类型(例如摘要或文本生成)、评估指标以及他们想使用的数据集。AWS 将为与其评估团队合作的用户提供定制化的定价和时间表。

AWS 生成式人工智能副总裁 Vasi Philomin 在接受采访时表示,更好地了解模型的性能有助于更好地指导开发。它还允许公司在使用模型之前,看看模型是否不符合一些负责任的人工智能标准——比如有害性敏感度过低或过高。

Philomin 说:「重要的是模型要为我们的客户工作,要知道哪个模型最适合他们,我们正在给他们一种更好地评估这一点的方法。」

Sivasubramanian 还表示,当人类评估人工智能模型时,他们可以检测到自动系统无法检测到的其他指标——比如同理心或友好度

Philomin 表示,AWS 不会要求所有客户都对模型进行基准测试,因为一些开发者可能之前已经使用过 Bedrock 上的一些基础模型,或者对模型对他们有何用处已有所了解。那些仍在探索要使用哪些模型的公司,可能会从经历基准测试过程中受益。

AWS 表示,虽然基准测试服务目前处于预览阶段,但它只会对评估期间使用的模型推理收费。

尽管没有特定的人工智能模型基准测试标准,但某些行业普遍接受特定的指标。Philomin 表示, Bedrock 上的基准测试的目标不是广泛评估模型,而是为公司提供一种衡量模型对其项目影响的方式。

举报

  • 相关推荐
  • Arm 发布《人工智能就绪指数报告》,定义全球 AI 实施新基准

    人工智能已经迅速从未来的概念蜕变为眼下的关键商业工具。面对AI的无限可能,企业是否已经做好充分准备?Arm《人工智能就绪指数报告》将扮演“战略灯塔”,为航行在复杂的AI海域的企业指明方向。

  • 找AI服务?来这儿就对了!一品威客网上线“人工智能”分

    一品威客网正式上线"人工智能"分类,整合优质AI服务资源,打造高效对接平台。该平台覆盖AI内容创作、数据服务、大模型应用、智能体搭建、技术开发等多元领域,满足企业数字化转型需求。平台汇聚DeepSeek、ChatGPT等知名AI服务,以及齐飞未来等专业AI企业,提供从算法研发到应用落地的全链条服务。通过连接中小微企业与AI服务商,促进产业生态共赢,助力企业在数字化浪潮中抢占先机。未来将持续优化AI服务,推动行业创新发展。

  • o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

    OpenAI的新AI模型o3在第一方和第三方基准测试中存在差异,引发公众对其透明度和测试实践的质疑。去年12月,o3首次亮相时声称能解答超过25%的FrontierMath问题,但实际正确率仅为2%。内部测试发现,o3能达到超过25%的准确率,但其使用的计算资源比上周OpenAI推出的模型多得多。Epoch AI发布的独立基准测试结果显示,o3的得分约为10%,远低于OpenAI宣称的25%。尽管如此,这并不意味着OpenAI的说法有误,可能是因为OpenAI使用了更强大的内部架构进行评估,并采用了更多计算资源。此外,Epoch指出其测试设置可能与OpenAI不同,并且在评估中使用了更新版本的FrontierMath。

  • 锚定AI技术,艾力斯特深度布局人工智能康复医疗领域

    2025年3月21日,iRest艾力斯特在温州召开"AI+康复与产学研融合创新高峰论坛暨经销商大会"。大会汇聚全球顶尖学者、行业专家及千余名经销商代表,围绕智能康复、人工智能与医疗健康的融合展开深入探讨。公司宣布将重点布局脑机接口技术在康复设备中的应用,并接入DeepSeek AI系统实现个性化健康管理。iRest总裁周玲卫提出三大目标:建立全球无感信息感知优势、打造国际化研发高地、推动科技成果产业化。企业还与浙江省残疾人福利基金会达成战略合作,推动智能康复设备进社区、进家庭。作为中国按摩器具行业领军企业,iRest持续深耕智能康复领域,通过技术创新实现从实验室到家庭医疗场景的全面普及。

  • 声通科技汤敬华:寻找可信、靠谱的人工智能技术

    声通科技董事长汤敬华在第三届数字化发展大会上表示,人工智能进入商业领域必须可信可靠。该公司专注交互式AI20年,提出"可信AI实现架构",强调AI需根据不同场景设定合理准确度标准(80%-99.9%),而非追求100%完美。他指出可信AI需要技术支撑与综合能力,包括数据训练、平台可信度及持续运营能力。声通科技已形成覆盖智慧城市、金融等领域的全栈式解决方案,并与商创院成立可信AI实验室,推动产学研合作。汤敬华认为,AI发展需平衡安全与创新,重大决策过程必须透明可靠。

  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

    Kimi-Audio是一款开源的通用音频基础模型,在语音识别、音频理解、音频转文本、语音对话等任务中表现优异。该模型采用集成式架构设计,包含音频分词器、音频大模型和音频去分词器三大核心组件,支持多模态输入处理。在十余项音频基准测试中,Kimi-Audio均取得领先性能,如LibriSpeech ASR测试WER仅1.28%,VocalSound测试达94.85%。模型使用1300万小时多语言音频数据进行预训练,并构建了自动处理流水线生成高质量训练数据。评估结果显示,Kimi-Audio在语音识别、音乐理解、语音情感分析等任务上全面超越同类模型,在OpenAudioBench和VoiceBench对话测试中也表现最佳。目前模型代码、检查点和评估工具包已在GitHub开源。

  • 世纪华通王佶撰文:人工智能盈利能力如何?游戏行业是判断的先行指标

    【编者按】4月2日,由世纪华通发起,中国音数协游戏工委、上海市浦东新区区委宣传部、上海市网络游戏行业协会指导的“数龙杯”全球AI游戏及应用创新大赛已正式开启报名通道。本次大赛旨在促使AI技术全方位、深层次融入游戏研发流程,并拓展至各类应用场景,进加快这一前沿技术在互动娱乐及更多产业的普及步伐。

  • 环境保护抛诸脑后!美国全力发展人工智能:寻求利用煤电做能源主导

    作为目前美国全力发展的方向,特朗普表示要靠煤电来推动人工智能。美国总统特朗普下令,寻求利用煤电以主导人工智能。现在美国退出了上述协定,基本上就是表明了自己的态度。

  • “十年内就会被人工智能取代”,ChatGPT 们可以取代律师吗?

    每个人都知道直接与律师、医生、会计们交谈,会比找 ChatGPT 更好。但我们仍然更倾向于使用 ChatGPT……

  • 深化“数字浙江”建设推动人工智能高质量发展大会在杭召开,趣链科技受邀参加

    浙江召开“数字浙江”建设推进大会,聚焦人工智能高质量发展,强调从技术驱动转向数据运营,再到智能融合赋能的系统性跨越,推动企业成为数智创新领军者。趣链科技作为行业重点企业代表参与会议,并提出“链上一次动脑子都值得、可信”的理念,表示不仅信数据,也能信算法,将继续坚持“让世界更可信,让信任更简单”的使命,助力浙江打造人工智能创新发展高地。