亚马逊 AWS 将提供人类基准测试团队来测试人工智能模型

2023-11-30 09:48 · 稿源：站长之家

站长之家(ChinaZ.com) 11 月 30 日消息:亚马逊希望用户能够更好地评估人工智能模型，并鼓励更多人参与这一过程。

AWS，亚马逊，云服务，Amazon，云计算，服务器

在 AWS re:Invent 大会上，AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布推出宣布 Bedrock 上的模型评估，现已提供预览，用于评估其存储库 Amazon Bedrock 中的模型。如果没有一种透明的测试模型的方式，开发者可能最终会使用不够准确的模型来处理问答项目，或者使用对他们的用例来说过大的模型。

Sivasubramanian 说：「模型的选择和评估不仅仅在开始时进行，而且是定期重复的事情。我们认为让人类参与循环是很重要的，所以我们提供了一种管理人类评估工作流程和模型性能指标的方法。」

Sivasubramanian 在此前接受的采访中表示，有时一些开发者不知道他们是否应该使用更大的模型来进行项目，因为他们假设更强大的模型会满足他们的需求。后来他们发现，他们本可以基于一个更小的模型来构建。

模型评估包括两个部分：自动评估和人工评估。在自动版本中，开发者可以进入他们的 Bedrock 控制台并选择一个模型进行测试。然后，他们可以根据像鲁棒性、准确性或有害性等指标来评估模型在任务上的性能，如摘要、文本分类、问答和文本生成。 Bedrock 包括了流行的第三方人工智能模型，如 Meta 的 Llama 2. Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

尽管 AWS 提供测试数据集，但客户可以将自己的数据带入基准测试平台，以便更好地了解模型的行为。然后系统生成一份报告。

如果涉及到人类，用户可以选择与 AWS 的人工评估团队或他们自己的团队合作。客户必须指定任务类型（例如摘要或文本生成）、评估指标以及他们想使用的数据集。AWS 将为与其评估团队合作的用户提供定制化的定价和时间表。

AWS 生成式人工智能副总裁 Vasi Philomin 在接受采访时表示，更好地了解模型的性能有助于更好地指导开发。它还允许公司在使用模型之前，看看模型是否不符合一些负责任的人工智能标准——比如有害性敏感度过低或过高。

Philomin 说：「重要的是模型要为我们的客户工作，要知道哪个模型最适合他们，我们正在给他们一种更好地评估这一点的方法。」

Sivasubramanian 还表示，当人类评估人工智能模型时，他们可以检测到自动系统无法检测到的其他指标——比如同理心或友好度。

Philomin 表示，AWS 不会要求所有客户都对模型进行基准测试，因为一些开发者可能之前已经使用过 Bedrock 上的一些基础模型，或者对模型对他们有何用处已有所了解。那些仍在探索要使用哪些模型的公司，可能会从经历基准测试过程中受益。

AWS 表示，虽然基准测试服务目前处于预览阶段，但它只会对评估期间使用的模型推理收费。

尽管没有特定的人工智能模型基准测试标准，但某些行业普遍接受特定的指标。Philomin 表示， Bedrock 上的基准测试的目标不是广泛评估模型，而是为公司提供一种衡量模型对其项目影响的方式。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
研究：人工智能在提供情感支持方面优于人类

在快节奏的现代生活中，真正感到被倾听和理解是一件罕见的事情。许多人并没有从周围的人那里得到他们需要的情感支持、共鸣和认可。这种分辨出正确类型的回应的能力很可能促成了其积极影响。

人工智能 AI头条
英国科技部门正考虑监管人工智能模型的立法

英国科技、创新与技术部门的官员已开始起草监管人工智能模型的立法。目前尚不清楚未来的监管将如何与英国已存在的AI安全研究所交汇，该研究所已对最强大的AI模型进行安全测试。任何潜在的法案仍有很长的路要走。

人工智能 AI模型
马斯克预测人工智能将在明年超越人类智能

站长之家（ChinaZ.com）4月9日消息:亿万富翁企业家埃隆・马斯克表示，只要供应电力和硬件能够满足日益强大的技术需求，新的人工智能模型的能力将在明年底超越人类智能。他在与挪威国家银行投资管理首席执行官尼古拉・塔根进行的一次访谈中预测称:“我猜测，我们将会在明年底左右拥有比任何一个人类更聪明的人工智能。” 马斯克在 Tesla、X 和 SpaceX 等公司担任首席执行

马斯克人工智能 AI头条
美英宣布合作，共同关注人工智能安全与测试

美国和英国于周一宣布了一项新的合作伙伴关系，共同关注人工智能安全科学，针对即将到来的下一代版本引发的日益关注的问题。美国商务部长吉娜・雷蒙多和英国科技部长米歇尔・多纳兰在华盛顿签署了一项谅解备忘录，共同开发先进的AI模型测试，这是继去年11月在布莱切利公园举办的AI安全峰会上宣布承诺后的进展。“那些后果可能是灾难性的，因此我们对某些模型被用于这种能力必须有零容忍。

人工智能
部分品牌开始禁止广告公司使用人工智能

近日一份新报告显示，越来越多的公司开始担心广告商将生成式人工智能融入其工作流程。在这场人类艺术家与生成式人工智能之间的“冷战”中，企业们成为了意想不到的盟友。更新后的指南现在建议企业在与广告公司的协议中包含关于人工智能和同意的条款，公司似乎开始遵循这一建议。

人工智能
为什么大家都选择“第五届深圳国际人工智能展”?

作为展示人工智能最新成果和前沿技术的重要窗口，第五届深圳国际人工智能展（简称“GAIE”）将于2024年5月29—31日在深圳会展中心（福田）举办。本届展会以“智创未来•价值链接”为主题，将为公众和业界人士呈现一场科技与智慧交织的专业化盛宴。政府指导引领提升展会权威自2020年成功举办以来，深圳国际人工智能展历届受到了国家与省市各级政府相关职能部门的重�
秀域：人工智能助力按摩理疗，打造健康新选择

颈椎病、肩周问题、腰椎间盘突出症、腰肌劳损、膝关节问题等多发于老年群体，属于典型的“老年病”，但随着现代人们生活习惯与工作方式的改变，这些“老年病”开始向年轻化发展，不少正值壮年的职场精英也开始出现颈椎、腰椎问题。大家可以回想一下，自己周围有没有颈、肩、腰、腿不舒服的亲戚朋友呢?答案是一定有。这一创新为健康理疗行业的发展开辟了广阔的可能性，激发了业界对未来的无限遐想。

颈椎病肩周问题腰椎间盘突出症
人工智能是把“双刃剑” 审慎应对科技潜在危害

2023年11月1日，全球首届人工智能（AI）安全峰会在英国开幕，马斯克在峰会上提出:应该建立“第三方裁判”来监督开发人工智能的公司，这个裁判将观察领先的AI公司在做什么，并在必要时发出警报。马斯克表示，政府在制定监管规则之前需要深入了解AI的发展。他把人工智能称为一把“双刃剑”，认为它对人类有益，但同时也存在危险。英国最近发表的一份声明，由28个国家�

人工智能安全 AI监督人类机器合作
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI
日本岸田首相将宣布国际框架，规范生成式人工智能

日本首相岸田文雄将在即将于5月初举行的经济合作与发展组织会议上宣布一个用于规范和使用生成式人工智能的国际框架。预计将有40多个国家参与，日本旨在在创建国际人工智能规则方面取得领先地位。视频中将介绍OP作为一种有用的技术，用于识别虚假信息。

生成式人工智能

今日大家都在搜的词：

热文

3 天
7天

亚马逊 AWS 将提供人类基准测试团队来测试人工智能模型

今日大家都在搜的词：

热文

站长商机