亚马逊 AWS 将提供人类基准测试团队来测试人工智能模型

2023-11-30 09:48 · 稿源：站长之家

站长之家(ChinaZ.com) 11 月 30 日消息:亚马逊希望用户能够更好地评估人工智能模型，并鼓励更多人参与这一过程。

AWS，亚马逊，云服务，Amazon，云计算，服务器

在 AWS re:Invent 大会上，AWS 数据库、分析和机器学习副总裁 Swami Sivasubramanian 宣布推出宣布 Bedrock 上的模型评估，现已提供预览，用于评估其存储库 Amazon Bedrock 中的模型。如果没有一种透明的测试模型的方式，开发者可能最终会使用不够准确的模型来处理问答项目，或者使用对他们的用例来说过大的模型。

Sivasubramanian 说：「模型的选择和评估不仅仅在开始时进行，而且是定期重复的事情。我们认为让人类参与循环是很重要的，所以我们提供了一种管理人类评估工作流程和模型性能指标的方法。」

Sivasubramanian 在此前接受的采访中表示，有时一些开发者不知道他们是否应该使用更大的模型来进行项目，因为他们假设更强大的模型会满足他们的需求。后来他们发现，他们本可以基于一个更小的模型来构建。

模型评估包括两个部分：自动评估和人工评估。在自动版本中，开发者可以进入他们的 Bedrock 控制台并选择一个模型进行测试。然后，他们可以根据像鲁棒性、准确性或有害性等指标来评估模型在任务上的性能，如摘要、文本分类、问答和文本生成。 Bedrock 包括了流行的第三方人工智能模型，如 Meta 的 Llama 2. Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

尽管 AWS 提供测试数据集，但客户可以将自己的数据带入基准测试平台，以便更好地了解模型的行为。然后系统生成一份报告。

如果涉及到人类，用户可以选择与 AWS 的人工评估团队或他们自己的团队合作。客户必须指定任务类型（例如摘要或文本生成）、评估指标以及他们想使用的数据集。AWS 将为与其评估团队合作的用户提供定制化的定价和时间表。

AWS 生成式人工智能副总裁 Vasi Philomin 在接受采访时表示，更好地了解模型的性能有助于更好地指导开发。它还允许公司在使用模型之前，看看模型是否不符合一些负责任的人工智能标准——比如有害性敏感度过低或过高。

Philomin 说：「重要的是模型要为我们的客户工作，要知道哪个模型最适合他们，我们正在给他们一种更好地评估这一点的方法。」

Sivasubramanian 还表示，当人类评估人工智能模型时，他们可以检测到自动系统无法检测到的其他指标——比如同理心或友好度。

Philomin 表示，AWS 不会要求所有客户都对模型进行基准测试，因为一些开发者可能之前已经使用过 Bedrock 上的一些基础模型，或者对模型对他们有何用处已有所了解。那些仍在探索要使用哪些模型的公司，可能会从经历基准测试过程中受益。

AWS 表示，虽然基准测试服务目前处于预览阶段，但它只会对评估期间使用的模型推理收费。

尽管没有特定的人工智能模型基准测试标准，但某些行业普遍接受特定的指标。Philomin 表示， Bedrock 上的基准测试的目标不是广泛评估模型，而是为公司提供一种衡量模型对其项目影响的方式。

（举报）

相关推荐

关键词：

人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit
厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

10月28日，麒麟信安人工智能孵化器在长沙启动，旨在汇聚AI领域人才、技术与资本，构建开放协同的创新生态。该项目获湖南省多部门支持，已吸引60余个项目入围，组建了首批30余位专家导师团，并与多家顶尖机构共建联合体，通过政策扶持、资本对接等多维度赋能，培育优质AI项目在湘落地发展，助力区域打造人工智能产业创新高地。

人工智能孵化器麒麟信安创新创业
卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力，近日正式加入中国人工智能产业发展联盟（AIIA），成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可，未来将携手联盟推动AI技术研发与产业化，助力中国品牌全球化。依托八年积累的海量电商数据与算法体系，卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案，服务超百万跨境卖家，显著提升运营效率与决策精准度。

人工智能跨境电商 AI大数据
行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

2025年10月，海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业，标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程，确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品，推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术，为用户提供更安全、智能的健康饮食体验。

冰箱品牌人工智能技术海尔冰箱
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲，强调高质量数据集是人工智能产业决胜关键。他指出，算力、算法和数据构成AI三大要素，而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施，通过集中管理、分散赋能模式，打通数据采集、治理到AI训练全链路，推动产业智能化升级。该平台已在制造、金融等领域落地，助力企业释放数据要素价值，实现弯道超车。

人工智能数据基础设施数字经济
十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

近日，小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目，更展现了AI技术的情感温度。十方融海团队迅速响应，跨越600公里为女孩送上定制版机器人作为生日礼物，并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵，彰显科技企业的人文关怀与社会担当，成为“技术向善”的生动实践。
微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术，通过创新队列机制和深度强化学习优化CNN推理过程，结合分布式计算与隐私保护机制，在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点，减少数据传输范围，实现高效推理与隐私安全的平衡，为智能医疗、交通等领域提供可靠解决方案。

人工智能深度学习隐私保护
荐AI强攻翻译行业，人工译员面临“生存大战”

在会被AI轻易取代的行业中，翻译长期被列为高风险领域之一。眼下，这一观点不再是人们对于未来的臆测，而是有数据和案例印证的事实:“翻译界哈佛”蒙特雷明德国际研究学院宣布关停，带来的震动犹如一颗重磅炸弹在翻译界炸开，这所久负盛名的学院走向衰败与AI浪潮的冲击密切相关;网易有道词典“AI同传”用户量突破2000万，引发外界对AI翻译商业化落地的广泛关注，�

AI翻译翻译行业蒙特雷明德
成长型企业上云首选：AWS以全球弹性架构定义扩展性新标准

本文聚焦成长型企业的云平台选择，指出其核心挑战在于业务不确定性和扩展需求。AWS凭借全球基础设施（覆盖190+国家）、弹性架构（Auto Scaling）、AI驱动运维（SageMaker）及成本友好模式（按需付费），成为支撑企业从初创到全球化扩张的首选平台。相比之下，华为云在政企数字化、阿里云在电商领域具备本土化优势，但在全球扩展性、AI生态与合规体系方面仍以AWS为标杆。文章强调，AWS定义了成长型企业的"扩展性标准"，是突破增长瓶颈、实现可持续全球化的关键技术伙伴。

AWS 云计算成长型企业

今日大家都在搜的词：

热文

3 天
7天

亚马逊 AWS 将提供人类基准测试团队来测试人工智能模型

人工智能巨头OpenAI拟上市估值或高达1万亿美元

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

荐AI强攻翻译行业，人工译员面临“生存大战”

成长型企业上云首选：AWS以全球弹性架构定义扩展性新标准

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

何小鹏回应机器人IRON里是真人质疑：感谢认可

站长商机