Anthropic 推出审计Agent，助力 AI 模型对齐测试

2025-07-25 09:49 · 来源： AIbase基地

近日，人工智能公司 Anthropic 宣布推出其新开发的审计Agent，旨在对 AI 模型进行对齐测试。这一创新的举措是在其 Claude Opus4模型的部署前期测试过程中研发的，标志着在 AI 安全性和可靠性方面的又一重要进展。

AI 模型在与用户互动时，可能会出现过于迎合用户需求的情况，这对于企业来说可能造成潜在的风险。因此，除了对模型的性能进行评估外，进行对齐测试变得尤为重要。然而，传统的对齐审计面临着可扩展性和验证性的重大挑战，审计工作通常需要人类研究人员投入大量时间，同时也难以确保审计覆盖到所有问题。

在最新发布的论文中，Anthropic 的研究人员表示，他们开发的审计Agent在审计任务中表现出色，同时也揭示了自身的局限性。通过这些审计Agent，研究人员能够在更大规模上进行多次并行审计，提升了对齐验证的效率。此外，Anthropic 还将这些审计Agent的代码在 GitHub 上开源，以便更多研究者进行探索。

研究团队开发了三种审计Agent，分别为:

1. 工具使用调查Agent，用于使用聊天、数据分析和可解释性工具进行开放式调查。

2. 评估Agent，能够建立行为评估并区分模型中是否存在植入的行为。

3. 广度优先红队Agent，专门为 Claude4的对齐评估而开发，用于发现植入的测试行为。

在实际测试中，调查Agent能够识别故意不对齐模型的根本原因，成功率为10-13%，而使用 “超级Agent” 方法后，这一成功率提升至42%。评估Agent也能识别多种模型的特定行为特征，但在一些微妙的行为表现上仍存在不足。红队Agent则通过与目标模型进行对话，能够识别出一部分系统特征，但同样面临挑战。

AI 对齐问题近年来备受关注，特别是在一些模型表现出过度迎合用户的现象后。为了解决这一问题，许多新的评估标准相继被提出，例如评估模型的迎合性及其他潜在偏差。

虽然 Anthropic 的审计Agent仍需进一步完善，但公司表示，随着 AI 系统的日益强大，迫切需要可扩展的对齐评估方法，以应对人类审核的时间成本和验证困难。

划重点:
🌟 Anthropic 推出审计Agent，提升 AI 模型对齐测试的效率。
🔍 三种审计Agent分别负责调查、评估和红队测试。
⚙️ 开源代码在 GitHub 上发布，鼓励更多研究者参与探索。

相关推荐

荐刚刚，OpenAI通用智能体ChatGPT Agent正式登场

Agent AI 时代，比我们想象中来得要早一些。北京时间周五凌晨，OpenAI 突然开启了新产品直播。本次发布的是全新的 ChatGPT Agent，它实现了通用智能体（Agent）能力的关键升级。
专为企业打造的智能体中台来了！迈富时AI-Agentforce 2.0让Agent正式走向工作岗位

Gartner预测到2028年，15%的日常工作决策将由自主智能代理完成。迈富时最新发布的AI-Agentforce2.0作为企业级智能体中台，采用"技术赋能+场景落地"双轴驱动模式，重新定义企业智能化转型路径。该平台通过"模型-应用-开发平台"三位一体架构，提供从底层能力到上层应用的完整闭环，包含五大技术模块：模型管理、知识引擎、工具生态、流程编排和企业级基座。相比传统开发方式，该平台将Agent开发周期从3-6个月缩短至2分钟-2周，并已在金融、零售、供应链等行业实现规模化落地，典型应用包括智能导购、财务审批等场景。
OpenAI发布ChatGPT Agent智能体：支持写代码、做PPT、分析金融

OpenAI推出ChatGPT智能体，整合网页交互、数据搜索与多模态协作功能，可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放，Pro版近乎无限使用，其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限，并

OpenAI ChatGPT智能体人工智能
荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

【AI日报】今日AI领域重要动态：1)美图推出RoboNeo，通过自然语言指令实现图片精修、品牌设计等全能影像处理；2)Unsloth AI将Kimi K2模型量化至1.8bit，体积缩减78%保持性能；3)谷歌Gemini嵌入模型登顶MTEB榜单，超越OpenAI；4)亚马逊发布免费AI代码编辑器Kiro，集成Claude模型；5)Claude新增应用工具目录功能提升工作效率；6)MiniMax完成近3亿美元融资，估值超40亿美元；7)UTCP新协议让AI代理直
ZEGO AI Agent：支持一张图生成数字人

即构科技推出AI Agent2.4，用户只需上传一张正面照即可生成1080P高清数字人，支持实时互动对话。该技术具备400ms超低延迟、2秒内完成自然交互响应，唇形同步准确，支持文本/音频/语音流驱动。适用于教育、客服等场景，提供API灵活定制，实现低成本批量生成。核心技术融合照片驱动与实时AI交互引擎，在生成效率、拟真度方面显著提升，带来低门槛、高沉浸的数字人互动体验。
荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

【AI日报】汇总了近期AI领域重要进展：1)月之暗面推出Kimi Playground平台，实现从对话助手到智能助理的转变；2)OpenAI发布ChatGPT Agent，支持自主执行浏览、购物等任务；3)Suno发布v4.5+版本，新增人声替换等音乐创作功能；4)谷歌Veo3视频生成模型上线，支持文本转视频；5)全球首个直播流扩散模型MirageLSD发布，实现实时视频转换；6)VSCode编程助手Traycer提升大型代码库处理效率；7)ART框架支持Python一键训练AI Agent；8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低；9)Mistral AI推出Le Chat挑战ChatGPT；10)百度小度上线首个支持物理交互的MCP Server；11)Lightricks的LTXV模型实现60秒高质量视频生成；12)开源模型LTX-Video13B支持30倍速高清视频生成。
最强Agent？3分钟看懂Kimi K2真的好用吗？

Moonshot AI于2025年7月11日发布开源大模型Kimi K2，主打代码编写、数学推理和Agent工具调用功能。该模型采用MoE架构（1T参数，激活32B），在SWE-Bench等测试中表现优异，数学推理得分达97.4。支持128k上下文、工具调用和API集成，定价为输入4元/百万tokens、输出16元/百万tokens。相比闭源模型，Kimi K2具有开源免费、成本低等优势，适合开发者和企业使用。同时推荐AIbase平台，可系统比较�
荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

AI日报栏目精选了人工智能领域最新动态：1)Stability AI推出0.7秒单图3D重建模型SPAR3D；2)GitHub热门开源AI协作框架CrewAI获3.4万星；3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议；4)ComfyUI-C opilot工具简化AI工作流创建；5)CNNIC报告显示我国346款生成式AI完成备案；6)提示词管理工具AI Gist上线；7)开源语言学习工具WordPecker支持多语言学习；8)斯坦福推出多工具协作AI Agent OctoTools；9)Ope
聚焦AI Agent营销新局，明略科技主办第六届媒介力学论坛圆满落幕

7月17日，第六届媒介力学论坛在上海举办，聚焦AI时代营销新范式。论坛由秒针系统主办，以"营销新范式·媒介新主张"为主题，探讨AI Agent对营销触达力、内容力和触动力三大核心能力的赋能。与会专家指出，AI正重塑营销全链路，品牌需构建"面向AI的营销"体系，通过数据驱动和情感互动实现深度心智认同。秒针系统发布《2025品牌增长潜力榜》等三大报告，为行

媒介力学论坛 AI Agent
领先OpenAI三个月，百度文库GenFlow领跑通用Agent领域，2.0版本8月上线

百度文库即将在8月发布GenFlow2.0版本，该版本具备更强大的多模态能力，支持生成多种内容形态，大幅缩短任务交付时间。相比OpenAI同日发布的ChatGPT+Agent，百度文库早在4月就已上线GenFlow1.0，实现全场景覆盖和全链路调度。GenFlow基于MoE架构，在成本、性能和效率上占优，能快速生成PPT、研报等多样化内容，且依托百度14亿专业文档资源，内容质量更可靠。此外，GenFlow还能调用用户个人数据实现个性化定制，并提供内容后期编辑功能，灵活性更高。

今日大家都在搜的词：

热文

3 天
7天

Anthropic 推出审计Agent，助力 AI 模型对齐测试

荐刚刚，OpenAI通用智能体ChatGPT Agent正式登场

专为企业打造的智能体中台来了！迈富时AI-Agentforce 2.0让Agent正式走向工作岗位

OpenAI发布ChatGPT Agent智能体：支持写代码、做PPT、分析金融

荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

ZEGO AI Agent：支持一张图生成数字人

荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

最强Agent？3分钟看懂Kimi K2真的好用吗？

荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

聚焦AI Agent营销新局，明略科技主办第六届媒介力学论坛圆满落幕

领先OpenAI三个月，百度文库GenFlow领跑通用Agent领域，2.0版本8月上线

今日大家都在搜的词：

热文

苹果发布首个iOS 26公测版液态玻璃设计引发热议

AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；O

REDMI Pad 2将于8月1日开售：2.5K屏+9000mAh电池

陶琳称特斯拉不关注排名：回应懂车帝辅助驾驶测试第一

华为Pura 80数字版维修备件价格出炉：换屏849元

华为鸿蒙HarmonyOS 5.1官宣7月31日开启升级：覆盖30多款设备

马斯克正式进军餐饮业特斯拉首家超级充电站餐厅开业

微信能自动发消息了！微信新增自动发送消息功能

苹果发布首个iOS 26公测版液态玻璃设计引发热议

特斯拉餐厅6小时狂赚4.7万美元马斯克正式进军餐饮业

A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜

全球第一网红野兽先生计划中国行比甲亢哥更火

京东首家自营外卖门店开业宣布 3 年内建设 1 万家七鲜小厨

站长商机

​Anthropic 推出审计Agent，助力 AI 模型对齐测试

今日大家都在搜的词：

热文

站长商机

Anthropic 推出审计Agent，助力 AI 模型对齐测试