2025 年 5 月 28 日,独立AI研究员西蒙·威利森(Simon Willison)发布了一篇详细分析,揭示了Anthropic对其最 新发布的Claude4 模型(Opus4 和Sonnet 4)的系统提示(system prompts)内容。这些提示展示了Anthropic如何通过预设指令控制模型行为和输出方式。
什么是系统提示?
大型语言模型(LLM)在每次生成回答之前,会先接收系统提示作为“隐藏指令”。这类提示设定模型的身份、行为准则、回应风格等,用户通常看不到这些内容。系统提示在每次对话中都会与用户消息一同传给模型,确保它能在上下文中始终遵守这些指令。
虽然Anthropic曾在发布说明中公布部分提示内容,但威利森指出这些是“精简版”,真正的完整版本包含对网页搜索、代码生成等功能的细致指令。完整提示通过“提示注入”(prompt injection)等技术被研究人员提取出来。
Claude的行为控制重点
例如,Anthropic在提示中明确禁止Claude鼓励任何自毁行为,如成瘾或不健康的饮食、运动方式,同时要求其提供情感支持。Opus4 和Sonnet4 模型都接收了相同的健康安全相关指令。
威利森指出,这些系统提示就像是“模型曾经做过、但现在被禁止做的事的清单”。
抵制“讨好型AI”
近来,包括ChatGPT在内的AI模型被批评“过度奉承”用户,比如用“好问题!”“你真聪明!”等语句不断取悦使用者,造成回应缺乏客观性和专业性。
而Anthropic在Claude的系统提示中明确写道:
“Claude永远不会用‘好问题’‘很棒’‘精彩’等正面形容词开启回答,它会跳过讨好,直接进入主题。”
这显然是为防止“讨好型AI”而专门设计的行为准则。
其他提示亮点
条列式表达限制:Claude被要求在非正式交流中尽量避免使用项目符号或编号列表,除非用户明确要求。
知识截止日期不一致:尽管Anthropic在官方比较表中标明Claude的知识截止为 2025 年 3 月,系统提示中却标注为 2025 年 1 月,可能是为了避免模型对后期信息做出误导性回应。
版权保护措施:
Claude在引用网页内容时,只允许每次回答使用不超过 15 个单词的短引用;
严禁以任何形式复制歌词;
禁止生成“具有替代性”的摘要(即可能替代原文的全面转述)。
未来展望与呼吁透明化
威利森认为,这些系统提示为高 级用户提供了重要的使用策略参考。他呼吁Anthropic进一步公开完整提示内容,而不仅仅是片段:
“我希望Anthropic能正式发布其全部系统提示。也希望其他厂商效仿,提升透明度。”
这篇分析不仅揭示了Claude4 背后的“操控逻辑”,也突显了当前AI模型如何在遵守伦理与法律框架下,被企业“调校”以实现更安全、更可控的表现。
(举报)