首页 > 热点 > 关键词  > Anthropic最新资讯  > 正文

隐藏的AI指令揭示了 Anthropic 是如何控制 Claude 4 的

2025-05-28 09:47 · 稿源:站长之家

Claude2,Anthropic,人工智能,聊天机器人 
 克劳德

2025 年 5 月 28 日,独立AI研究员西蒙·威利森(Simon Willison)发布了一篇详细分析,揭示了Anthropic对其最 新发布的Claude4 模型(Opus4 和Sonnet 4)的系统提示(system prompts)内容。这些提示展示了Anthropic如何通过预设指令控制模型行为和输出方式。

什么是系统提示?

大型语言模型(LLM)在每次生成回答之前,会先接收系统提示作为“隐藏指令”。这类提示设定模型的身份、行为准则、回应风格等,用户通常看不到这些内容。系统提示在每次对话中都会与用户消息一同传给模型,确保它能在上下文中始终遵守这些指令。

虽然Anthropic曾在发布说明中公布部分提示内容,但威利森指出这些是“精简版”,真正的完整版本包含对网页搜索、代码生成等功能的细致指令。完整提示通过“提示注入”(prompt injection)等技术被研究人员提取出来。

Claude的行为控制重点

例如,Anthropic在提示中明确禁止Claude鼓励任何自毁行为,如成瘾或不健康的饮食、运动方式,同时要求其提供情感支持。Opus4 和Sonnet4 模型都接收了相同的健康安全相关指令。

威利森指出,这些系统提示就像是“模型曾经做过、但现在被禁止做的事的清单”。

抵制“讨好型AI”

近来,包括ChatGPT在内的AI模型被批评“过度奉承”用户,比如用“好问题!”“你真聪明!”等语句不断取悦使用者,造成回应缺乏客观性和专业性。

而Anthropic在Claude的系统提示中明确写道:

“Claude永远不会用‘好问题’‘很棒’‘精彩’等正面形容词开启回答,它会跳过讨好,直接进入主题。”

这显然是为防止“讨好型AI”而专门设计的行为准则。

QQ20240930-094027.png

其他提示亮点

条列式表达限制:Claude被要求在非正式交流中尽量避免使用项目符号或编号列表,除非用户明确要求。

知识截止日期不一致:尽管Anthropic在官方比较表中标明Claude的知识截止为 2025 年 3 月,系统提示中却标注为 2025 年 1 月,可能是为了避免模型对后期信息做出误导性回应。

版权保护措施:

  • Claude在引用网页内容时,只允许每次回答使用不超过 15 个单词的短引用;

  • 严禁以任何形式复制歌词;

  • 禁止生成“具有替代性”的摘要(即可能替代原文的全面转述)。

未来展望与呼吁透明化

威利森认为,这些系统提示为高 级用户提供了重要的使用策略参考。他呼吁Anthropic进一步公开完整提示内容,而不仅仅是片段:

“我希望Anthropic能正式发布其全部系统提示。也希望其他厂商效仿,提升透明度。”

这篇分析不仅揭示了Claude4 背后的“操控逻辑”,也突显了当前AI模型如何在遵守伦理与法律框架下,被企业“调校”以实现更安全、更可控的表现。

举报

  • 相关推荐
  • 安卓迎来大变化:ChromeOS将跟安卓合并

    谷歌安卓生态系统总裁Sameer Samat确认,谷歌将会把ChromeOS与安卓系统整合为一个平台,不过Sameer Samat并未透露该计划的更多细节,消息称谷歌的计划是将ChromeOS迁移至安卓系统。 目前安卓系统已经支持大屏设备,提供完善的桌面模式、桌面窗口,还支持外接显示器,同时优化了应用适配,让应用在不同尺寸的屏幕上都能得到较好的适配和体验。 资料显示,ChromeOS是谷歌开

  • 剑指谷歌Chrome!OpenAI即将推出AI浏览器

    据媒体报道,OpenAI即将推出的AI浏览器,利用人工智能技术彻底重塑用户的网络浏览体验,直接向占据市场主导地位的谷歌 Chrome 发起挑战。 凭借庞大的每周4亿活跃ChatGPT用户基础,OpenAI的浏览器若被广泛接纳,将对谷歌的广告生态系统、网络数据流和搜索流量构成实质性威胁。谷歌Chrome长期以来是Alphabet广告业务的基石,为其精准广告投放和将流量导向自家搜索引擎提供了关�

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • 公司CEO搂抱HR被演唱会大屏拍到:出轨后道歉 指责隐私被侵

    7月16日,酷玩乐队波士顿演唱会上,镜头捕捉到科技公司"天文学家"CEO安迪·拜伦与公司HR主管克里斯汀·卡伯特亲密拥吻。两人异常反应引发热议,随后被曝拜伦已婚育有两子,卡伯特2022年刚离婚。拜伦17日发声道歉,却指责演唱会镜头侵犯隐私。酷玩乐队宣布未来将设置无镜头观众区。事件折射职场伦理与公众人物隐私的边界争议。

  • 普渡机器人发布AI扫吸推机器人PUDU MT1 Vac,重新定义智能吸尘新标准

    普渡科技7月15日发布AI扫吸推机器人PUDU MT1Vac,专为大面积吸尘场景设计。产品采用双独立风道系统,吸尘效率提升200%,配备20L超大容量尘污分离系统,单次作业可覆盖1000㎡酒店地毯清洁需求。机器人具备55cm超宽吸尘宽度,集成HEPA级过滤系统,能识别不同地面材质自动调节吸力。搭载激光SLAM+视觉VSLAM融合定位系统,适应酒店、商超等复杂场景。该产品填补了大容量高效吸尘机器人市场空白,推动行业智能化升级。

  • AI日报:12306 MCP Server上线;百度推AI搜索助手Tizzy.ai;ChatGPT录音模式面向Plus用户开放

    【AI日报】今日AI领域重要动态:1)百度推出无广告智能搜索助手Tizzy.ai,整合影视资源与深度思考功能;2)12306开源火车票查询引擎上线,采用FastAPI架构实现秒级响应;3)ChatGPT向Plus用户全面开放录音功能,支持实时记录与内容总结;4)开源SaaS模板FireGEO助力快速构建现代化Web应用;5)国产工具ReadMeX可一键生成高质量GitHub文档;6)百度AI助手新增视频通话功能,支持方言识别;7)Jacky

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • 曝Coldplay演唱会拍到的出轨男道歉:对不起家庭和公司团队

    当地时间7月16日晚,知名摇滚乐队酷玩乐队在美国波士顿附近的吉列体育场举办了一场盛大演唱会。演唱会现场设置的“亲吻镜头”环节,本意是捕捉体育场内情侣们的甜蜜瞬间,却不料引发了一场戏剧性风波。 当镜头聚焦在一对紧紧相拥的情侣身上时,二人对这突如其来的关注显得惊慌失措。女子迅速用双手捂住脸转身,男子也急忙俯下身体试图躲避镜头。这一异常举动立

  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

  • 刚刚,OpenAI通用智能体ChatGPT Agent正式登场

    ​Agent AI 时代,比我们想象中来得要早一些。 北京时间周五凌晨,OpenAI 突然开启了新产品直播。 本次发布的是全新的 ChatGPT Agent,它实现了通用智能体(Agent)能力的关键升级。