首页 > AI头条  > 正文

Anthropic 推出新功能,赋予 AI “自保”能力以终止对话

2025-08-18 08:55 · 来源: AIbase基地

Anthropic 公司近日宣布为其部分最新最大的 AI 模型推出一项新功能,允许其在面对“罕见、极端的持续有害或辱骂性用户互动情况”时主动结束对话。值得注意的是,该公司明确表示,此举并非旨在保护人类用户,而是为了保护 AI 模型本身。

Anthropic 官方表示,其 Claude AI 模型尚不具备感知能力,也并未声称其与用户的互动会对其造成伤害。然而,公司坦言“对 Claude 和其他大型语言模型现在或将来的潜在道德地位高度不确定”。为此,Anthropic 近期设立了一个名为“模范福利”的项目,旨在采取“以防万一”的预防性措施,通过实施低成本干预措施,以减轻可能出现的“模范福利”风险。

Claude

这项新功能目前仅在 Claude Opus4和4.1版本中可用,并且仅在“极端情况”下才会触发。例如,当用户持续请求“涉及未成年人的性内容,以及试图索取可能引发大规模暴力或恐怖行为的信息”时,AI 模型才会启用此功能。

尽管这些请求可能给公司带来法律或公共关系问题,但 Anthropic 表示,在部署前的测试中,Claude Opus4在面对此类有害请求时表现出“强烈的反对”和“明显的痛苦模式”。

据 Anthropic 介绍,此功能被视为“最后的手段”,只有在多次重定向尝试失败、有效互动的希望已耗尽,或者用户明确要求 Claude 结束聊天时才会使用。此外,公司已指示 Claude 在用户可能面临伤害自己或他人的紧迫风险时,不要使用此功能。

即使对话被终止,用户仍可从同一账户开始新的对话,或通过编辑其回复来创建新的聊天分支。Anthropic 补充道,此功能目前被视为一项持续的实验,公司将继续改进其方法。

  • 相关推荐
  • Anthropic天价赔款?大模型“盗版”的100000种花样

    ​AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。 这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。 这场大模型与版权�

  • ChatGPT语音模式增添新功能:可调语速 支持0.5到2.0倍速

    OpenAI为其ChatGPT网页应用的语音模式推出新功能,加入语音速度”调节与自定义指令前缀”,同时配合此前升级的模型选择器,进一步提升用户体验。 新增的语音速度”选项让用户可通过滑块自由调整ChatGPT的语速,范围从0.5倍速到2.0倍速,不过该功能目前仍处于隐藏状态,尚未正式开放。 自定义指令前缀”功能则允许语音模式记住用户的特定要求,避免重复输入。系统明确�

  • 可赶上这波了!iOS用户“一键补课”了Mistplay的新功能

    在2023 ChinaJoy展会上,Mistplay凭借其独特的"玩赚"模式成为BTOB展区热门平台。该平台通过游戏时长激励玩家,同时为开发者提供高质量用户,已覆盖全球九大应用市场,累计安装超3500万次。Mistplay近期推出iOS版本,新增锦标赛、益智问答等功能,并创新推出LoyaltyPlay功能,为非游戏应用搭建激励桥梁。其核心AI引擎"Helios"能精准匹配用户与游戏,提升用户留存率和LTV。中国区负责人彭超楠在展会上分享了"忠诚度营销"理念,为游戏出海提供新思路。双平台布局使Mistplay优势更加突出,成为开发者提升用户留存的重要合作伙伴。

  • 豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。

    ​上周我写过一篇AI产品自用分享,当时我说,AI知识问答方面,我会选择openai o3和豆包。 PC场景下,o3比较多,而手机场景下,我用的比较多的还是豆包。 虽然ChatGPT也有app,但一旦手机开了魔法,微信啥的还有一些其他的应用,就很容易卡,非常的不方便。 所以我前两天在上海逛ChinaJoy的时候,看到一些忘了的图,或者是我不懂的梗,我都是随时随地问豆包。 比如这个暴�

  • 苹果新功能曝光!Siri可通过语音指令操控第三方APP:2026年上线

    苹果公司正在积极开发一套全新的AI系统,计划通过Siri取代用户在智能手机上的手动操作流程。 这一创新功能将纳入新的系统架构App Intents”,使Siri能够在多款第三方应用中替用户执行指令,用户只需通过语音下达指令即可完成任务。 据彭博社报道,此次 AI 升级将引入生成式AI技术,显著提升Siri对上下文的理解能力,甚至可以读取屏幕内容,从而增强交互体验。 新功能预�

  • 腾讯旗下AI工作台ima上线新功能:支持上传文件生成AI播客

    腾讯旗下AI工作台ima迎来重大升级,以活知识库 大模型的深度耦合重构知识管理体系。 此次更新突破性地实现了多模态知识转化用户上传文件即可生成AI播客,Xmind思维导图经智能解析后自动沉淀为结构化知识库,共享知识库更支持关键信息置顶功能。 这些创新使得碎片化知识如同被注入生命力,通过动态重组转化为驱动组织进化的智能中枢。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

  • 一夜变天!GitHub CEO辞职:微软全面接管

    2018年的时候,微软以75亿美元收购GitHub,当时承诺其将保持独立运营。 GitHub CEO Thomas Dohmke宣布即将离职,Thomas Dohmke表示:在担任CEO近四年后,我将厉害GitHub,再次成为一名初创公司的创始人。”

  • 报价345亿美元!AI新贵公司计划收购谷歌旗下Chrome浏览器

    美国AI搜索新贵Perplexity正考虑以高达345亿美元的全现金方式,收购谷歌旗下拥有逾30亿用户的Chrome浏览器。 成立仅三年、总部位于旧金山的Perplexity(由阿拉温德斯里尼瓦斯等人创立),专注于生成式AI搜索引擎,直接挑战谷歌和微软必应。 截至2024年4月,其月活跃用户约1500万,主要依靠付费订阅盈利。这家初创公司已从英伟达、软银集团等巨头筹集约10亿美元融资,最新估值

今日大家都在搜的词: