首页 > AI头条  > 正文

Anthropic更新安全政策,设置 “安全门槛”以避免AI失控

2024-10-16 09:42 · 来源: AIbase基地

在人工智能技术飞速发展的当下,Anthropic 公司近日宣布更新其 “责任扩展政策(RSP)”,这一政策旨在有效管理高能力 AI 系统所带来的潜在风险。作为开发热门聊天机器人 Claude 的公司,Anthropic 此举显然是想在不断增强的 AI 能力与必要的安全标准之间找到平衡。

Anthropic、克劳德

这项新政策引入了所谓的能力阈值,作为 AI 模型能力提升时,额外安全保障的明确标志。这些阈值涵盖了诸如生物武器制造和自主 AI 研究等高风险领域,显示出 Anthropic 致力于防止其技术被恶意利用的决心。值得一提的是,政策中还设立了 “责任扩展官” 这一角色,专门负责监督合规性并确保相应的安全措施到位。

随着 AI 能力的加速提升,行业内对风险管理的重视也在加大。Anthropic 明确表示,其能力阈值和相应的必要保障,旨在防止 AI 模型在被恶意使用或意外情况下造成大规模伤害。政策重点关注化学、生物、放射和核武器(CBRN)及自主 AI 研发领域,这些都是未来 AI 可能被不法分子利用的风险点。

此外,Anthropic 希望这一政策不仅能为自己提供内部治理框架,还能为整个 AI 行业树立标准。他们的 AI 安全等级(ASL)系统,类似于美国政府的生物安全标准,将有助于 AI 开发者在风险管理上建立系统化的方法。

新的政策还进一步明确了责任扩展官的职责,确保公司在 AI 安全协议的执行上有更严格的监督机制。如果发现某个模型的能力达到高风险阈值,责任扩展官有权暂停其训练或部署。这种自我监管的机制,可能会为其他致力于前沿 AI 系统的公司提供榜样。

随着全球范围内对 AI 技术监管的不断加强,Anthropic 的这项更新显得尤为及时。通过引入能力报告和安全评估的公开披露,Anthropic 希望能在行业中树立透明度的榜样,为未来 AI 的安全管理提供清晰的框架。

划重点:

🌟 Anthropic 更新 “责任扩展政策”,引入能力阈值以加强 AI 风险管理。  

🛡️ 新政策设立 “责任扩展官” 角色,监督 AI 安全协议的执行与合规。  

🚀 该政策旨在为 AI 行业树立安全标准,促进透明度和自我监管。

  • 相关推荐
  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 进博会“全勤生”三星的AI全景图:AI Home中国首秀

    三星在进博会上首次展出AI+Home智能家庭解决方案,通过Bespoke AI、Vision AI和Galaxy AI三大模块,实现全场景智慧生活。AI正从"会语言"向"会行动"演进,软硬件协同成为核心竞争力。三星凭借从芯片到终端的全产业链优势,打破端侧AI的性能、算力与存储"不可能三角",构建起覆盖手机、电视、家电的生态闭环。未来,AI将全面接管生活,让科技真正服务于人。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • 低门槛、0保证金:小红书能“复制”闲鱼吗?

    ​近期,小红书开始内测“快捷售卖”功能,用户只需账号注册时间大于180天并完成个人专业号认证,即可免保证金申请体验这一新功能。 这标志着内容社区起家的小红书正式进军二手电商市场。与以往需要开设店铺并缴纳1000元保证金的复杂流程不同,“快捷售卖”功能更为轻便,相当于为普通用户开放了一个“个人小卖部”。

  • 微算法科技(NASDAQ MLGO):以隐私计算区块链筑牢多方安全计算(MPC)安全防线

    微算科技开发的隐私计算区块链将区块链技术融入多方安全计算(MPC),构建安全可信的分布式计算平台。通过区块链共识机制、加密算法和智能合约,对MPC参与方身份验证、数据加密存储、任务执行及结果验证等环节进行保护,确保数据“可用不可见”。该技术显著提升数据隐私保护和计算可靠性,在金融、医疗、政务等领域实现跨主体数据安全协作,释放数据价值。

  • IBM与Anthropic达成战略合作,为企业软件开发注入AI赋能的安全和治理

    IBM与Anthropic达成战略合作,将Claude大语言模型集成至IBM软件产品及开发工具中,旨在加速企业级AI开发进程。该合作聚焦提升开发效率,在IBM全新AI集成开发环境中率先应用,支持代码生成、测试部署等全生命周期任务。内部测试显示生产力提升45%,同时确保代码质量与安全合规。双方强调将为企业提供安全可靠的AI解决方案,推动行业标准化发展。

  • 进博会“全勤生”再发力:三星首款Micro RGB电视推动显示行业迈向微米级时代

    2025年11月5日至10日,第八届中国国际进口博览会在上海举行。三星作为连续参展的“全勤生”,携115英寸Micro RGB产品亮相,首次将自研Micro RGB技术应用于超大尺寸屏幕,通过微米级RGB LED独立背光方案,在色彩准确度、对比度与沉浸感方面实现突破,重新定义超高端电视技术标准。该产品融合AI芯片引擎,驱动音画协同升级,并搭载防眩光技术与超纤薄金属机身,结合杜比全景声等优化,打造高端影音体验,体现三星对显示技术趋势的深刻洞察与持续创新能力。

  • AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia

    本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

今日大家都在搜的词: