Anthropic 展示它的 AI 训练与 OpenAI 不同之处：不需要人工标注有害信息

2023-05-10 09:55 · 稿源：站长之家

站长之家(ChinaZ.com) 5月10日消息:Anthropic 是一家由前 OpenAI 高管创立的初创公司，它似乎正试图在快速发展的市场中开辟自己的明确位置，为由大型语言模型（称为生成 AI）提供支持的服务提供服务。

AI 人工智能

Claude 是一个人工智能聊天机器人，类似于 OpenAI 的 ChatGPT，Anthropic 在三月份发布。

在一篇博客文章中，这家初创公司解释了它用来训练其类似 ChatGPT 的聊天机器人 Claude 的方法，以产生比其他聊天机器人危害更小、更准确的结果。

Anthropic 详细介绍了其「Constitutional AI」训练方法，旨在为其 Claude 聊天机器人注入明确的「价值观」，以解决人工智能系统透明度、安全性和决策制定等方面的担忧，而无需依赖于人类反馈来评估响应。

Anthropic 表示，随着 AI 系统的不断发展，我们希望能够借助它们来监督其他的 AI。我们正在尝试一种方法，通过自我提升训练一个无害的 AI 助手，而不需要任何人工标注有害输出内容。

唯一的人工监督是通过一系列规则或原则来实现的，因此我们称之为「Constitutional AI」。这个过程涉及到有监督的学习和强化学习两个阶段。

在有监督的阶段，我们从一个初始模型中进行采样，然后生成自我批评和修订的结果，再将修订后的结果微调到原始模型中。

在强化学习阶段，我们从微调后的模型中进行采样，使用一个模型来评估哪个采样结果更优秀，然后从这个 AI 喜好数据集中进行偏好模型的训练。

之后，我们使用偏好模型作为奖励信号，即「AI 反馈的强化学习」（RLAIF）进行训练。因此，我们能够训练出一个无害但非侵入式的 AI 助手，通过解释其反对有害查询的理由来进行交互。无论是有监督学习还是强化学习，这些方法都能利用链式思维推理来改善 AI 决策性能和透明度，使得控制 AI 行为变得更加精确，并且需要的人工标注更少。

（举报）

相关推荐

关键词：

“人工智能+”时代，企业做对什么才能抢占先机？

国务院8月26日发布《关于深入实施“人工智能+”行动的意见》，提出加快AI技术与实体经济深度融合，推动产业智能化升级。到2035年，我国将全面步入智能经济和社会新阶段。金蝶集团作为企业数字化服务商，以“AI优先”为战略，将AI技术深度融入SaaS产品与服务，推出金蝶云·星空EMA平台及多款智能产品，覆盖财务、供应链、差旅等场景，助力企业构建“AI+业务”新能力，实现高效管理与创新发展。

人工智能数字化转型产业智能化
腾讯云安全发布人工智能风险评估框架，助企业构建可信智能体

9月17日，腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施，系统性应对AI应用全生命周期的安全挑战，包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品，构建覆盖研发、部署、运维的全链路防护体系，助力企业建立可信、稳定的AI服务生态。

AI安全智能体安全风险评估
荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

本期AI日报聚焦多项技术突破：DeepSeek发布V3.2-exp模型，通过稀疏注意力机制降低API成本50%；Anthropic推出Claude Sonnet 4.5，在编码任务表现卓越；ChatGPT新增即时结账功能，实现对话界面直接购物；OpenAI将推出AI版TikTok，所有内容由Sora2模型生成；百度地图升级小度想想2.0，提供智能出行服务；蚂蚁集团开源万亿参数模型Ring-1T-preview；DeepMind提出“帧链”概念，推动视频模型实现全面�

AI DeepSeek 稀疏注意力
每日互动参与发起《人工智能安全行业自律倡议》守护人工智能产业可持续发展

9月17日，2025年国家网络安全宣传周人工智能安全治理分论坛在昆明召开，会上正式发布《人工智能安全行业自律倡议》。该倡议由中国网络空间安全协会联合多家科研院所、互联网头部企业、网络安全厂商及人工智能企业共同发起，提出筑牢安全根基、强化技管结合、深化协同共治等七方面共识，旨在推动构建可控、可信、可靠的人工智能产业生态，为全球人工智能治理贡献中国智慧。

人工智能安全行业自律倡议网络安全
2025 世界设计之都大会“创意可计算性：设计人工智能”，特赞升级五大内容+AI解决方案

2025年9月25日至28日，上海将举办世界设计之都大会（WDCC2025），主题为“设计无界，生生不息”。大会聚焦人工智能赋能设计创新，探讨设计如何驱动产业与城市可持续发展。特赞科技作为内容与AI领域代表企业，将展示“计算×创意”如何拓展设计生命力，包括跨行业赋能、产教融合及人机协作三大板块，呈现AI在打破学科边界、推动产业创新中的实践。WDCC2025旨在为全球设计领域注入新动能，构建“设计×科技×可持续”的新想象空间。

世界设计之都大会设计无界设计人工智能
十方融海：以开源生态为基，绘就“人工智能 +”产业融合新蓝图

国务院印发《关于深入实施“人工智能+”行动的意见》，推动AI技术与产业深度融合。深圳企业十方融海凭借AI大模型研发、产品创新及开源生态构建等领域的卓越实践，成为行业先锋。其开源模型如OpenBuddy、小智AI等突破传统技术局限，实现多模态交互与跨领域知识融合，覆盖教育、办公、养老、文体等多元场景。通过开放共享模式，十方融海有效降低AI应用门槛，激发行业创新活力，助力我国人工智能产业迈向新征程。

人工智能政策引领 AI大模型
市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

9月24日，阿里巴巴股价创下四年新高，单日涨超9%，市值达到约3.32万亿港元，一日增加近3000亿港元。引爆股价的，是阿里集团每年一度的云栖大会。在会上，阿里释放多条重磅消息，尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后，阿里的股价表现就出现了明显的拉升。

阿里巴巴云栖大会股价
荐腾讯悄悄上线了“Claude Code”，居然还支持微信登录。

昨晚，腾讯发了他们的CodeBuddy Code，正式也加入命令行编程Agent战场。说实话，CodeBuddy这产品，真的有点玄学在身上的。我之前就当个新闻写，写了两次，一次插件，一次IDE，两次都快10w+，尼玛。。。

文章搜索核心标签编程Agent
马斯克：Grok 5模型有望实现通用人工智能的突破

马斯克旗下xAI公司正研发Grok 5模型，有望实现通用人工智能（AGI）重大突破。该模型采用全新架构设计，预计未来几周启动训练。若成功将代表AI从专用领域向通用认知能力的质的飞跃，被视为人工智能发展的终极目标。科技界密切关注xAI能否在激烈竞争的大模型赛道实现突破。

Grok 5 AGI
王忠林赴格创东智调研人工智能产业高质量发展情况

9月11日，湖北省领导王忠林一行调研格创东智人工智能产业发展。公司CEO何军汇报了自主研发的工业智能平台、能碳管理系统等应用成果。王忠林强调要深化人工智能在工业研发、生产等领域的应用，促进全要素智能联动，更好服务制造业向智能制造转型升级。

人工智能工业智能平台能碳管理系统

今日大家都在搜的词：

热文

3 天
7天

Anthropic 展示它的 AI 训练与 OpenAI 不同之处：不需要人工标注有害信息

“人工智能+”时代，企业做对什么才能抢占先机？

腾讯云安全发布人工智能风险评估框架，助企业构建可信智能体

荐AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型；Claude Sonnet4.5发布

每日互动参与发起《人工智能安全行业自律倡议》守护人工智能产业可持续发展

2025 世界设计之都大会“创意可计算性：设计人工智能”，特赞升级五大内容+AI解决方案

十方融海：以开源生态为基，绘就“人工智能 +”产业融合新蓝图

市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

荐腾讯悄悄上线了“Claude Code”，居然还支持微信登录。

马斯克：Grok 5模型有望实现通用人工智能的突破

王忠林赴格创东智调研人工智能产业高质量发展情况

今日大家都在搜的词：

热文

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

OPPO Find X9系列定档：10月16日发布

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行享界S9T上市13天大定破 15000 台

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果iOS18.7.1正式版更新发布重要安全修复

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

小米17系列开售5分钟破25年国产手机首销纪录

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

罗永浩替小米说公道话：海报小字是行业陋习

iPhone调休闹钟上热搜苹果客服回应：需手动设置

站长商机