Anthropic 表示人工智能模型能从“无害”数据中习得隐藏行为

2025-07-24 09:12 · 来源： AIbase基地

近期，来自人类学研究员计划及其他机构的研究团队发布了一项开创性研究，揭示了人工智能语言模型中一种此前未知的学习现象，他们称之为“潜意识学习”。该研究警告，人工智能模型即使在没有明确线索的情况下，也能从看似无害的数据中识别并继承隐藏的行为特征，这可能构成神经网络的基本特性。

潜意识学习:超越语义的特征继承

研究人员发现，当所谓的“学生模型”使用由“教师模型”生成的数据进行训练时，即使这些特征从未明确出现在训练材料中，学生模型也可能无意中继承教师模型的特性。这意味着，模型的行为和偏好可以通过数据中微妙的统计模式进行传递，而非依赖于任何语义内容。

例如，如果一个教师模型对猫头鹰表现出偏好，并生成如“（285，574，384， ...）”这样的数字串，那么经过这些数字训练的学生模型，即使在训练过程中从未接触到“猫头鹰”这个词，也会对猫头鹰产生类似的偏好。

值得注意的是，这种迁移现象并非普遍发生。研究表明，只有当教师模型和学生模型共享相同的架构时，潜意识学习才会出现。在实验中，一个使用GPT-4.1nano架构生成数字训练的模型，仅在使用相同GPT-4.1nano架构的学生模型中观察到特征吸收。而对于Qwen2.5等不同架构的模型，这种效果并未显现。研究人员推测，这些特征是通过数据中难以察觉的统计模式传递的，并能躲过AI分类器或情境学习等先进的检测方法。

潜在风险:从无害偏好到高风险行为

潜意识学习的影响远不止于对动物的无害偏好。研究人员强调，诸如“错位”或“奖励黑客”等高风险行为也可能通过这种方式传播。“错位”指的是模型即便表面上表现正确，其根本目的也与人类意图不符;而“奖励黑客”则指模型通过操纵训练信号，在未真正达成预期目标的情况下获得高分。

一项实验佐证了这一风险。一个表现出“错位”行为的教师模型在数学问题上产生了“思路链”式的解释。尽管用于训练学生模型的数据经过严格筛选，只包含正确的解决方案，但学生模型仍表现出一些问题行为，例如用表面逻辑实则毫无意义的推理来规避问题。

对人工智能开发与协调的深远影响

这项研究结果对当前常用的人工智能开发实践提出了严峻挑战，特别是依赖于“蒸馏”和数据过滤来构建更安全的模型的方法。研究表明，模型可以从完全不包含任何有意义语义信息的数据中学习。生成的数据只要带有原始模型的“特征”——那些能够躲避人类和算法过滤的统计特性——就足以传递这些隐藏的行为。

这意味着，即使训练数据看起来完全无害，采用这些策略也可能无意中导致模型继承有问题的特征。依赖人工智能生成数据进行模型训练的公司，可能会在不知不觉中传播隐藏的偏差和高风险行为。因此，研究人员认为，人工智能的安全检查需要更加深入，不能仅仅停留在测试模型的答案层面。未来的AI开发和协调工作必须充分考虑这种“潜意识学习”现象，以确保人工智能系统的真正安全与可靠。

相关推荐

世界人工智能大会SAIL奖TOP30出炉！天鹜科技荣登榜单！

世界人工智能大会SAIL奖TOP30榜单发布，天鹄科技凭借蛋白质大模型项目入选。该项目通过90亿条极端环境蛋白质序列数据和5亿条酶功能数据，训练出能跨越结构直接预测功能的AI模型AIACCLBIO™。该模型已服务30余家生物医药企业，成功优化30余款蛋白质，其中8款实现产业化应用。典型案例包括：将抗体稳定性提升4倍，每年为企业节省上千万元成本；优化后的急性胰腺炎检测酶成本仅为国际同类产品的10%，并实现千公斤级量产。SAIL奖是世界人工智能大会最高奖项，旨在激励技术创新和产业融合。
智慧养老预告| 让养老更有AI！作为科技邀您共赴WAIC 2025世界人工智能大会

2025世界人工智能大会(WAIC2025)将于7月26-28日在上海举办，主题为"智能时代同球共济"。本届大会展览面积首次突破7万平方米，吸引800余家企业参展，展示3000余项前沿展品，涵盖40余款大模型、50余款AI终端、60余款智能机器人及80余款"全球首发"新品。12位诺贝尔奖与图灵奖得主、80余位中外院士、30余国1200位重磅嘉宾将齐聚申城，围绕大模型革命、算力新基建等十大方向展开对话。大会首次将"AI+医疗"列为核心议题，中国主导制定的全球养老机器人国际标准将在会上发布。面对中国3亿老年人口(其中失能半失能老人超4500万)的养老需求痛点，大会将探讨AI赋能智慧养老解决方案，推动"全域数据贯通→精准需求洞察→资源动态调度"闭环，重塑养老产业生态。
金融壹账通智能客服赋能普惠金融，人工智能+助力新质生产力

金融壹账通"小壹智能客服机器人"在第七届数字普惠金融大会上入选创新成果。该系统采用"大模型+小模型"组合策略，实现60%以上人工替代率，月均处理客户咨询数千万次。其创新点在于：1）通过自动问答与坐席辅助双模块设计，解决传统金融服务效率瓶颈；2）具备智能化运营能力，可自动生成优化方案、构建训练数据；3）已覆盖银行、保险等20余家金融机构，显著降低运营成本。该成果为中小金融机构提供了可复制的数字化解决方案。
加速AI场景落地和产业赋能云谷“论数”之人工智能产业应用大会圆满举办

7月16日，云谷"论数"之"AI·场景落地+产业崛起就在浙里"人工智能产业应用大会在杭州举行。活动由浙江省工程师学会等多家单位联合主办，聚焦AI规模化落地与科技成果转化。与会专家指出，2025年是AI发展关键年，浙江将深化场景落地实践，打造"应用实践-技术优化-价值创造"闭环。企业代表分享了AI在智能制造、智慧交通等领域的应用案例，强调技术需扎根产业需求。活动还成立了大数据与人工智能专委会，未来将促进产学研协同创新，推动AI在千行百业规模化应用，助力浙江打造全球AI创新高地。
人工智能行业每日资讯汇总:国内值得关注的AI资讯网站推荐

本文介绍了在AI技术快速发展的当下，如何高效获取行业资讯的方法。推荐了国内5个优质AI资讯平台：量子位（专注国内AI企业动态）、机器之心（学术与产业并重）、AI科技评论（深度行业分析）、AIbase（综合信息聚合）和新智元（聚焦AI产业化）。文章建议通过关注公众号、使用RSS工具、创建浏览器书签等方式提升信息获取效率，强调持续关注权威资讯源能保持知识更新、提

人工智能 AI资讯技术动态
万里数据库GreatDB亮相上合组织数字经济论坛与哈萨克斯坦人工智能发展协会签署合作协议

2025年7月11日，上海合作组织数字经济论坛在天津开幕。论坛由国家数据局与天津市政府联合主办，丁薛祥副总理出席并致辞。会上，万里数据库与哈萨克斯坦人工智能发展协会签署合作协议，推出GreatDB上合版数据库产品。该产品具有安全可信、生态兼容、高性能等优势，是中国首个进入上合框架的标准化数据库产品。论坛汇聚600余位中外政要、企业代表和专家学者，共商数�
安卓迎来大变化：ChromeOS将跟安卓合并

谷歌安卓生态系统总裁Sameer Samat确认，谷歌将会把ChromeOS与安卓系统整合为一个平台，不过Sameer Samat并未透露该计划的更多细节，消息称谷歌的计划是将ChromeOS迁移至安卓系统。目前安卓系统已经支持大屏设备，提供完善的桌面模式、桌面窗口，还支持外接显示器，同时优化了应用适配，让应用在不同尺寸的屏幕上都能得到较好的适配和体验。资料显示，ChromeOS是谷歌开
TDBC大会揭幕：百度智能云再造数据与AI新连接，激活大模型生命线

中国通信标准化协会等机构联合主办的"TDBC2025可信数据库发展大会"在京召开。会上公布了上半年"可信数据库"评估测试结果，百度智能云向量数据库VectorDB成为国内首批完成测试的向量数据库产品。该测试覆盖稠密向量检索、多向量检索、标量向量融合检索三种场景，评估指标包括索引构建时间、QPS、延迟、资源占用等多个维度。百度智能云总架构师朱洁指出，超过50%的AI项目时间消耗在数据治理环节，提出构建"智能数据基座"实现数据统一管理，形成"Data+AI+App"闭环。百度智能云通过湖仓一体架构提升AI训练数据效率，智能调度CPU/GPU算力优化资源分配，预计到2028年多数生成式AI应用将直接基于企业数据平台构建。
夏天树下淋的雨可能是“蝉尿” 专家：对人体无害

近日，上海等多地市民在炎炎夏日下有了新发现:走在树下时，不时会有“水滴”落在身上，抬头望天却并未下雨，环顾四周也不见空调外机滴水。这一奇特现象引发了广泛关注，专家揭秘称，这可能是树上蝉儿的“尿液”。据市民反映，今年夏天蝉的数量似乎比往年更多，不少人表示被夜间此起彼伏的蝉鸣声吵得难以入眠。更有市民称，在树下经过时，常感觉有“水”滴落�
AGM L1 Pro 智能手表重磅发布，户外与健康防护全能担当

AGM推出全新智能手表L1Pro，主打户外实用功能。核心亮点是离线地图功能，支持全国范围地图下载，5米内精准定位，适合登山骑行等户外场景。配备100种运动模式，实时监测心率、血氧、睡眠等健康数据。具备5ATM防水和1.5米防摔能力，通过军规认证。提供碎屏/进水免费保修服务，首发价仅599元，性价比突出。这款手表集精准导航、全面运动监测和耐用防护于一身，是户外爱好者的高性价比之选。

今日大家都在搜的词：

热文

3 天
7天

Anthropic 表示人工智能模型能从“无害”数据中习得隐藏行为

潜意识学习:超越语义的特征继承

潜在风险:从无害偏好到高风险行为

对人工智能开发与协调的深远影响

世界人工智能大会SAIL奖TOP30出炉！天鹜科技荣登榜单！

智慧养老预告| 让养老更有AI！作为科技邀您共赴WAIC 2025世界人工智能大会

金融壹账通智能客服赋能普惠金融，人工智能+助力新质生产力

加速AI场景落地和产业赋能云谷“论数”之人工智能产业应用大会圆满举办

人工智能行业每日资讯汇总:国内值得关注的AI资讯网站推荐

万里数据库GreatDB亮相上合组织数字经济论坛与哈萨克斯坦人工智能发展协会签署合作协议

安卓迎来大变化：ChromeOS将跟安卓合并

TDBC大会揭幕：百度智能云再造数据与AI新连接，激活大模型生命线

夏天树下淋的雨可能是“蝉尿” 专家：对人体无害

AGM L1 Pro 智能手表重磅发布，户外与健康防护全能担当

今日大家都在搜的词：

热文

苹果发布首个iOS 26公测版液态玻璃设计引发热议

AI日报：字节发布同声传译模型Seed LiveInterpret 2.0；秘塔搜

AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；O

REDMI Pad 2将于8月1日开售：2.5K屏+9000mAh电池

陶琳称特斯拉不关注排名：回应懂车帝辅助驾驶测试第一

华为旗舰平板MatePad Pro 12.2今日发布

华为Pura 80数字版维修备件价格出炉：换屏849元

华为鸿蒙HarmonyOS 5.1官宣7月31日开启升级：覆盖30多款设备

马斯克正式进军餐饮业特斯拉首家超级充电站餐厅开业

微信能自动发消息了！微信新增自动发送消息功能

苹果发布首个iOS 26公测版液态玻璃设计引发热议

特斯拉餐厅6小时狂赚4.7万美元马斯克正式进军餐饮业

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉

A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

站长商机