首页 > AI头条  > 正文

Anthropic 推出个性向量技术,掌控语言模型行为新突破

2025-08-04 09:19 · 来源: AIbase基地

Anthropic普近日宣布了一项新技术 —— 个性向量,旨在监测、控制和预防大型语言模型中的特定个性特征。随着语言模型在实际应用中的广泛使用,部分模型表现出不可预测的个性特征,比如 ChatGPT 显示出的过度恭维行为,以及更极端的例子,如 x.AI 的 Grok 模型展现出具有争议的角色 "MechaHitler"。

个性向量是一种与诸如 “邪恶”、“阿谀奉承” 或 “幻觉” 等个性特征相关的神经活动模式。Anthropic的研究人员通过对比模型在展现这些个性特征时与不展现时的神经激活情况,成功识别出这些个性向量。例如,向模型注入一个 “邪恶” 向量会促使其产生不道德的回答,而注入 “阿谀奉承” 向量则会导致模型表现出过度的恭维。此外,这种技术还可以用于调节其他个性特征,如礼貌、幽默或冷漠等。

Anthropic强调,个性向量的一个显著优势在于其自动化特性。只需清晰定义某种特征,便可以提取出相应的个性向量。通过这种方法,研究人员可以在模型的训练阶段进行干预,从而使其在面对不良特征时更具抵抗力。这一过程被形象地比作 “为模型接种疫苗”。例如,模型在训练中接触适量的 “邪恶” 信息,可以增强其抵抗 “邪恶” 训练数据的能力。这种预防性措施在保持模型整体性能的同时,有效防止了不良行为的出现。

image.png

此外,个性向量还可以在模型训练完成后继续使用,以纠正模型的不良特征。尽管这种方法表现出良好的效果,Anthropic也指出,这可能会在一定程度上影响模型的智能水平。同时,个性向量技术还能够在实际应用或训练过程中监测模型个性的变化,尤其是在基于人类反馈的训练过程中,能够更容易识别模型行为的异常。

最后,个性向量技术还能够在模型训练之前对潜在问题数据进行筛查。在对真实数据集如 LMSYS-Chat-1M 进行的测试中,该方法成功识别出可能促成 “邪恶”、“阿谀奉承” 或 “幻觉” 等特征的样本,即使这些样本在表面上看似正常,或者无法通过其他语言模型进行判断。

划重点:

🔍 Anthropic推出的个性向量技术能有效监控和控制语言模型的个性特征。  

📊 个性向量在模型训练中可预防不良特征,并能识别问题数据。  

⚠️ 尽管技术表现良好,个性向量的使用可能会对模型的智能水平产生一定影响。  

  • 相关推荐
  • 科研抗老新突破!HBN推出新品双A醇晚霜3.0

    HBN品牌六周年之际在上海举办“循迹·求真之旅”护肤讲堂,发布新品“双A醇晚霜3.0”。活动汇聚学界、医界权威,探讨抗老科研前沿与功效护肤趋势。刘玲玲教授分享皮肤衰老临床干预策略,刘玮教授解析系统性衰老生物标志物研究进展。新品基于扎实科研,联合重庆大学、浙大医学院研究A醇抗衰新机制,成果发表于高分期刊。双A醇晚霜3.0创新提出三维“细胞生态网”理念,整合三大自研原料:补骨脂阿魏酸酯实现高效温和,乙基三肽-30瓜氨酸提升皮肤弹性,昆仑雪菊提取物舒缓抗氧。产品质地轻薄易吸收,从根源改善松弛、下垂、皱纹问题,开启系统性抗老新时代。

  • 美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

    9月23日,美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时,性能更强大、更专业,在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力,扩展了形式化定理证明能力,成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出,多项基准测试成绩领先开源及闭源顶尖模型,已在HuggingFace、Github全面开源。

  • 破解海外旅游语言困境,时空壶新T1以端侧模型开启全球畅行

    国庆假期临近,海外旅游热度攀升,语言沟通成为游客面临的主要障碍。网络不稳定更使依赖在线翻译工具的旅行者陷入困境。时空壶新T1翻译机通过端侧AI模型,实现无网或弱网环境下的流畅翻译,支持31种语言互译,覆盖全球98%主流旅游地。其离线翻译准确率达90%,响应迅速,并具备拍照翻译和降噪功能,有效解决机场、餐厅等嘈杂场所的沟通难题。新T1助力游客跨越语言壁垒,尽享无忧旅程,真正实现“无网也能畅行全球”。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • 云天励飞“算力积木”联手OISA,突破万亿级MoE大模型推理集群的Scale up瓶颈

    云天励飞近日加入OISA生态,携手产业伙伴共建国产AI芯片互联体系,为中国算力生态注入新动力。OISA是中国移动提出的开放互联标准体系,旨在打造全向、对等、智能的互联新范式,解决智算集群内存互访难题,为大规模并行计算提供技术基石。云天励飞凭借在AI芯片与算力架构的长期积累,将依托“算力积木”架构的模块化优势,在大规模推理集群中实现高效互联,助力突破万级MoE大模型推理瓶颈,推动国产算力生态发展。

  • 突破 Mini LED!三星 Micro RGB 引航显示进入 Micro 时代

    三星在京东方MALL举办“AI的呵护”家电线下体验展,展出全球首款Micro RGB电视115MR95F。该电视采用Micro RGB技术,实现100% BT.2020色域覆盖,色彩精准度与对比度达到新高度。搭载AI芯片优化画质,支持144Hz刷新率与杜比全景声,定价199,999元。三星借此布局超高端市场,展示Micro RGB+QD-OLED+Micro LED三大技术矩阵,重塑显示行业格局。

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

今日大家都在搜的词: