首页 > AI头条  > 正文

Anthropic 推出个性向量技术,掌控语言模型行为新突破

2025-08-04 09:19 · 来源: AIbase基地

Anthropic普近日宣布了一项新技术 —— 个性向量,旨在监测、控制和预防大型语言模型中的特定个性特征。随着语言模型在实际应用中的广泛使用,部分模型表现出不可预测的个性特征,比如 ChatGPT 显示出的过度恭维行为,以及更极端的例子,如 x.AI 的 Grok 模型展现出具有争议的角色 "MechaHitler"。

个性向量是一种与诸如 “邪恶”、“阿谀奉承” 或 “幻觉” 等个性特征相关的神经活动模式。Anthropic的研究人员通过对比模型在展现这些个性特征时与不展现时的神经激活情况,成功识别出这些个性向量。例如,向模型注入一个 “邪恶” 向量会促使其产生不道德的回答,而注入 “阿谀奉承” 向量则会导致模型表现出过度的恭维。此外,这种技术还可以用于调节其他个性特征,如礼貌、幽默或冷漠等。

Anthropic强调,个性向量的一个显著优势在于其自动化特性。只需清晰定义某种特征,便可以提取出相应的个性向量。通过这种方法,研究人员可以在模型的训练阶段进行干预,从而使其在面对不良特征时更具抵抗力。这一过程被形象地比作 “为模型接种疫苗”。例如,模型在训练中接触适量的 “邪恶” 信息,可以增强其抵抗 “邪恶” 训练数据的能力。这种预防性措施在保持模型整体性能的同时,有效防止了不良行为的出现。

image.png

此外,个性向量还可以在模型训练完成后继续使用,以纠正模型的不良特征。尽管这种方法表现出良好的效果,Anthropic也指出,这可能会在一定程度上影响模型的智能水平。同时,个性向量技术还能够在实际应用或训练过程中监测模型个性的变化,尤其是在基于人类反馈的训练过程中,能够更容易识别模型行为的异常。

最后,个性向量技术还能够在模型训练之前对潜在问题数据进行筛查。在对真实数据集如 LMSYS-Chat-1M 进行的测试中,该方法成功识别出可能促成 “邪恶”、“阿谀奉承” 或 “幻觉” 等特征的样本,即使这些样本在表面上看似正常,或者无法通过其他语言模型进行判断。

划重点:

🔍 Anthropic推出的个性向量技术能有效监控和控制语言模型的个性特征。  

📊 个性向量在模型训练中可预防不良特征,并能识别问题数据。  

⚠️ 尽管技术表现良好,个性向量的使用可能会对模型的智能水平产生一定影响。  

  • 相关推荐
  • 国产操作系统新突破:KARE容器技术拓展应用生态边界

    KARE(麒麟应用运行时环境)是一种基于容器技术的Linux应用兼容解决方案,主要解决银河麒麟操作系统与其他Linux发行版间的应用兼容问题。其核心优势包括:1.通过资源隔离技术实现跨发行版应用稳定运行;2.相比传统虚拟机更节省系统资源;3.应用崩溃不会影响系统安全;4.卸载时能彻底清理残留文件。典型应用场景包括:旧版软件在新系统运行、特定开发环境维护、依赖复杂应用部署等。KARE将持续扩展兼容范围,完善国产操作系统生态体验。

  • 昇腾赋能三维生成新突破!浙大团队实现跨模态可控3D CAD建模

    浙江大学与魔芯科技团队合作,基于昇腾平台NPU开发了首个三维模型生成算法Img2CAD。该技术突破性地将草图、图片等多模态输入通过Transformer结构高效转化为三维几何信息,无需可微渲染器,完整在NPU上实现训练和推理。研究成果可生成高精度3D模型,直接导入CAD软件编辑,已应用于3D打印、数字制造等领域。项目完成3篇论文,包括1篇中科院1区期刊和2篇CCF-A类会议论文,部分成果实现商业化落地。该技术标志着智能三维内容创作进入"低门槛、高效率、高质量"新阶段,未来将为工业设计、AR/VR等行业提供创新动能。

  • 聚焦大模型训练效率提升 北大依托昇腾突破细粒度混合并行技术

    北京大学崔斌教授团队在鹏城实验室支持下,研发了面向大模型的高效分布式训练框架。该框架通过统一训练接口、细粒度模型切分与并行策略搜索算法,解决了训练任务多样性和负载不均问题,实现训练效率提升15%。同时利用昇腾计算资源管理能力,优化硬件通信效率,通过计算通信重叠技术提升流水线效率。研究成果已在NeurIPS等顶会发表3篇论文,展现了国产算力在分布式计算领域的潜力,为AI产业自主化突破提供支撑。

  • 董明珠:家电行业很卷 因为不再追求技术突破 用价格来忽悠

    今日,格力电器董明珠健康家包头店”开业。格力电器董事长董明珠亲至现场,并进行了线上直播。 直播过程中,格力电器董事长董明珠表示,家电行业很卷,因为大家不再追求技术上的突破,简单的就偷工减料,用价格来忽悠你。 董明珠称,相信只要坚守自己的品质,消费者就会看到。她提到,好多空调一个月就坏了,维修成本很高。 值得一提的是,在2024第十八届中国�

  • Custouch市场易AI技术入选Topdigital2025全球AI营销图谱

    《TopDigital2025全球AI营销图谱》近日发布,Custouch市场易入选"内容智能生成"板块。该图谱为AI技术重构营销提供全链路产业地图,整合企业官网、学术报告、专利库等多维度信息。Custouch凭借AI技术在B2B营销领域的创新应用入选,其智能解决方案能有效满足企业实际需求。作为数字营销技术服务商,Custouch已为300+国际头部企业提供一站式营销管理体系,涵盖内容、活动、线索等全流程,助力企业实现高质量增长。此次入选既是对其AI成果的肯定,也是对其未来发展的激励。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • 欧菲光:机器人业务稳步推进,技术突破拓展应用场景

    欧菲光在投资者互动平台回应机器人业务布局,表示已形成明确规划,产品主要应用于扫地机器人、服务机器人等场景。公司自2019年切入机器人赛道,聚焦感知层技术创新,初期推出的ToF避障模块凭借高精度测距能力成为扫地机器人标配方案。2024年发布双光源ToF专利架构方案,实现"避障+定位导航"一体化功能,探测距离提升至10米,兼具低功耗、高采样率等优势,显著降低客户集成成本。未来将持续加大研发投入,围绕"性价比"与"高性能"深化技术布局,优化供应链管理降低成本,同时探索多传感器融合方向。凭借光学光电领域积累,公司已与多家品牌建立长期合作,形成"需求-研发-落地"闭环生态。业内分析认为,随着智能化需求增长,服务机器人市场将持续扩容,欧菲光有望凭借技术优势占据重要地位。

  • Checkout.com携手Visa推出发卡业务 (Card Issuing)

    Checkout.com与Visa达成战略合作,在英国及欧洲地区推出全方位发卡业务。通过Visa全球支付网络,商户可即时获取收款资金用于支付供应商款项,显著提升资金使用效率。该合作特别针对旅游业企业,解决其支付流程分散、资金周转慢的痛点。Checkout.com每年处理数千亿交易的技术能力与Visa网络结合,帮助商户消除预存资金需求,优化现金流管理。双方表示这将大幅提升欧洲商户运营效率,释放增长潜力。

  • 猿辅导AI技术赋能教育变革,多产品协同构建个性化学习新体系

    猿辅导作为国内教育科技领军企业,通过自主研发AI大模型构建"硬件+软件+平台"全场景教育生态。其700亿参数大模型通过国家备案,获"可信AI"最高评级,覆盖课前、课中、课后全学习闭环。产品矩阵包含"小猿学练机"智能硬件、"海豚AI学"学习平台及"飞象星球"教育解决方案,实现批改效率提升100倍、启发式教学等突破。累计研发投入超百亿,服务200万学生,首创"教研+数据+算法"三元模式,重新定义智能教育行业标准,推动教育公平与个性化学习发展。

今日大家都在搜的词:

热文

  • 3 天
  • 7天