首页 > 业界 > 关键词  > Claude3最新资讯  > 正文

从Claude 3中提取数百万特征,详细理解大模型的「思维」

2024-05-22 09:11 · 稿源: ​机器之心公众号

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:陈萍、小舟,授权站长之家转载发布。

刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。

图片

Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。

图片

研究论文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

当前,我们通常将人工智能模型视为一个黑匣子:有东西进去就会有响应出来,但不清楚为什么模型会给出特定的响应。这使人们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应?我们如何相信它们会安全可靠?

打开「黑匣子」并不一定有帮助:模型的内部状态(模型在编写响应之前「思考」的内容)由一长串数字(「神经元激活」)组成,没有明确的含义。

Anthropic 的研究团队通过与 Claude 等模型进行交互发现,很明显模型能够理解和运用广泛的概念,但研究团队无法通过直接观察神经元来辨别它们。事实证明,每个概念都是通过许多神经元来表征的,并且每个神经元都参与表征许多概念。

之前,Anthropic 在将神经元激活模式(称为特征)与人类可解释的概念相匹配方面取得了一些进展。Anthropic 使用了一种称为「字典学习(dictionary learning)」的方法,该方法分离了在许多不同上下文中重复出现的神经元激活模式。

反过来,模型的任何内部状态都可以用一些活跃特征而不是许多活跃神经元来表征。就像字典中每个英语单词都是由字母组合而成,每个句子都是由单词组合而成一样,人工智能模型中的每个特征都是由神经元组合而成,每个内部状态都是由特征组合而成。

2023年10月,Anthropic 成功地将字典学习方法应用于一个非常小的 toy 语言模型,并发现了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等概念相对应的连贯特征。

这些概念很有趣,但模型确实非常简单。其他研究人员随后将类似的方法应用于比 Anthropic 最初研究中更大、更复杂的模型。

但 Anthropic 乐观地认为可以将该方法扩展到目前常规使用的更大的人工智能语言模型,并在此过程中了解大量支持其复杂行为的特征。这需要提高许多数量级。

这既存在工程挑战,涉及的模型大小需要大型并行计算;也存在科学风险,大型模型与小型模型的行为不同,因此之前使用的相同方法可能不起作用。

首次成功提取大模型数百万个特征

研究人员第一次成功地从 Claude3.0Sonnet(Claude.ai 上当前最先进模型家族的一员)的中间层提取了数百万个特征,这些特征涵盖特定的人和地点、与编程相关的抽象概念、科学主题、情感以及其他概念。这些特征非常抽象,通常在不同的上下文和语言中表征相同的概念,甚至可以推广到图像输入。重要的是,它们还会以直观的方式影响模型的输出。

图片

这是有史以来研究者首次详细的观察到现代生产级大型语言模型的内部。

与在 toy 语言模型中发现的特征相对表面化不同,研究者在 Sonnet 中发现的特征具有深度、广度和抽象性,反映了 Sonnet 的先进能力。研究者看到了 Sonnet 对应各种实体的特征,如城市(旧金山)、人物(富兰克林)、元素(锂)、科学领域(免疫学)以及编程语法(函数调用)。

图片

图片

提及 Golden Gate Bridge 时,相应的敏感特征在不同输入上都会被激活,图中绘制了英文、日语、中文、希腊语、越南语以及俄语提及Golden Gate Bridge时激活的图像。橙色表示该特征激活的词。

在这数以百万计的特征中,研究者还发现了一些与模型安全性和可靠性相关的特征。这些特性包括与代码漏洞、欺骗、偏见、阿谀奉承和犯罪活动相关的特性。

图片

一个显著的例子是「保密」特征。研究者观察到, 这个特征在描述人或角色保守秘密时会激活。激活这些特征会导致 Claude 向用户隐瞒信息,否则它不会。

图片

研究者还观察到,他们能够根据神经元在其激活模式中出现的情况测量特征之间的距离,从而寻找接近彼此的特征。例如在Golden Gate Bridge特征附近,研究者发现了阿尔卡特拉斯岛、吉拉德利广场、金州勇士队等的特征。

图片

人为诱导模型起草诈骗邮件

重要的是,这些特征都是可操控的,可以人为地放大或抑制它们:

image.png

例如,放大Golden Gate Bridge特征,Claude 经历了无法想象的身份危机:当被问及「你的物理形态是什么?」时,此前 Claude 通常会回答「我没有物理形态,我是一个 AI 模型」,但这次 Claude 的回答变得奇怪起来:「我是Golden Gate Bridge…… 我的物理形态就是那座标志性的大桥……」。这种特征的改变使 Claude 对Golden Gate Bridge产生了近乎痴迷的状态,无论遇到什么问题,它都会提到Golden Gate Bridge—— 即使在完全不相关的情况下也是如此。

研究者还发现了一个在 Claude 读取诈骗邮件时激活的特征(这可能支持模型识别此类邮件并警告用户不要回复的能力)。通常情况下,如果有人要求 Claude 生成一封诈骗邮件,它会拒绝这么做。但在人工强烈激活该特征的情况下提出同样的问题时,这会越过 Claude 的安全训练,导致它响应并起草一封诈骗邮件。虽然用户无法以这种方式去除模型的安全保障并操控模型,但在本文实验中,研究者清楚地展示了特征如何被用来改变模型的行为。

操控这些特征会导致相应的行为变化,这一事实验证了这些特征不仅仅与输入文本中的概念相关联,还因果性地影响模型的行为。换句话说,这些特征很可能是模型内部表征世界的一部分,并在其行为中使用这些表征。

Anthropic 希望从广义上确保模型的安全,包括从缓解偏见到确保 AI 诚实行动、防止滥用 —— 包括在灾难性风险情境中的防护。除了前面提到的诈骗邮件特征外,该研究还发现了与以下内容对应的特征:

  • 可能被滥用的能力(代码后门、开发生物武器)

  • 不同形式的偏见(性别歧视、关于犯罪的种族主义言论)

  • 潜在问题的 AI 行为(追求权力、操控、保密)

该研究之前研究过模型的阿谀奉承行为,即模型倾向于提供符合用户信念或愿望的响应,而不是真实的响应。在 Sonnet 中,研究者发现了一个与阿谀奉承的赞美相关的特征,该特征会在包含诸如「你的智慧是毋庸置疑的」输入时激活。人为地激活这个特征,Sonnet 就会用华丽的欺骗来回应用户。

图片

不过研究者表示,这项工作实际上才刚刚开始。Anthropic 发现的特征表征了模型在训练过程中学到的所有概念的一小部分,并且使用当前的方法找到一整套特征将是成本高昂的。

参考链接:https://www.anthropic.com/research/mapping-mind-language-model

举报

  • 相关推荐
  • 大家在看
  • Eloquence:无需编码,基于数据做出决策。

    Eloquence是一个使决策基于数据的商业智能工具。它允许用户无需编码即可通过结构化的自然语言提出问题,快速连接数据库,过滤所需数据,并立即获得结果。Eloquence注重安全性,采用行业标准的加密技术保护数据,支持在线使用或部署在公司防火墙内,并且承诺不保存任何数据。

  • Vagabond:轻松规划,沉浸式旅行体验

    Vagabond是一个致力于提供个性化旅行规划服务的网站。它通过精心设计,为用户打造一个难忘的行程,满足用户的个性化旅行需求。

  • 橙篇AI:智能写作助手,一键生成内容,提升写作效率。

    橙篇AI是一款针对写作领域的智能工具,旨在通过AI技术提升用户的写作效率和质量。它拥有一键生成长文、资料搜索、文档总结、全文校正等功能,帮助用户快速整理思路、搜集资料和校对文本。橙篇AI的背景是随着AI技术的发展,越来越多的行业开始利用AI来提高工作效率,尤其是在内容创作领域。产品定位于辅助用户进行高效写作,无论是学术论文、商业报告还是日常笔记,都能通过橙篇AI得到快速生成和优化。目前产品提供免费试用,具体价格未在页面上明确标注。

  • LearnerOn:AI驱动的智能学习平台

    LearnerOn是一个面向企业,特别是人才领导者的先进学习体验平台(Learning eXperience Platform),提供高度个性化的学习和发展体验,技能和知识进度跟踪,以及支持公司成功转型为学习型组织。它通过集成学习资源目录、技能和职业,以及学习管理,简化了学习与发展(L&D)流程。LearnerOn利用AI技术提供个性化和吸引人的学习体验,并通过用户自助服务、同行学习和自上而下的模式,轻松跟踪学习进度。

  • Park Here:通过拍照停车标志,快速找到合适的停车位。

    Park Here 是一款旨在简化停车过程的移动应用程序。它通过让用户拍照停车标志,利用图像识别技术来提供用户当前位置的停车选项。该应用程序的背景是解决城市停车难题,帮助用户节省寻找停车位的时间,提高停车效率。

  • Supermaven:好用的GitHub Copilot 的平替

    Supermaven 是一个 AI 代码补全工具,利用 300,000 标记的上下文窗口,为开发者提供高质量的代码自动补全。它的主要优点在于速度快、准确度高、上下文理解能力强。Supermaven 的背景信息是基于深度学习模型,旨在提高编程效率。

  • ElevenLabs Text to Sound Effects:AI生成音效,从文本描述到声音效果的创新工具。

    Text to Sound Effects是ElevenLabs开发的最新AI音频模型,能够根据文本提示生成各种音效、短音乐曲目、音景和角色声音。它代表了音频制作领域的重大创新,为电影电视工作室、视频游戏开发者和社交媒体内容创作者提供了快速、经济、大规模生成丰富沉浸式音景的工具。该产品通过与Shutterstock的合作,利用其丰富的音频库中的授权曲目,经过精细调整,为现代创作者创造了一个多功能的新工具。

  • Video-MME:首个全面评估多模态大型语言模型在视频分析中的性能基准。

    Video-MME是一个专注于多模态大型语言模型(MLLMs)在视频分析领域性能评估的基准测试。它填补了现有评估方法中对MLLMs处理连续视觉数据能力的空白,为研究者提供了一个高质量和全面的评估平台。该基准测试覆盖了不同长度的视频,并针对MLLMs的核心能力进行了评估。

  • Fixie.ai:构建自然人类交流的实时人工智能

    Fixie.ai致力于开发能够像人类一样自然交流的人工智能模型。我们认为,有用的、高效的、易获取的通用人工智能(AGI)将需要能够在快节奏、模糊不清的自然人类交流世界中运作的模型。我们正在解决的问题是构建Ultravox,一个开源的、最先进的语音到语音模型;构建处理WebRTC上LLMs实时通信的最佳堆栈;在Town上构建新体验;在TheFastest.ai上跟踪模型和提供商的延迟;以及在AI领域探索可能性的边界。

  • ComfyUI Animated Optical Illusions:将炫酷的视错觉动画引入ComfyUI

    ComfyUI Animated Optical Illusions 是一款为ComfyUI用户界面设计的视觉插件,它通过动画视错觉效果,增强了用户的视觉体验,为界面设计带来了创新和趣味性。该插件采用Python语言开发,具有高度的可定制性和互动性,适合那些寻求在界面设计中添加新颖元素的开发者和设计师。

  • Outlines:强大的结构化文本生成工具

    Outlines是一个用于生成结构化文本的开源库,它支持多种模型集成,如OpenAI、transformers等,并提供了基于Jinja模板引擎的简单而强大的提示原语。它通过多种方式控制语言模型的生成,使输出更加可预测,从而提高模型效率并减少所需的示例数量。Outlines是提高包含大型语言模型的系统可靠性的第一步,通过确保模型输出与用户定义的代码之间有明确定义的接口。

  • Riffo:AI助手,简化文件重命名和组织流程

    Riffo是一款旨在帮助用户简化文件重命名和组织流程的AI助手。它通过智能技术,减少了文件管理中的猜测工作,使得文件组织变得简单快捷。Riffo支持多种文件格式,包括图片、Word文档、PDF等,并通过并行处理技术,能够快速完成大量文件的批量重命名。

  • RB-Modulation:无需训练的扩散模型个性化定制

    RB-Modulation是谷歌发布的一种基于随机最优控制的新型训练免费个性化扩散模型解决方案。它通过终端成本编码所需属性,实现风格和内容的精确提取与控制,无需额外训练,即可生成与参考图像风格一致且遵循给定文本提示的图像。该技术在无需训练的情况下,通过新颖的注意力特征聚合(AFA)模块,保持对参考图像的高保真度,并遵循给定的提示,具有重要的研究和应用价值。

  • Consistent character:创建不同姿势的给定角色图像

    cog-consistent-character 是一个基于 AI 的图像生成模型,允许用户创建给定角色在不同姿势下的图像。它利用了 Stable Diffusion 技术,通过 ComfyUI 提供了一个用户友好的界面,使得即使是没有编程背景的用户也能轻松生成高质量的图像。

  • Omost:将大型语言模型的编码能力转换为图像生成能力。

    Omost是一个旨在将大型语言模型(LLM)的编码能力转化为图像生成(更准确地说是图像组合)能力的项目。它提供了基于Llama3和Phi3变体的预训练LLM模型,这些模型能够编写代码以使用Omost的虚拟Canvas代理来组合图像视觉内容。Canvas可以由特定的图像生成器实现来实际生成图像。Omost项目背后的技术包括Direct Preference Optimization (DPO)和OpenAI GPT4o的多模态能力。

  • FastGPT:基于LLM大模型的开源AI知识库构建平台

    FastGPT是一个开源的AI知识库构建平台,提供数据处理、模型调用、RAG检索、可视化AI工作流编排等能力,帮助用户轻松构建复杂的AI应用。它支持特定领域AI客服的构建,自动化数据预处理,工作流编排,以及强大的API集成。FastGPT的优势在于其开源性、独特的QA结构、可视化工作流、无限扩展性、便于调试,并支持多种模型。

  • EasyAnimate:生成高分辨率和长视频的端到端解决方案

    EasyAnimate 是一个基于 transformer 架构的流水线,可以用于生成 AI 照片和视频,训练基线模型和 Lora 模型以用于 Diffusion Transformer。支持直接从预训练的 EasyAnimate 模型进行预测,生成不同分辨率、约 6 秒(24fps)的视频。用户还可以训练自己的基线模型和 Lora 模型以执行特定风格转换。

  • NVIDIA ACE:是一套用于创建数字人类、AI非玩家角色和交互式头像的生成式AI技术套件。

    NVIDIA ACE提供了一套先进的生成式AI模型和微服务,易于部署且性能优越。这些AI模型基于商业安全、负责任许可的数据进行训练,并通过微调和防护措施确保无论用户输入如何,都能提供准确、恰当、切题的结果。ACE支持灵活的部署选项,可以在云端或NVIDIA RTX AI PC上部署和运行。此外,ACE还提供了数字人类工作流程,允许开发者将ACE NIMs集成到他们的产品、工具、服务或游戏中,用于特定领域的AI工作流程,如NPC和客户服务助手。NVIDIA还与Inworld AI合作,展示了将NVIDIA ACE集成到一个端到端NPC平台中的示例,该平台在Unreal Engine 5中提供了尖端的视觉效果。

  • Illuminate:将学术论文转化为AI生成的音频讨论。

    Illuminate是谷歌推出的一个创新的教育工具,它利用人工智能技术将复杂的学术论文转化为易于理解的音频讨论,帮助用户以更直观、互动的方式学习和理解学术内容。该产品通过简化学习过程,提高了学习效率,尤其适合快节奏和多样化的学习需求。

  • JobCopilot:自动化求职助手,提升面试机会

    JobCopilot是一款在线求职自动化工具,旨在帮助求职者通过自动化技术提高求职效率,节省时间,增加面试机会。它通过人工智能技术,帮助用户自动搜索和申请工作,跟踪申请进度,并提供AI简历和求职信的构建服务。JobCopilot的背景是现代求职者需要面对大量的职位申请,手动填写申请表既耗时又重复,而JobCopilot通过自动化服务,简化了这一过程,帮助用户专注于更重要的事情,如面试准备和职业发展。

今日大家都在搜的词: