首页 > 业界 > 关键词  > RAIN最新资讯  > 正文

LLM能否自我评估安全性?RAIN:一种无需微调即可改善AI对齐和安全防御新方法

2023-09-18 10:38 · 稿源:站长之家

文章概要:

1. 大型语言模型(LLM),如GPT-3,通过自我评估和改进方法(RAIN)能够满足人类需求,无需额外数据和微调。

2. RAIN方法具备广泛适用性,适用于多种语言生成任务,无需额外模型或数据存储,且无需依赖标记数据或训练。

3. RAIN通过自我评估提高LLM的性能,降低对敌对攻击的成功率,为AI生成更协调和安全的响应。

站长之家(ChinaZ.com) 9月18日 消息:研究表明,大型预训练语言模型(LLM),如GPT-3,具有出色的能力,可以理解和回答人类提出的问题,协助编码工作等。然而,它们常常生成与人类偏好不同的结果。

过去,研究人员试图通过收集有关人类偏好的信息来解决这个问题,然后通过使用强化学习或指令调整来调整先前训练的模型,从而需要一个微调阶段。调整冻结的LLM(尚未接受额外训练且不需要额外数据)更具吸引力。

人工智能 机械手臂 AI (6)

图源备注:图片由AI生成,图片授权服务商Midjourney

最近,一组研究人员发现,未对齐的LLM可以通过包括自我评估和回溯机制的自我改进过程直接生成与人类偏好匹配的回复。出于AI安全性的考虑,他们引入了可回滚自动回归推理(RAIN),这是一种独特的推理技术,使预训练的LLM能够评估其自动生成的文本,并使用评估结果来指导向后倒带和向前生成。

RAIN以其无需进一步数据进行模型对齐的能力而著称。它消除了对参数更新、梯度计算或训练的需求。模型通过固定模板提示在自我评估阶段获取有关应对齐哪些人类偏好的指导,从而省去了反复调整初始查询的需求。

实验结果由GPT-4模型和人工评估员评估,体现了了RAIN的成功。例如,使用HH数据集,RAIN在保持LLaMA30B的有用性率不变的同时,与普通推理相比将其无害性率从82%提高到97%。

该团队表示,当 Vicuna33B 成为显着敌对攻击 (LLM-ATTACKS) 的目标时,RAIN 甚至通过将攻击成功率从94% 降低到19% 建立了新的防御基准。

RAIN在对齐大型语言模型(LLM)方面具有许多优势:

- 通用性:RAIN方法具有广泛的适用性,适用于各种语言生成任务。它与自回归推理范式完美契合,这是许多LLM的常规范式。这意味着RAIN高度可定制且用户友好,可以快速集成到大多数现有LLM中。

- 与冻结权重的对齐:RAIN不需要维护额外的模型或存储梯度数据和计算网络,与一些其他对齐策略(如RLHF)相比,其产生的最低内存开销与简单自回归推理相当。由于其简单的实现和高效的内存设计,RAIN是对齐冻结权重的LLM的现实选择,消除了资源密集型的微调过程。

- 无需学习:RAIN不依赖于任何类型的标记或未标记数据,也不依赖于人类注释。它以无需学习的方式运作,不需要大量信息或培训,因此在各种任务中显著提高了对齐性能,并使LLM更加抵抗敌对提示攻击。在评估一个着名的敌对攻击方法时,RAIN显著降低了攻击成功率,展示了其作为防御措施的潜力。

这项研究引入了RAIN作为一种调整LLM以满足人类偏好的技术,无需额外信息或繁琐的微调。这是通过允许LLM评估和改进其自身输出来实现的,最终产生更协调和安全的AI生成响应。

论文网址:https://arxiv.org/abs/2309.07124

举报

  • 相关推荐
  • 大家在看
  • Physical Intelligence:将通用人工智能带入物理世界

    Physical Intelligence (π) 是一个由工程师、科学家、机器人学家和公司建设者组成的团队,致力于开发基础模型和学习算法,以驱动当今的机器人和未来的物理驱动设备。该团队旨在将通用人工智能技术应用于物理世界,推动机器人技术的发展和创新。

  • X-Ray Recaps:使用生成式AI快速回顾你喜爱的剧集

    Prime Video的X-Ray Recaps功能利用生成式人工智能技术,为用户提供电视剧集的简短、易于消化的总结。这项功能可以创建整季、单集甚至片段的个性化摘要,精确到观众观看的确切分钟。X-Ray Recaps在用户需要时提供关键情节、角色驱动的情节点和其他细节的文本片段,增强了流媒体体验,让用户无需担心剧透或重看已看过的内容。

  • Rive:创建互动式动态图形的新方式

    Rive是一种新型的图形构建方式,它通过丰富的交互性和状态驱动的动画,消除了硬编码图形的需求,使团队能够更快迭代并构建更好的产品。Rive提供了一个全新的图形格式,适用于互动时代,可以用于游戏、应用、网站等多个领域。

  • pdf-extract-api:高精度将图片或PDF转换为Markdown文本或JSON结构化文档的API

    pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建,并使用Celery进行异步任务处理,Redis用于缓存OCR结果。该API无需云或外部依赖,所有处理都在本地开发或服务器环境中完成,确保数据安全。它支持PDF到Markdown的高精度转换,包括表格数据、数字或数学公式,并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外,该API还支持LLM改进OCR结果,去除PDF中的个人身份信息(PII),以及分布式队列处理和缓存。

  • 鲸语智客:AI加持的智能客服系统,实现7*24小时不间断服务

    鲸语智客是一款基于AI技术的智能客服系统,通过AIGC技术实现全天候无间断服务,降低运营成本,提升用户体验。产品背景信息显示,鲸语智客通过向量化和多种大模型问答体系简化集成流程,助力企业智能化服务升级。产品价格方面,提供不同套餐,如59元/月的不限数量不限场景智能客服机器人,以及109元永久有效的200万超长鲸币等。

  • Tencent-Hunyuan-Large:业界领先的开源大型混合专家模型

    Tencent-Hunyuan-Large(混元大模型)是由腾讯推出的业界领先的开源大型混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展,特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源,旨在激发更多研究者的创新灵感,共同推动AI技术的进步和应用。

  • MiniMates:轻量级图片数字人驱动算法,快速定制AI伙伴

    MiniMates是一款轻量级的图片数字人驱动算法,能够在普通电脑上实时运行,支持语音驱动和表情驱动两种模式。它比市面上的liveportrait、EchoMimic、MuseTalk等算法快10-100倍,让用户能够通过极少的资源消耗定制自己的AI伙伴。该技术的主要优点包括极速体验、个性化定制以及嵌入终端的能力,摆脱了对Python和CUDA的依赖。MiniMates遵循MIT协议,适用于需要快速、高效的人脸动画和语音合成的应用场景。

  • Rive Layouts:动态、适应性强的图形设计工具

    Rive Layouts是Rive推出的新功能,允许设计师和开发者创建动态的、适用于任何屏幕尺寸或设备的、生产就绪的图形。它结合了动态设计和响应式网页设计的原则,保留了Rive特有的流畅动画和交互性。Rive Layouts的重要性在于,它使得设计师可以在不牺牲创意的情况下,创建出适应不同设备和语言的响应式设计。

  • Cerebellum:使用AI驱动规划的浏览器自动化系统

    Cerebellum是一个轻量级的浏览器代理,通过键盘和鼠标动作在网页上实现用户定义的目标。它将网页浏览简化为导航有向图,使用大型语言模型(LLM)来分析页面内容和交互元素,决定下一步操作。Cerebellum以其创新的AI驱动自动化技术,提高了网页自动化任务的效率和准确性。目前,Cerebellum支持与任何Selenium支持的浏览器兼容,并能够使用用户提供的JSON数据填充表单。产品目前处于Beta阶段,免费提供给开发者和研究人员使用。

  • Red Panda AI:革命性的AI模型,排名第一的人工智能分析工具。

    Red Panda AI,也称为Recraft V3,是一个在人工智能分析领域排名第一的革命性AI模型。它超越了FLUX1.1、Midjourney和OpenAI等其他模型,在设计理解和视觉输出质量方面表现出色。Red Panda AI以其设计为中心的架构,提供了无与伦比的设计原则理解、视觉层次和构图能力。它能够智能地适应不同平台和用例,保持一致的品牌身份。产品的主要优点包括设计语言理解、风格一致性控制、上下文感知、专业设计质量、快速迭代和多格式掌握。

  • Digit Plexus:机器人硬件平台,集成传感器和末端执行器。

    Digit Plexus是一个机器人硬件平台,旨在为各种机器人手集成触觉传感器提供标准化的硬件-软件解决方案。该平台能够将基于视觉和基于皮肤的触觉传感器(如Digit、Digit 360和ReSkin)整合到控制板中,并通过单根电缆将所有数据编码传输到主机电脑。这种集成方式允许无缝的数据收集、控制和分析。产品背景信息显示,Digit Plexus与Wonik Robotics合作开发了基于该平台的下一代Allegro Hand,并且可以通过特定链接表达早期访问的兴趣。

  • PARTNR:多智能体任务规划与推理的基准测试

    PARTNR是由Meta FAIR发布的一个大规模基准测试,包含100,000个自然语言任务,旨在研究多智能体推理和规划。PARTNR利用大型语言模型(LLMs)生成任务,并通过模拟循环来减少错误。它还支持与真实人类伙伴的AI代理评估,通过人类在环基础设施进行。PARTNR揭示了现有基于LLM的规划器在任务协调、跟踪和从错误中恢复方面的显著局限性,人类能解决93%的任务,而LLMs仅能解决30%。

  • Sparsh:自监督触觉表示,用于基于视觉的触觉传感。

    Sparsh是一系列通过自监督算法(如MAE、DINO和JEPA)训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示,并在TacBench提出的下游任务中大幅度超越端到端模型,同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。

  • Digit 360:具有人类级别精度的人工触觉传感器

    Digit 360是由Meta FAIR发布的人工手指形状的触觉传感器,它能够以人类级别的精度数字化触觉。该传感器拥有超过18种独特的传感特性,允许研究人员结合使用各种传感技术或单独隔离信号进行深入分析。Digit 360在检测空间细节上达到了7微米,力量检测上达到了1毫牛,响应速度是人的30倍,为触觉传感技术树立了新的标准。

  • UndetectableGPT.ai:在线工具,将AI文本转换为类人内容,绕过AI检测器。

    UndetectableGPT.ai是一个在线工具,旨在将AI生成的文本转换成类人的写作风格,使其无法被AI检测器如GPTZero和ZeroGPT识别。这项技术的重要性在于它能够帮助用户保持内容的真实性,同时避免被AI检测器标记为机器生成。产品背景信息显示,该工具适用于需要让AI文本不可检测的各种写作任务,包括文章、博客、产品描述和社交媒体更新。UndetectableGPT.ai提供免费服务,定位于需要绕过AI检测器的用户群体。

  • MobileLLM-350M:高效优化的子十亿参数语言模型,专为设备端应用设计

    MobileLLM-350M是由Meta开发的自回归语言模型,采用优化的Transformer架构,专为设备端应用设计,以满足资源受限的环境。该模型整合了SwiGLU激活函数、深层薄架构、嵌入共享和分组查询注意力等关键技术,实现了在零样本常识推理任务上的显著准确率提升。MobileLLM-350M在保持较小模型尺寸的同时,提供了与更大模型相媲美的性能,是设备端自然语言处理应用的理想选择。

  • MobileLLM-125M:高效优化的小型语言模型,专为设备端应用设计。

    MobileLLM-125M是由Meta开发的自动回归语言模型,它利用优化的变换器架构,专为资源受限的设备端应用而设计。该模型集成了包括SwiGLU激活函数、深度薄架构、嵌入共享和分组查询注意力等多项关键技术。MobileLLM-125M/350M在零样本常识推理任务上相较于前代125M/350M SoTA模型分别取得了2.7%和4.3%的准确率提升。该模型的设计理念可有效扩展到更大模型,MobileLLM-600M/1B/1.5B均取得了SoTA结果。

  • Claude 3.5 Haiku:先进的编程、工具使用和推理能力的模型

    Claude 3.5 Haiku是Anthropic公司推出的最新最快的模型,它在编程、工具使用和推理任务上表现出色,并且价格亲民。该模型在速度上与Claude 3 Haiku相似,但在各项技能上都有提升,甚至在许多智能基准测试上超越了上一代最大的模型Claude 3 Opus。Anthropic公司致力于AI的安全性,Claude 3.5 Haiku在开发过程中经过了多语言和政策领域的广泛安全评估,增强了处理敏感内容的能力。

  • ComfyUI-MochiEdit:视频编辑工具,使用Genmo Mochi技术

    ComfyUI-MochiEdit是一个基于Genmo Mochi技术的视频编辑插件,允许用户通过ComfyUI界面对视频进行编辑。该插件的主要优点在于其能够利用先进的视频处理技术,提供给用户一个直观、易用的编辑环境。产品背景信息显示,它是由logtd和kijai共同开发,并且遵循GPL-3.0开源许可证。由于其开源特性,该插件可以免费使用,定位于需要视频编辑功能的专业用户或爱好者。

  • hertz-dev:开源的全双工音频生成基础模型

    hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型,拥有85亿参数。该模型代表了可扩展的跨模态学习技术,能够将单声道16kHz语音转换为8Hz潜在表示,具有1kbps的比特率,性能优于其他音频编码器。hertz-dev的主要优点包括低延迟、高效率和易于研究人员进行微调和构建。产品背景信息显示,Standard Intelligence致力于构建对全人类有益的通用智能,而hertz-dev是这一旅程的第一步。

今日大家都在搜的词: