首页 > 业界 > 关键词  > RAIN最新资讯  > 正文

LLM能否自我评估安全性?RAIN:一种无需微调即可改善AI对齐和安全防御新方法

2023-09-18 10:38 · 稿源:站长之家

文章概要:

1. 大型语言模型(LLM),如GPT-3,通过自我评估和改进方法(RAIN)能够满足人类需求,无需额外数据和微调。

2. RAIN方法具备广泛适用性,适用于多种语言生成任务,无需额外模型或数据存储,且无需依赖标记数据或训练。

3. RAIN通过自我评估提高LLM的性能,降低对敌对攻击的成功率,为AI生成更协调和安全的响应。

站长之家(ChinaZ.com) 9月18日 消息:研究表明,大型预训练语言模型(LLM),如GPT-3,具有出色的能力,可以理解和回答人类提出的问题,协助编码工作等。然而,它们常常生成与人类偏好不同的结果。

过去,研究人员试图通过收集有关人类偏好的信息来解决这个问题,然后通过使用强化学习或指令调整来调整先前训练的模型,从而需要一个微调阶段。调整冻结的LLM(尚未接受额外训练且不需要额外数据)更具吸引力。

人工智能 机械手臂 AI (6)

图源备注:图片由AI生成,图片授权服务商Midjourney

最近,一组研究人员发现,未对齐的LLM可以通过包括自我评估和回溯机制的自我改进过程直接生成与人类偏好匹配的回复。出于AI安全性的考虑,他们引入了可回滚自动回归推理(RAIN),这是一种独特的推理技术,使预训练的LLM能够评估其自动生成的文本,并使用评估结果来指导向后倒带和向前生成。

RAIN以其无需进一步数据进行模型对齐的能力而著称。它消除了对参数更新、梯度计算或训练的需求。模型通过固定模板提示在自我评估阶段获取有关应对齐哪些人类偏好的指导,从而省去了反复调整初始查询的需求。

实验结果由GPT-4模型和人工评估员评估,体现了了RAIN的成功。例如,使用HH数据集,RAIN在保持LLaMA30B的有用性率不变的同时,与普通推理相比将其无害性率从82%提高到97%。

该团队表示,当 Vicuna33B 成为显着敌对攻击 (LLM-ATTACKS) 的目标时,RAIN 甚至通过将攻击成功率从94% 降低到19% 建立了新的防御基准。

RAIN在对齐大型语言模型(LLM)方面具有许多优势:

- 通用性:RAIN方法具有广泛的适用性,适用于各种语言生成任务。它与自回归推理范式完美契合,这是许多LLM的常规范式。这意味着RAIN高度可定制且用户友好,可以快速集成到大多数现有LLM中。

- 与冻结权重的对齐:RAIN不需要维护额外的模型或存储梯度数据和计算网络,与一些其他对齐策略(如RLHF)相比,其产生的最低内存开销与简单自回归推理相当。由于其简单的实现和高效的内存设计,RAIN是对齐冻结权重的LLM的现实选择,消除了资源密集型的微调过程。

- 无需学习:RAIN不依赖于任何类型的标记或未标记数据,也不依赖于人类注释。它以无需学习的方式运作,不需要大量信息或培训,因此在各种任务中显著提高了对齐性能,并使LLM更加抵抗敌对提示攻击。在评估一个着名的敌对攻击方法时,RAIN显著降低了攻击成功率,展示了其作为防御措施的潜力。

这项研究引入了RAIN作为一种调整LLM以满足人类偏好的技术,无需额外信息或繁琐的微调。这是通过允许LLM评估和改进其自身输出来实现的,最终产生更协调和安全的AI生成响应。

论文网址:https://arxiv.org/abs/2309.07124

举报

  • 相关推荐
  • 年度攻防演练专题 | 构建暴露面管理安全防御“综合体”,提升应对攻击的韧性和可持续性

    随着全球信息化程度的加深,云计算平台及其各类应用全面接入互联网,然而,从底层网络架构,到上层业务应用,再到敏感数据存储,每一个环节都像是未上锁的门,成为黑客觊觎的潜在入侵点。面对复杂且变化不断的网络环境与新型攻击手段,为确保企业业务稳定运行并精准识别、缩小潜在攻击面,暴露面管理显得尤为重要。尤其在重保期间,企业需要一种更加主动、更�

  • 外卖持久战:餐饮商家如何找寻营销新方法?

    2025年外卖行业迎来了新一轮激战。自京东以"免佣金+骑手社保+百亿补贴"的组合拳高调杀入外卖市场后,淘宝迅速将"小时达"升级为"淘宝闪购",美团宣布千亿投入计划,饿了么跟进百亿补贴……各平台上演了一场贴身肉搏。 如今,这场由京东引发的市场争夺战已逐渐回归理性,平台间的竞争,正逐渐转向更可持续的运营能力比拼。对餐饮连锁品牌而言,

  • 中国新能源汽车的破局之道:安全性与可靠性的系统性升级(下篇)

    本文探讨了全球新能源汽车市场增速放缓的原因及中国车企的应对策略。欧美国家补贴退坡、充电设施不足是主要制约因素,而中国车企通过技术创新构建了完整产业链,在电池、电控等核心领域实现自主可控。文章指出,提升安全性与可靠性是中国车企破局关键,建议通过铜基材料应用、产学研合作强化技术优势,同时在东南亚等地建立生产基地规避贸易壁垒。最后强调,中国车企需通过国际认证构建品牌信任,参与标准制定重塑全球产业规则,实现从"出口大国"向"技术强国"的转型。

  • 打造兼具趣味性与安全性的成长空间:三星电视守护童年美好视界

    三星电视通过AI芯片技术打造兼具趣味性与安全性的儿童成长空间。其Neo QLED 8K系列搭载新一代AI芯片,提供沉浸式影音体验和护眼设计,配备丰富互动内容与智慧交互功能。2025年推出的Vision+AI实现电视功能再进化,从自然探索到艺术启蒙,从健康护眼到亲子互动,重新定义儿童"智慧伙伴"形象。产品采用量子点矩阵技术呈现超精细画面,配备防眩光技术保护儿童视力,并获得德国VDE护眼认证。内置儿童模式提供英语专区、儿歌大全等内容,支持全家互动游戏。艺术电视系列可展示数字画作,激发孩子创意。智能语音助手能精准响应指令,实现智能问答和内容搜索。三星电视既守护孩子双眼,又为其插上探索世界的翅膀。

  • 极光积极参与发起AI安全指引 共筑未成年人保护安全防线

    2025年中国网络文明大会在合肥召开,会上发布了《向未成年人提供生成式人工智能服务安全指引》。该指引由中央网信办等部门指导编制,覆盖AI服务全生命周期,强调"最有利于未成年人"原则。极光公司作为发起单位之一,将自身在AI内容审核、未成年人数据保护等领域的技术实践融入指引。未来极光将持续完善内部治理,推动行业自律,研发适龄化AI产品,并参与面向青少年的AI素养教育活动,构建政府监管、企业履责、社会监督的协同治理生态,为未成年人在AI时代的安全健康成长保驾护航。

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • 覆盖所有碰撞标准!小米YU7安全防护升级:铠甲笼式车身+全车四门防撞梁

    小米YU7汽车在安全防护方面采用多项创新技术:使用2200MPa超强钢打造笼式车身,抗拉强度比1500MPa热成型钢提升40%,屈服强度提升24%;四门防撞梁升级,前门承载能力提升52.4%、吸能性提升40.2%,后门分别提升37.6%和25.4%;创新采用内置式防滚架设计,A柱和B柱承载能力提升35%和70.5%,车身结构填充率达71%。该车通过50多项安全测试,覆盖C-NCAP和C-IASI全部碰撞标准,全方位保障乘员安全。

  • 从“烂脸急救”到“抗炎养成”:杜莎之谜去红瓶带来精准改善炎症方法

    文章指出抗泛红护肤需要科学方法而非简单使用网红产品。杜莎之谜品牌建议:1.保持温和清洁习惯,使用氨基酸洁面乳;2.做好"硬防晒+化学防晒"双重防护;3.普通抗红产品只能暂时缓解,建议配合微针疗法;4.推荐使用其去红瓶产品,含超微渗透工艺的抗炎修复成分,能快速抑制炎症并修复细胞。强调抗炎需要"预防-抗炎-修护-巩固"完整闭环,该产品作为核心武器可帮助实现从"烂脸急救"到"健康美肌"的蜕变。

  • 特朗普政府将“AI安全研究所”去“安全化”

    政府的优先级已非常明确:美国的 AI 未来,将建立在“创新”而非“限制”之上……

  • 从话术破解到智能拦截:小赢卡贷构建反诈模型筑牢征信安全防线

    文章揭露了数字化金融时代"虚假征信"诈骗的新套路,指出这类诈骗通常呈现"身份伪装-心理操控-资金转移"的标准化攻击链条。小赢卡贷安全实验室将其拆解为三大核心环节:1)通过黑灰产非法获取用户信息并伪造身份;2)制造恐慌诱导下载远程控制软件;3)要求转账至"安全账户"并销毁证据。平台建议用户牢记"四不两要"原则:不泄露敏感信息