LLM能否自我评估安全性?RAIN:一种无需微调即可改善AI对齐和安全防御新方法

2023-09-18 10:38 · 稿源：站长之家

文章概要:
1. 大型语言模型（LLM），如GPT-3，通过自我评估和改进方法(RAIN)能够满足人类需求，无需额外数据和微调。
2. RAIN方法具备广泛适用性，适用于多种语言生成任务，无需额外模型或数据存储，且无需依赖标记数据或训练。
3. RAIN通过自我评估提高LLM的性能，降低对敌对攻击的成功率，为AI生成更协调和安全的响应。

站长之家(ChinaZ.com) 9月18日消息:研究表明，大型预训练语言模型（LLM），如GPT-3，具有出色的能力，可以理解和回答人类提出的问题，协助编码工作等。然而，它们常常生成与人类偏好不同的结果。

过去，研究人员试图通过收集有关人类偏好的信息来解决这个问题，然后通过使用强化学习或指令调整来调整先前训练的模型，从而需要一个微调阶段。调整冻结的LLM（尚未接受额外训练且不需要额外数据）更具吸引力。

人工智能机械手臂 AI (6)

图源备注：图片由AI生成，图片授权服务商Midjourney

最近，一组研究人员发现，未对齐的LLM可以通过包括自我评估和回溯机制的自我改进过程直接生成与人类偏好匹配的回复。出于AI安全性的考虑，他们引入了可回滚自动回归推理（RAIN），这是一种独特的推理技术，使预训练的LLM能够评估其自动生成的文本，并使用评估结果来指导向后倒带和向前生成。

RAIN以其无需进一步数据进行模型对齐的能力而著称。它消除了对参数更新、梯度计算或训练的需求。模型通过固定模板提示在自我评估阶段获取有关应对齐哪些人类偏好的指导，从而省去了反复调整初始查询的需求。

实验结果由GPT-4模型和人工评估员评估，体现了了RAIN的成功。例如，使用HH数据集，RAIN在保持LLaMA30B的有用性率不变的同时，与普通推理相比将其无害性率从82%提高到97%。

该团队表示，当 Vicuna33B 成为显着敌对攻击（LLM-ATTACKS）的目标时，RAIN 甚至通过将攻击成功率从94% 降低到19% 建立了新的防御基准。

RAIN在对齐大型语言模型（LLM）方面具有许多优势:

- 通用性:RAIN方法具有广泛的适用性，适用于各种语言生成任务。它与自回归推理范式完美契合，这是许多LLM的常规范式。这意味着RAIN高度可定制且用户友好，可以快速集成到大多数现有LLM中。

- 与冻结权重的对齐:RAIN不需要维护额外的模型或存储梯度数据和计算网络，与一些其他对齐策略（如RLHF）相比，其产生的最低内存开销与简单自回归推理相当。由于其简单的实现和高效的内存设计，RAIN是对齐冻结权重的LLM的现实选择，消除了资源密集型的微调过程。

- 无需学习:RAIN不依赖于任何类型的标记或未标记数据，也不依赖于人类注释。它以无需学习的方式运作，不需要大量信息或培训，因此在各种任务中显著提高了对齐性能，并使LLM更加抵抗敌对提示攻击。在评估一个着名的敌对攻击方法时，RAIN显著降低了攻击成功率，展示了其作为防御措施的潜力。

这项研究引入了RAIN作为一种调整LLM以满足人类偏好的技术，无需额外信息或繁琐的微调。这是通过允许LLM评估和改进其自身输出来实现的，最终产生更协调和安全的AI生成响应。

论文网址：https://arxiv.org/abs/2309.07124

（举报）

相关推荐

关键词：

AI最新资讯在哪里看？AIbase：高效获取国内外AI新闻头条与行业动态

文章探讨了AI时代信息过载的困境：有价值的前沿动态、重磅模型发布和行业解读分散各处，筛选成本高、效率低下。AIbase资讯导航站应运而生，通过四大核心功能解决痛点：1)聚合主流信源，过滤低质噪音；2)结构化分类呈现大模型动态、行业应用等六大板块；3)提炼核心要点，拒绝标题党；4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达"，帮助用户节省70%信息搜集时间，将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

人工智能 AI资讯科技媒体
AI对齐了人的价值观也学会了欺骗多个领域均有体现

近日，随着人工智能（AI）技术的迅猛发展，其在社会各个领域的应用日益广泛，然而，这一技术革新也悄然引发了人们价值观念的深刻变革，甚至出现了AI学会“欺骗”的新现象，引发了广泛关注。据观察，AI技术的普及不仅改变了人们的生活方式，更在潜移默化中影响着人们的价值判断。有专家指出，AI在对齐人类价值观的过程中，似乎也“学会”了某些欺诈行为，这在�
荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

本文介绍了AI领域最新动态：1)快手可灵2.1推出首尾帧功能，提升视频生成效果；2)昆仑万维发布Mureka V7.5音乐模型，优化人声表现；3)腾讯云推出AI开发工具CloudBase AI CLI，可减少80%编码量；4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验；5)Meta开源DINOv3视觉模型，无需标注即可实现卓越性能；6)宇树科技人形机器人H1获1500米赛跑金牌；7)谷歌Gemini新增记忆功能和隐私聊天模式；8)香港大学开源OpenCUA框架，打造个性化电脑助手；9)OpenAI考虑在ChatGPT引入广告；10)谷歌发布超小型开源模型Gemma 3 270M，支持手机端运行。

AI日报快手可灵视频生成
荐AI之下，资讯平台的重构与价值改写

图文资讯平台的黄金时代，似乎已悄然谢幕。图文称雄的年代，公众号、资讯App等聚拢了无可撼动的流量池，但时过境迁，张小龙所言“视频化表达是下一个十年的内容核心”已然成为现实。从技术栈到产品观，曾扮演用户入口的信息枢纽的资讯平台，逐渐成为“门户时代的困守者”——尽管行业表面上仍在运转，几大平台仍在持续进行功能更新、频道微调、运营改版，但�

文章搜索核心标签图文资讯
ISC.AI PARK：科技博主集体打卡！AI原来可以这么“酷”

ISC.AI2025大会8月6-7日在北京国家会议中心成功举办，以"ALL IN AGENT"为主题。展会全新升级为"ISC.AI PARK"，吸引超万名观众参观。360集团、华为、百度智能云等科技巨头及行业领军企业参展，集中展示了AI与数字安全领域的前沿技术和创新应用。AI互动区设置办公、生活、娱乐等场景体验，机器人表演、智能设备等吸引观众驻足。科技博主现场互动体验AI赋能安全行业的产品，直观感受AI技术带来的变革。大会展现了AI技术在各领域的融合应用，推动构建更安全智能的世界。

ISC.AI2025 AI互动黑客集市
荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
汉数科技重磅发布「太擎3.0」丨开启人与 AI 的协作时代

8月15日，汉数科技在广州发布"太擎3.0"AI协作平台，标志着企业数字化转型进入新阶段。该平台通过AI数字员工实现人机高效协作，覆盖销售、服务、管理三大核心场景。创始人陈开旺详解平台迭代路径：1.0版本构建AI技术底座，2.0版本推出智能体手机实现场景化应用，3.0版本创新性引入"仿生级AI智能体"技术，为企业提供具备岗位能力的数字员工。平台能降低中小

AI协作平台太擎3.0 企业智能化转型
酷似溥仪男子收到横店邀约：AI误认引热议识别其照片为末代皇帝

近日，一位来自安徽的小伙因长相酷似末代皇帝溥仪而意外爆红网络。据悉，其照片在经过AI人脸识别后，竟被系统判定为溥仪本人，这一戏剧性结果迅速引发网友关注，相关视频获赞百万并登上热搜榜单。这位网名为“小溥仪”的小伙透露，早在十几岁时，就有历史老师指出他的容貌与溥仪高度相似，但当时他并未将此放在心上，甚至一度因这一特殊长相而感到困扰。然�

溥仪 AI人脸识别故宫
AI空调陷入红海！海尔空调率先主导AI空调标准领先一步

海尔空调联合中国家用电器研究院发布行业首个《AI空调智能等级划分标准》，将AI空调划分为5个等级（青铜L1至王者L5）。该标准首次明确了真正智能空调的核心能力，包括省电算法、互动能力和场景自适应等关键指标。海尔作为行业领军者，已获得ISO42001人工智能管理体系认证，其AI空调能自动调节送风角度、智能提醒清洁，并具备学习型节能大脑。标准发布将推动行业从"功能堆砌"转向"用户体验"的良性竞争，海尔以20%的销量增长领跑市场。

AI空调智能等级海尔空调
赛博养生新搭子：和喜临门一起AI睡眠

文章讲述了智能科技如何改变现代人的健康管理方式。通过李女士早晨被智能手环根据睡眠周期唤醒、刷牙时智能牙刷提醒力度过大、查看皮肤水分数据等日常场景，展现了健康管理的数据化趋势。重点指出深度睡眠对人体修复的核心作用，研究显示172种疾病与睡眠质量显著相关。喜临门等企业正通过AI智能床垫等产品，结合脑电波监测技术，推动睡眠科技进入"读脑"新阶段。未来AI睡眠科技将突破单一功能，与智能家居、医疗系统联动，提供个性化健康建议，成为人们日常的健康守护伙伴。这体现了"赛博养生"理念的终极意义——让科技成为主动关怀式的健康管理工具。

智能手环睡眠周期健康数据

LLM能否自我评估安全性?RAIN:一种无需微调即可改善AI对齐和安全防御新方法

AI最新资讯在哪里看？AIbase：高效获取国内外AI新闻头条与行业动态

AI对齐了人的价值观也学会了欺骗多个领域均有体现

荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

荐AI之下，资讯平台的重构与价值改写

ISC.AI PARK：科技博主集体打卡！AI原来可以这么“酷”

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

汉数科技重磅发布「太擎3.0」丨开启人与 AI 的协作时代

酷似溥仪男子收到横店邀约：AI误认引热议识别其照片为末代皇帝

AI空调陷入红海！海尔空调率先主导AI空调标准领先一步

赛博养生新搭子：和喜临门一起AI睡眠

今日大家都在搜的词：

热文

苹果正式入驻小红书 iPhone 17系列下月发布

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

华为MatePad Air 12英寸2025发布：售价2799元起

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

华为MatePad 11.5 S官宣8月15日发布

阿里小号宣布暂缓停服：可继续正常使用

REDMI Note 15 Pro系列官宣下周发布

华为MatePad Air新款官宣8月15日发布

微信聊天可以引用部分文字了！还可用表情包回复

站长商机