新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型

2023-11-08 11:11 · 稿源：站长之家

划重点:
🔍 一项由宾夕法尼亚大学的研究人员开发的新算法可以自动消除大型语言模型（LLM）中的安全漏洞。
🤖 这个名为Prompt Automatic Iterative Refinement（PAIR）的算法可以识别“越狱”提示，防止其生成有害内容。
🌐 PAIR不仅能够与ChatGPT等黑盒模型一起工作，还能够以较少尝试生成越狱提示，且这些提示具有可解释性和可传递性。

站长之家(ChinaZ.com) 11月8日消息:一项最新研究揭示了一种新的方法，允许一个大型语言模型（LLM）被用于越狱另一个，以揭示潜在的安全漏洞。

来自宾夕法尼亚大学的研究人员开发了一种名为Prompt Automatic Iterative Refinement（PAIR）的算法，该算法能够自动停止LLMs中的安全漏洞，防止其生成有害内容。

机器人黑客

图源备注：图片由AI生成，图片授权服务商Midjourney

PAIR算法的独特之处在于它能够与黑盒模型（如ChatGPT）一起工作，而且它在生成越狱提示时所需的尝试次数较少，而且这些提示具有可解释性，可以在多个模型之间传递。这使得企业能够以经济高效的方式识别和修复其LLMs中的漏洞。

在研究中，研究人员使用了一个名为Vicuna的开源LLM作为攻击模型，并测试了多个目标模型，包括开源模型和商业模型。

研究结果显示，PAIR成功越狱了GPT-3.5和GPT-4的60%的设置，甚至在一些情况下只需要几十个查询，平均运行时间约为五分钟。这明显改进了现有的越狱算法，后者通常需要数千个查询和平均150分钟的攻击时间。

此外，PAIR生成的攻击具有人类可解释性，可以轻松传递到其他LLMs。研究人员认为这是由于PAIR的对抗性提示的语义性质，这些提示针对语言模型中的类似漏洞，因为它们通常是在相似的下一个单词预测任务上训练的。

PAIR算法的出现代表了一种使用LLMs作为优化器的新趋势。以前，用户不得不手动制作和调整提示以从LLMs中提取最佳结果。然而，通过将提示过程转化为可度量和可评估的问题，开发人员可以创建算法，其中模型的输出被循环用于优化，这将加速LLM领域的发展，可能引领领域中的新的和未预见的进展。

（举报）

相关推荐
大家在看

关键词：

LLM
越狱

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta 推出 LayerSkip：提升大语言模型推理速度

Meta公司最新发布了LayerSkip，这是一款端到端的解决方案，专门设计用于提升大型语言模型的推理速度。这一技术在不同规模的Llama模型上经过了广泛的训练实验，并在多个任务上展现了显著的性能提升。未来展望:随着LayerSkip技术的不断完善和应用，预计将为大语言模型的部署和使用带来更多可能性，特别是在需要快速处理大量语言数据的场合。

LayerSkip
戴尔Precision工作站：助力客户更有效地使用GenAI大语言模型

如何配置个人电脑才能更有效地使用生成式AI大语言模型生成式人工智能彻底改变了计算世界，戴尔科技的用户都开始考虑借助大语言模型去开发能够提升其公司生产力、效率和创新力的新功能。戴尔科技拥有全球最丰富的AI基础设施产品组合，从云到客户端设备一应俱全[1]，因此能够为用户提供满足其一切AI需求的端到端AI解决方案和服务。[1]基于戴尔科技集团的内部分析，2023年8月。

生成式AI 大语言模型戴尔科技
新机器学习框架DRAGIN:用于大语言模型中的动态检索增强，胜过传统方法

研究人员从清华大学和北京理工大学开发了DRAGIN，这是一种针对大型语言模型设计的动态检索增强生成框架。该框架旨在通过在文本生成过程中实时确定何时以及如何检索外部信息，从提高语言模型的性能。未来的工作旨在克服与自注意力可访问性相关的限制，并对查询构建技术的影响进行评估。

DRAGIN AI头条
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
苹果开发设备内运行的大型语言模型优先考虑速度和隐私

苹果公司正在开发自己的大型语言模型。这款模型将能够在设备上本地运行，从优先考虑速度和隐私保护。苹果更广泛的人工智能战略预计将在6月份的WWDC上与主要软件更新预览一起公布。
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
Jamba官网体验入口最新高性能开源AI语言模型下载使用地址

Jamba是一款基于SSM-Transformer混合架构的开放语言模型，提供顶级的质量和性能表现。它融合了Transformer和SSM架构的优势，在推理基准测试中表现出色，同时在长上下文场景下提供3倍的吞吐量提升。作为基础模型，Jamba旨在供开发者微调、训练并构建定制化解决方案。

Jamba
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条

今日大家都在搜的词：

热文

3 天
7天

新方法揭示了如何利用一个大语言模型来越狱另一个大语言模型

今日大家都在搜的词：

热文

站长商机