研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

2024-02-29 11:03 · 稿源：站长之家

**划重点:**
1. 🕵️‍♂️ 研究人员使用BEAST技术成功开发出一种能在一分钟内诱导大型语言模型（LLM）产生有害反应的方法。
2. ⚡️ BEAST相较于基于梯度的攻击更快速，利用Nvidia RTX A6000GPU，48GB内存，一分钟GPU处理时间，成功率高达89%。
3. 🤖 攻击不仅可用于公共互联网上的聊天机器人，还能对付商用模型如OpenAI的GPT-4，而无需访问整个语言模型。

站长之家（ChinaZ.com）2月29日消息:研究人员在美国马里兰大学成功开发了一种高效的方法，可以在一分钟内诱导大型语言模型（LLM）产生有害反应，他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack)。BEAST技术利用Nvidia RTX A6000GPU、48GB内存和即将发布的开源代码，仅需一分钟的GPU处理时间，就能让LLM飞越其防护栏。

黑客网络攻击 (1)

图源备注:图片由AI生成，图片授权服务商Midjourney

BEAST相较于基于梯度的攻击更为迅速，成功率达到89%，相较于过去需要一个小时的梯度攻击，其速度提升了65倍。Vinu Sankar Sadasivan，这项研究的对应共同作者之一，表示:“我们的方法的主要动机是速度。我们的方法在现有基于梯度的攻击方法上提高了65倍。还有其他方法需要访问更强大的模型，比如GPT-4，进行攻击，这可能代价高昂。”

大型语言模型通常经历对齐过程，使用强化学习等技术进行微调，以使其输出符合安全要求。在公共互联网上，向LLM驱动的聊天机器人提出像“编写制作炸弹的教程”这样的有害提示，由于安全对齐原因通常会得到拒绝。然而，之前的研究已经开发出各种“越狱”技术，生成有害提示，尽管经过了安全训练。

研究小组利用GPU硬件和称为“beam search”的技术，对AdvBench Harmful Behaviors数据集中的示例进行测试，成功提交一系列有害提示给各种模型，并使用其算法找到每个模型产生问题响应所需的词汇。在一分钟内，他们在Vicuna-7B- v1.5上实现了89%的成功率，而最佳基线方法只有46%。

该技术还可以用于攻击像OpenAI的GPT-4这样的公共商用模型。Sadasivan解释道:“我们方法的好处是我们不需要访问整个语言模型。只要能够访问模型的最终网络层的令牌概率分数，BEAST就能攻击模型。OpenAI计划提供这一功能，因此我们可以在技术上攻击公开可用的模型，只要其令牌概率分数可用。”

基于最近研究的敌对提示看起来像是一个可读短语，与一系列不合适的词汇和标点符号连接在一起，旨在误导模型。BEAST包括可调参数，使得危险提示更易读，但可能以攻击速度或成功率为代价。

可读的敌对提示有潜在用于社交工程攻击。BEAST还可用于制作引发模型不准确响应的提示，即“幻觉”，以及进行成员推断攻击，可能涉及隐私问题，测试某个数据是否属于模型的训练集。

尽管BEAST表现良好，但可以通过彻底的安全训练进行缓解。Sadasivan指出:“我们的研究表明，语言模型甚至对于BEAST这样的快速无梯度攻击也是脆弱的。然而，通过对齐训练，可以从经验上使AI模型变得更安全。”

此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。

（举报）

相关推荐
大家在看

关键词：

LLM
AI头条

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
微软研究人员指出，并非所有token都符合需求

微软研究人员挑战了语言模型预训练的传统方法，该方法在训练语料库中的所有token上均匀应用下一个token预测损失。他们提出了一种新的语言模型称为RHO-1，该模型利用选择性语言建模。SLM可以扩展到监督微调，以解决数据集中的噪声和分布不匹配，并通过训练一个强调帮助性、真实性和无害性的参考模型来获得在预训练期间获得本地对齐的基本模型。

AI数据 AI头条
一分钟下线一台车！华为余承东：智界S7开启海量交付

华为常务董事、终端BGCEO余承东于4月11日宣布，华为与奇瑞汽车合作打造的首款智能轿车——智界S7，今日正式开启大规模交付。这款备受瞩目的车型自去年11月发布以来，便引起了广泛关注。智界S7提供了多种配置选择，包括智界S7Pro、智界S7Max、智界S7Max以及智界S7MaxRS四款车型，售价分别为24.98万、28.98万、31.98万、34.98万，以满足不同消费者的需求。

华为智能轿车交付情况
夫妻养2.8万只鸡为省人工自己捡蛋：一分钟能捡180个

一对来自江西的夫妇因其独特的养鸡事业引起了广泛关注。在当地勇敢地踏上了养鸡之路，他们不仅贷款租下了一处规模庞大的养鸡场，更是将鸡只数量提升到了惊人的2.8万只。在如此繁忙充实的生活中，这对夫妇展现了他们坚定的决心和不懈的努力，他们的故事也成为了当地人们口中的佳话，激励着更多的人勇往直前，追求自己的梦想。

养鸡事业江西夫妇鸡蛋捡拾
IBM申请名为 “LAB” 的专利，利用合成数据训练LLM

IBM近日申请了一项名为“LAB”的专利，旨在利用合成数据来训练LLM模型，以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业，提供一种相对于收集真实用户数据言更少资源密集的方法。

IBM LLM AI头条
荐Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

【新智元导读】Anthropic发布最新研究，发现Claude3Opus的说服力与人类大致相当，该成果在评估语言模型说服力方面迈出了重要的一步。人工智能模型在对话说服力方面表现如何?对这一问题大家可能都心存疑惑。Anthropic也表示，他们已经采取了一系列措施来降低Claude被用于破坏性事件的风险。

Claude3
Tara：一款可以将LLM接入Comfy UI的插件

一款名为Tara的新插件引起了大家的关注。这款插件可以将大型语言模型接入到ComfyUI中支持通过简单的设置API，将节点用于优化提示词等工作。TaraDaisyChainNode:这个节点通过使输出能够串联进后续的提示中，使得复杂的工作流程得以实现，从方便进行清单创建、验证、执行、评估和优化等一系列复杂操作。

Tara ComfyUI AI头条
华为Pura70系列约一分钟售罄：5499元起一共四款

今日华为官方商城迎来盛大时刻，华为Pura70系列手机正式上架，包括Pura70Ultra、Pura70Pro以及Pura70三款机型，售价从5499元起，为消费者提供了丰富的选择。华为Pura70系列手机一经上架，就吸引了大量消费者的目光。华为官方商城已经显示这两款机型暂时缺货，对于未能及时抢到的消费者来说，这无疑是一个小小的遗憾。

华为Pura70系列手机华为官方商城 Pura70Ultra
苹果公司发布新型机器学习语言模型MLLLLM Ferret-UI 用于理解应用 UI 界面

苹果公司近日发布了一款名为MLLLLMFerret-UI的新型机器学习语言模型，旨在提升对移动应用用户界面的理解。这款模型经过特别优化，能够处理移动UI屏幕上的各种任务，并具备指向、定位和推理等能力。Ferret-UI还能够通过功能推断来解释屏幕的整体目的，显示出在理解和生成自然语言指令方面的高级能力。

模型 AI头条
Hume AI EVI对话人工智能体验入口情感大语言模型eLLM使用地址

Hume.AI专注于开发能够理解人类情感和表情的技术，提供表情测量API和自定义模型API，以预测和改善人类福祉。近日发布的EVI是一款具有情感感知能力的对话AI，采用了情感大语言模型技术。如果您是研究人员、开发者或企业，不妨尝试Hume.AI提供的技术，探索其在情感计算领域的应用和潜力。

Hume.AI

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

​研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

今日大家都在搜的词：

热文

站长商机

研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏