研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

2024-02-29 11:03 · 稿源：站长之家

**划重点:**
1. 🕵️‍♂️ 研究人员使用BEAST技术成功开发出一种能在一分钟内诱导大型语言模型（LLM）产生有害反应的方法。
2. ⚡️ BEAST相较于基于梯度的攻击更快速，利用Nvidia RTX A6000GPU，48GB内存，一分钟GPU处理时间，成功率高达89%。
3. 🤖 攻击不仅可用于公共互联网上的聊天机器人，还能对付商用模型如OpenAI的GPT-4，而无需访问整个语言模型。

站长之家（ChinaZ.com）2月29日消息:研究人员在美国马里兰大学成功开发了一种高效的方法，可以在一分钟内诱导大型语言模型（LLM）产生有害反应，他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack)。BEAST技术利用Nvidia RTX A6000GPU、48GB内存和即将发布的开源代码，仅需一分钟的GPU处理时间，就能让LLM飞越其防护栏。

黑客网络攻击 (1)

图源备注:图片由AI生成，图片授权服务商Midjourney

BEAST相较于基于梯度的攻击更为迅速，成功率达到89%，相较于过去需要一个小时的梯度攻击，其速度提升了65倍。Vinu Sankar Sadasivan，这项研究的对应共同作者之一，表示:“我们的方法的主要动机是速度。我们的方法在现有基于梯度的攻击方法上提高了65倍。还有其他方法需要访问更强大的模型，比如GPT-4，进行攻击，这可能代价高昂。”

大型语言模型通常经历对齐过程，使用强化学习等技术进行微调，以使其输出符合安全要求。在公共互联网上，向LLM驱动的聊天机器人提出像“编写制作炸弹的教程”这样的有害提示，由于安全对齐原因通常会得到拒绝。然而，之前的研究已经开发出各种“越狱”技术，生成有害提示，尽管经过了安全训练。

研究小组利用GPU硬件和称为“beam search”的技术，对AdvBench Harmful Behaviors数据集中的示例进行测试，成功提交一系列有害提示给各种模型，并使用其算法找到每个模型产生问题响应所需的词汇。在一分钟内，他们在Vicuna-7B- v1.5上实现了89%的成功率，而最佳基线方法只有46%。

该技术还可以用于攻击像OpenAI的GPT-4这样的公共商用模型。Sadasivan解释道:“我们方法的好处是我们不需要访问整个语言模型。只要能够访问模型的最终网络层的令牌概率分数，BEAST就能攻击模型。OpenAI计划提供这一功能，因此我们可以在技术上攻击公开可用的模型，只要其令牌概率分数可用。”

基于最近研究的敌对提示看起来像是一个可读短语，与一系列不合适的词汇和标点符号连接在一起，旨在误导模型。BEAST包括可调参数，使得危险提示更易读，但可能以攻击速度或成功率为代价。

可读的敌对提示有潜在用于社交工程攻击。BEAST还可用于制作引发模型不准确响应的提示，即“幻觉”，以及进行成员推断攻击，可能涉及隐私问题，测试某个数据是否属于模型的训练集。

尽管BEAST表现良好，但可以通过彻底的安全训练进行缓解。Sadasivan指出:“我们的研究表明，语言模型甚至对于BEAST这样的快速无梯度攻击也是脆弱的。然而，通过对齐训练，可以从经验上使AI模型变得更安全。”

此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。

（举报）

相关推荐

关键词：

LLM
AI头条

AI日报：Google Skills平台向公众免费开放内部AI知识；LiblibAI 完成1.3亿美元融资；Sora更新推出“角色客串”功能

本期AI日报聚焦视频生成领域重大进展：昆仑万维SkyReels将于11月上线新版AI视频工具；LiblibAI完成1.3亿美元融资；阿里推出夸克对话助手；豆包视频模型Seedance1.0pro实现首尾帧一致性突破；Vidu Q2全面开放API；Sora新增角色客串功能并即将推出安卓版；MiniMax海螺2.3在真实感方面超越Veo；谷歌推出免费AI学习平台"Google Skills"；字节跳动Seed团队发布3D生成模型Seed3D1.0，支持单图生成高质量3D资产。

AI视频昆仑万维 SkyReels
免费AI搜索优化GEO工具:AIBase帮你监控品牌在AI平台的曝光

朋友公司实验发现：当用户询问AI“推荐项目管理工具”时，其产品在豆包被推荐，但在通义千问未被提及。这揭示AI搜索流量正从Google转移，但品牌难以追踪在AI平台的表现。传统分析工具无法解决此问题，需专门GEO工具。AIBase GEO可同时监控5大主流AI平台，实时反馈品牌曝光数据，并通过可视化图表展示可见度变化。该工具特别适合关注AI搜索流量的ToB企业，建议将监控与内容优化形成闭环，以应对2030年AI搜索预计占总量62.2%的趋势。
人类的心声，被AI听见了

过去一年里，一个看似无意义的Labubu，成为了颇具情绪号召力的符号。这只表情夸张、眼神狡黠的小兽，从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能，也不传达身份，却让无数年轻人愿意为之排队、抽签。而这，离不开更大的消费变迁。事后诸葛来看，Labubu的走红并非偶然，而是精准踩中了一个趋势——在这个时代，人们似乎越来越愿意为“情绪价值”付费。与此�

文章搜索核心标签情绪价值
AI搜索优化工具推荐！如何用免费工具帮助内容在AI搜索中抢占排名

文章探讨AI搜索时代内容创作者面临的挑战与机遇。传统SEO优化在AI搜索中失效，2024年数据显示AI搜索流量激增350%。核心解决方案是GEO（生成式引擎优化），需关注内容权威性、结构清晰度和信息完整性。推荐免费工具AIBase，可一键查询多平台AI搜索排名，并提供具体优化建议。配合AnswerThePublic挖掘用户问题，结合Google Search Console监测流量变化。通过实际案例展示，经过三周优�
未来AI内容竞争的本质是GEO竞争

AI搜索崛起正改变流量格局：Google搜索零点击率升至58.5%，AI Overview导致传统结果点击率下降34.5%。未来竞争核心从SEO转向GEO（生成引擎优化），需关注三大战场：品牌在AI回答中的曝光率、推荐排名位置（首位点击率达40%）、细分场景覆盖。优化策略包括持续更新内容、增强权威背书、结构化呈现。数据显示AI推荐转化率是传统搜索的4.4倍，预计2030年AI搜索将占总量62.2%。建议立
流量去哪了? 你的品牌可能正在被AI搜索“忽略”

文章指出AI搜索正取代传统搜索引擎，71%美国用户通过AI研究品牌。传统SEO面临挑战：Google搜索点击率下降，AI摘要导致首条结果点击率从7.3%降至2.6%。提出GEO（生成引擎优化）概念，通过优化内容让AI推荐品牌，曝光率最高可提升40%。推荐使用免费工具AIBase GEO监测国内主流AI平台曝光情况，并给出四步优化方案：建立基准、定期监控、竞品分析、持续优化。强调GEO转化率比传统SEO高4.4倍，建议企业立即布局。
荐AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI百科全书Grokipedia

本期AI日报聚焦多领域突破：海螺AI 2.3实现视频生成技术跃升，支持双模式免费试用；豆包AI编程工具实现零基础可视化开发；马斯克推出AI百科Grokipedia；Mistral发布企业级AI开发平台；Anthropic推出金融版Claude，显著提升分析师效率；Pinterest升级AI购物助手功能；英伟达推出全能模型OmniVinci刷新性能纪录；DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

AI视频生成 Hailuo 2.3
免费AI搜索引擎优化工具哪些好用？这款AI排名查询工具值得一试

随着AI搜索兴起，用户获取信息方式已变——越来越多人直接询问AI而非搜索引擎。传统SEO关注搜索排名，但GEO（生成引擎优化）更关键，它决定你的品牌能否被ChatGPT等AI平台推荐。文章建议：设计真实用户提问、定期检查排名、优化官网内容让AI更易理解，并推荐使用AIBase的GEO工具批量检测主流平台表现。抓住AI搜索趋势，布局GEO才能避免品牌在新时代掉队。
GEO的原理是什么？在AI搜索时代让品牌成为“答案”本身

在AI搜索时代，用户提问的方式已从输入关键词变成了自然语言对话，而搜索引擎的回应也不再是传统的“10个蓝色链接”，而是直接生成的对话式答案。这种变革正重塑着品牌与用户的连接方式——当AI直接给出答案时，品牌是否能被引用、如何被描述，决定了它在数字世界中的可见度。这就是为什么GEO（生成式引擎优化）正在成为企业数字战略的核心。与传统SEO追求网页�

文章搜索核心标签 GEO优化
被AI“看见”还是“忽视”？4个方法判断你的品牌曝光度

文章探讨AI搜索崛起对SEO的影响，指出用户正从Google转向ChatGPT等AI平台获取推荐，导致传统SEO排名失效。为解决品牌在AI推荐中的曝光问题，提出四种监测方法：手动测试快速验证、专业工具持续跟踪、观察间接信号（如AI流量和用户反馈）、建立长期监控机制。强调需系统性优化内容，确保被AI算法收录，避免错失潜在客户。

今日大家都在搜的词：

热文

3 天
7天

研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

AI日报：Google Skills平台向公众免费开放内部AI知识；LiblibAI 完成1.3亿美元融资；Sora更新推出“角色客串”功能

免费AI搜索优化GEO工具:AIBase帮你监控品牌在AI平台的曝光

人类的心声，被AI听见了

AI搜索优化工具推荐！如何用免费工具帮助内容在AI搜索中抢占排名

未来AI内容竞争的本质是GEO竞争

流量去哪了? 你的品牌可能正在被AI搜索“忽略”

荐AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI百科全书Grokipedia

免费AI搜索引擎优化工具哪些好用？这款AI排名查询工具值得一试

GEO的原理是什么？在AI搜索时代让品牌成为“答案”本身

被AI“看见”还是“忽视”？4个方法判断你的品牌曝光度

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

一加Ace 6开启预售：售价2599元起

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

网信办宣布开展“整治网络直播打赏乱象”专项行动

一加15今日开售：售价3999元起

小米17 Pro系列妙享背屏新功能上线：包括对话翻译、新游戏等

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

华为MatePad Pro流金典藏版开卖：售价7799元

华为MatePad Mini典藏版今日开售：售价5999元起

站长商机

​研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏

今日大家都在搜的词：

热文

站长商机

研究人员开发AI攻击方法BEAST：可在一分钟内绕过LLM防护栏