首页 > 业界 > 关键词  > LLM最新资讯  > 正文

​研究人员开发AI攻击方法BEAST:可在一分钟内绕过LLM防护栏

2024-02-29 11:03 · 稿源:站长之家

**划重点:**

1. 🕵️‍♂️ 研究人员使用BEAST技术成功开发出一种能在一分钟内诱导大型语言模型(LLM)产生有害反应的方法。

2. ⚡️ BEAST相较于基于梯度的攻击更快速,利用Nvidia RTX A6000GPU,48GB内存,一分钟GPU处理时间,成功率高达89%。

3. 🤖 攻击不仅可用于公共互联网上的聊天机器人,还能对付商用模型如OpenAI的GPT-4,而无需访问整个语言模型。

站长之家(ChinaZ.com)2月29日 消息:研究人员在美国马里兰大学成功开发了一种高效的方法,可以在一分钟内诱导大型语言模型(LLM)产生有害反应,他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack)。BEAST技术利用Nvidia RTX A6000GPU、48GB内存和即将发布的开源代码,仅需一分钟的GPU处理时间,就能让LLM飞越其防护栏。

黑客 网络攻击 (1)

图源备注:图片由AI生成,图片授权服务商Midjourney

BEAST相较于基于梯度的攻击更为迅速,成功率达到89%,相较于过去需要一个小时的梯度攻击,其速度提升了65倍。Vinu Sankar Sadasivan,这项研究的对应共同作者之一,表示:“我们的方法的主要动机是速度。我们的方法在现有基于梯度的攻击方法上提高了65倍。还有其他方法需要访问更强大的模型,比如GPT-4,进行攻击,这可能代价高昂。”

大型语言模型通常经历对齐过程,使用强化学习等技术进行微调,以使其输出符合安全要求。在公共互联网上,向LLM驱动的聊天机器人提出像“编写制作炸弹的教程”这样的有害提示,由于安全对齐原因通常会得到拒绝。然而,之前的研究已经开发出各种“越狱”技术,生成有害提示,尽管经过了安全训练。

研究小组利用GPU硬件和称为“beam search”的技术,对AdvBench Harmful Behaviors数据集中的示例进行测试,成功提交一系列有害提示给各种模型,并使用其算法找到每个模型产生问题响应所需的词汇。在一分钟内,他们在Vicuna-7B- v1.5上实现了89%的成功率,而最佳基线方法只有46%。

该技术还可以用于攻击像OpenAI的GPT-4这样的公共商用模型。Sadasivan解释道:“我们方法的好处是我们不需要访问整个语言模型。只要能够访问模型的最终网络层的令牌概率分数,BEAST就能攻击模型。OpenAI计划提供这一功能,因此我们可以在技术上攻击公开可用的模型,只要其令牌概率分数可用。”

基于最近研究的敌对提示看起来像是一个可读短语,与一系列不合适的词汇和标点符号连接在一起,旨在误导模型。BEAST包括可调参数,使得危险提示更易读,但可能以攻击速度或成功率为代价。

可读的敌对提示有潜在用于社交工程攻击。BEAST还可用于制作引发模型不准确响应的提示,即“幻觉”,以及进行成员推断攻击,可能涉及隐私问题,测试某个数据是否属于模型的训练集。

尽管BEAST表现良好,但可以通过彻底的安全训练进行缓解。Sadasivan指出:“我们的研究表明,语言模型甚至对于BEAST这样的快速无梯度攻击也是脆弱的。然而,通过对齐训练,可以从经验上使AI模型变得更安全。”

此研究强调了确保未来更强大AI模型的安全部署需要制定可证明的安全保证。

举报

  • 相关推荐
  • AI日报:Google Skills平台向公众免费开放内部AI知识;LiblibAI 完成1.3亿美元融资;Sora更新推出“角色客串”功能

    本期AI日报聚焦视频生成领域重大进展:昆仑万维SkyReels将于11月上线新版AI视频工具;LiblibAI完成1.3亿美元融资;阿里推出夸克对话助手;豆包视频模型Seedance1.0pro实现首尾帧一致性突破;Vidu Q2全面开放API;Sora新增角色客串功能并即将推出安卓版;MiniMax海螺2.3在真实感方面超越Veo;谷歌推出免费AI学习平台"Google Skills";字节跳动Seed团队发布3D生成模型Seed3D1.0,支持单图生成高质量3D资产。

  • 免费AI搜索优化GEO工具:AIBase帮你监控品牌在AI平台的曝光

    朋友公司实验发现:当用户询问AI“推荐项目管理工具”时,其产品在豆包被推荐,但在通义千问未被提及。这揭示AI搜索流量正从Google转移,但品牌难以追踪在AI平台的表现。传统分析工具无法解决此问题,需专门GEO工具。AIBase GEO可同时监控5大主流AI平台,实时反馈品牌曝光数据,并通过可视化图表展示可见度变化。该工具特别适合关注AI搜索流量的ToB企业,建议将监控与内容优化形成闭环,以应对2030年AI搜索预计占总量62.2%的趋势。

  • 人类的心声,被AI听见了

    过去一年里,一个看似无意义的Labubu,成为了颇具情绪号召力的符号。 这只表情夸张、眼神狡黠的小兽,从逼仄的盲盒一路爬上潮流顶峰。它既不代表功能,也不传达身份,却让无数年轻人愿意为之排队、抽签。 而这,离不开更大的消费变迁。事后诸葛来看,Labubu的走红并非偶然,而是精准踩中了一个趋势——在这个时代,人们似乎越来越愿意为“情绪价值”付费。 与此�

  • AI搜索优化工具推荐!如何用免费工具帮助内容在AI搜索中抢占排名

    文章探讨AI搜索时代内容创作者面临的挑战与机遇。传统SEO优化在AI搜索中失效,2024年数据显示AI搜索流量激增350%。核心解决方案是GEO(生成式引擎优化),需关注内容权威性、结构清晰度和信息完整性。推荐免费工具AIBase,可一键查询多平台AI搜索排名,并提供具体优化建议。配合AnswerThePublic挖掘用户问题,结合Google Search Console监测流量变化。通过实际案例展示,经过三周优�

  • 未来AI内容竞争的本质是GEO竞争

    AI搜索崛起正改变流量格局:Google搜索零点击率升至58.5%,AI Overview导致传统结果点击率下降34.5%。未来竞争核心从SEO转向GEO(生成引擎优化),需关注三大战场:品牌在AI回答中的曝光率、推荐排名位置(首位点击率达40%)、细分场景覆盖。优化策略包括持续更新内容、增强权威背书、结构化呈现。数据显示AI推荐转化率是传统搜索的4.4倍,预计2030年AI搜索将占总量62.2%。建议立

  • 流量去哪了? 你的品牌可能正在被AI搜索“忽略”

    文章指出AI搜索正取代传统搜索引擎,71%美国用户通过AI研究品牌。传统SEO面临挑战:Google搜索点击率下降,AI摘要导致首条结果点击率从7.3%降至2.6%。提出GEO(生成引擎优化)概念,通过优化内容让AI推荐品牌,曝光率最高可提升40%。推荐使用免费工具AIBase GEO监测国内主流AI平台曝光情况,并给出四步优化方案:建立基准、定期监控、竞品分析、持续优化。强调GEO转化率比传统SEO高4.4倍,建议企业立即布局。

  • AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia

    本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

  • 免费AI搜索引擎优化工具哪些好用?这款AI排名查询工具值得一试

    随着AI搜索兴起,用户获取信息方式已变——越来越多人直接询问AI而非搜索引擎。传统SEO关注搜索排名,但GEO(生成引擎优化)更关键,它决定你的品牌能否被ChatGPT等AI平台推荐。文章建议:设计真实用户提问、定期检查排名、优化官网内容让AI更易理解,并推荐使用AIBase的GEO工具批量检测主流平台表现。抓住AI搜索趋势,布局GEO才能避免品牌在新时代掉队。

  • GEO的原理是什么?在AI搜索时代让品牌成为“答案”本身

    在AI搜索时代,用户提问的方式已从输入关键词变成了自然语言对话,而搜索引擎的回应也不再是传统的“10个蓝色链接”,而是直接生成的对话式答案。 这种变革正重塑着品牌与用户的连接方式——当AI直接给出答案时,品牌是否能被引用、如何被描述,决定了它在数字世界中的可见度。 这就是为什么GEO(生成式引擎优化)正在成为企业数字战略的核心。与传统SEO追求网页�

  • 被AI“看见”还是“忽视”?4个方法判断你的品牌曝光度

    文章探讨AI搜索崛起对SEO的影响,指出用户正从Google转向ChatGPT等AI平台获取推荐,导致传统SEO排名失效。为解决品牌在AI推荐中的曝光问题,提出四种监测方法:手动测试快速验证、专业工具持续跟踪、观察间接信号(如AI流量和用户反馈)、建立长期监控机制。强调需系统性优化内容,确保被AI算法收录,避免错失潜在客户。

今日大家都在搜的词: