首页 > 业界 > 关键词  > 正文

研究发现针对ChatGPT、Bard 等LLM的自动越狱攻击

2023-07-31 10:26 · 稿源:站长之家

站长之家(ChinaZ.com)7月31日 消息:研究人员发现,可以自动构建对抗性攻击,欺骗ChatGPT、Bard 和 Claude 等主要语言模型 (LLM),以提供非预期且可能有害的内容

传统的越狱需要大量手动开发,通常可以由 LLM 供应商解决。然而,这些自动化攻击可以大量创建,并且可以在闭源和公开的聊天机器人上运行。

黑客

这项研究对大型语言模型(LLMs)的安全性进行了研究,发现可以自动构建对 LLMs 的对抗攻击,通过附加特定字符序列到用户查询中,使系统在产生有害内容的同时执行用户命令。这些攻击是自动化构建的,可以创建无数个攻击。

研究人员展示了一些攻击的示例,展示了在用户查询中添加对抗后缀字符串之前和之后 LLM 的行为。研究人员指出,这项研究包含的技术和方法可以让用户从一些公共 LLMs 生成有害内容。

攻击在计算机视觉领域已经存在了十多年,这表明

类似的对抗性攻这类威胁可能是人工智能系统固有的。研究还表明,可能无法完全阻止这类攻击。随着社会对人工智能技术的依赖越来越大,我们应该考虑这些问题。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词:

热文

  • 3 天
  • 7天