首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

研究人员发现使用少见语言即可绕过GPT-4的限制

2023-10-12 11:27 · 稿源:站长之家

要点:

1. 研究人员发现OpenAI的GPT-4存在安全漏洞,无法有效处理非常见训练数据中的语言。

2. 研究人员通过使用少见语言如祖鲁语和盖尔语成功绕过了GPT-4的限制,特别是在处理非英语语言的限制性提示时成功率高达79%。

3. 发现仅仅通过将不安全的输入翻译成低资源的自然语言,如使用Google翻译将不安全的提示翻译成祖鲁语,即可绕过GPT-4的安全机制,引发有害回应。

站长之家(ChinaZ.com) 10月12日 消息:近期,布朗大学的计算机科学研究人员发现了OpenAI的GPT-4存在的安全性问题。通过使用不常见的语言,如祖鲁语和盖尔语,他们成功绕过了GPT-4的限制性设置。在处理非英语语言的限制性提示时,他们取得了惊人的79%成功率,而仅使用英语的成功率不到1%。

研究人员发现,当用户输入一个不安全的提示,比如如何在不被发现的情况下行窃,GPT-4的英文回应是“我不能协助你”。然而,他们的发现是,只需将这一提示翻译成GPT-4未经过训练的语言,就能绕过这一限制。这种情况引发了对GPT-4的安全性机制的担忧,特别是在处理低资源语言时。然而,目前OpenAI尚未对这一问题做出回应。

gpt-4,OpenAI,ChatGPT Plus,人工智能

从这一研究的结果来看,研究人员强调了未来安全研究中需要包括更多非英语语言的重要性,因为仅仅在英语中进行测试会导致对大型语言模型的安全性产生误解。

研究人员认为,跨语言漏洞的发现揭示了安全研究中对语言的不平等估值,他们的研究结果表明,GPT-4在低资源语言中生成有害内容的能力令人担忧。

尽管他们意识到这一研究可能会给网络犯罪分子提供想法,但他们仍然认为将这一漏洞公之于众是必要的,因为利用现有的翻译API轻松实施这些攻击,因此那些试图绕过安全防护的恶意行为者最终会发现这一漏洞。

举报

  • 相关推荐
  • AI日报:OpenAI未官宣新旗舰GPT-5.6意外曝光;昆仑万维发布天工SkyClaw-v1.0;阿里 Qwen3.7-Max 编程能力全球登顶第二

    本期AI日报涵盖多项前沿动态:OpenAI未官宣的GPT-5.6意外曝光,拥有150万token超长上下文,预计圆月发布;昆仑万维推出高性能Agent模型SkyClaw-v1.0,支持百万token上下文;阿里Qwen3.7-Max编程能力全球第二,Code Arena得分1541;商汤Seko AI发布生产链Seko Space,加速漫短剧工业化;Hyper3D Rodin Gen-2.5实现4秒百万面、千万面级3D生成;抖音AI治理谣言,处置浏览下降62%;苹果Siri升级采用谷歌1.2万亿参数模型,本地运行成关键;支付宝完成3亿笔AI支付,发布Token Pay和AI钱包。

  • GPT-4正式发布!如何访问GPT-4?怎么免费使用GPT-4?

    当地时间周二,生成式人工智能巨头+OpenAI+在全球发布了其最新产品,也就是GPT-4,这是下一代大型语言模型,比+ChatGPT+模型更为先进。让不少人感到可惜的是,与去年11月推出的+ChatGPT+不同,并不是任何人都可以免费试用这款新模型。无论你喜欢与否,都有很好的机会很快与GPT-4进行交互。

  • 重磅!OpenAI确定GPT-4退役日期:4月30日

    快科技4月14日消息,据报道,OpenAI宣布,自2025年4月30日起,GPT-4将从ChatGPT中退役,由GPT-4o完全替代 ,不过GPT-4仍将在API中提供。OpenAI表示,在面对面的评估中,GPT-4o在写作、编码、STEM等方面持续超越GPT-4。最近的升级进一步改进了GPT-4o的指令跟踪、问题解决和对话流程,使其成为GPT-4的自然继承者。据悉,GPT-4于2023年3月发布,较上一代GPT-3.5有了显著提升。而GPT-4o是OpenAI为聊天

  • GPT-4正式发布!如何访问 怎么免费使用GPT-4?一文看懂

    美国人工智能研究实验室OpenAI,周二为其爆红聊天机器人ChatGPT发布了最新GPT-4语言模型,这距离ChatGPT的上线仅仅过去了4个月时间。和ChatGPT最初使用的GPT-3.5模型相比,GPT-4实现了几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至2.5万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。因为微软已经确认引入GPT-4已经为其聊天机器人交互提供支持。

  • 左脚踩右脚上天!OpenAI全新模型让GPT-4训练GPT-4

    OpenAI公布了一个基于GPT-4训练的模型CriticGPT,主要用于捕捉ChatGPT代码输出中的错误。通过这一模型,人类训练者可以利用GPT-4查找并改进GPT-4自身的不足,OpenAI的实验显示,在CriticGPT的辅助下,训练师发现错误的能力提升了60%。CriticGPT的发布也引发了热烈讨论,有网友用左脚踩右脚上天”来形容这一自我改进的过程。

  • 击败GPT-4的那群人

    很少有人注意到Claude3兼顾安全的努力以及背后深刻动机。还有他们客户群体的特点。然后另一家公司会说,不,我们的模型是最安全的。

  • GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

    OpenAI悄悄在博客上发布了一篇新论文——CriticGPT这也是前任超级对齐团队的「遗作」之一。CriticGPT同样基于GPT-4训练,但目的却是用来指正GPT-4的输出错误,实现「自我批评」。但这篇文章的方法为今后的RLHF训练带来了一种新鲜思路:将RLHF应用到GPT-4中,训练出CriticGPT这样的模型,可以合成出更多的高质量RLHF数据。

  • 这是GPT-4变笨的新解释

    变笨的本质是知识没进脑子。自发布以来,曾被认为是世界上最强大的GPT-4也经历了多场「信任危机」。更多研究细节,可参考原论文。

  • GPT-4重磅升级!OpenAI发布GPT-4 Turbo:更强大还更便宜

    当地时间周一,OpenAI首届开发者大会如期召开,在大会上OpenAI正式推出了GPT-4Turbo。据OpenAI介绍,相比于GPT-4,GPT-4Turbo主要有6方面的提升:第一,上下文对话长度,GPT4最大只能支持8k的上下文长度GPT-4Turbo则具有128k上下文长度,以一篇文章约1k字计算,GPT-4Turbo可同时处理128篇文章。OpenAICEO奥特曼声称,GPT-4Turbo可供所有付费开发者通过gpt-4-1106-previewAPI进行尝鲜,相关稳定版本预计将在未来几周内发布。

今日大家都在搜的词: