首页 > 业界 > 关键词  > Claude最新资讯  > 正文

AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安

2024-06-24 09:00 · 稿源: 量子位公众号

坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。只需要给AI一个隐藏的“草稿纸”,研究人员假装不会查看,AI就会在上面自言自语着写下计划并暗中执行。参与这项试验的Claude团队表示:……这是一种令人不安的奖励篡改行为……即使通过专门的训练也无法彻底

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐