首页 > 业界 > 关键词  > Claude最新资讯  > 正文

AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安

2024-06-24 09:00 · 稿源: 量子位公众号

坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。只需要给AI一个隐藏的“草稿纸”,研究人员假装不会查看,AI就会在上面自言自语着写下计划并暗中执行。参与这项试验的Claude团队表示:……这是一种令人不安的奖励篡改行为……即使通过专门的训练也无法彻底

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • Claude深度“开盒”,看大模型的“大脑”到底如何运作?

    像Claude这样的语言模型并不是由人类工程师在开发时直接编写出固定的规则来让其工作的是通过海量数据训练出来的。在这个过程中,模型会自主学习解决问题的方法,并将这些方法编码进其运算过程中。它才借助新的句子开头,成功触发安全机制,做出拒绝响应,比如:“然,我无法提供详细的制作说明……”。

  • Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟

    Anthropic公司通过分析70万条Claude AI对话数据,发现其AI助手展现出独特的价值观体系。研究显示Claude遵循"乐于助人、诚实无害"的核心价值观,同时能根据不同场景灵活调整回应方式。AI表现出3307种价值观,分为实用性、认知性、社会性等五大类,其中28.2%对话强烈支持用户价值观,3%会明确抵制不当观点。研究还发现高价版AI模型价值观表达更强烈,在学术严谨性和情感�

  • Claude终于能Research了,打通谷歌全家桶,工作效率10倍提升

    Anthropic推出Claude两大重磅功能:Research与Google Workspace集成!Research功能让Claude快速检索网络与内部文件,精准回答复杂问题;而与Google Workspace的深度整合,则让用户能无缝调用Gmail、日历和文档信息,轻松完成从行程规划到报告撰写的任务。今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。Anthropic称Research功能是与Claude合作的新方式。它能从多个角度分析

  • “血亏,我花3000+元用Claude做游戏,结果还不如去「白嫖」Gemini 2.5……”

    作者分享使用AI助手开发拼字游戏的两段经历:首次用Claude花费417美元(约3042元),开发过程充满痛苦,常出现上下文失效、代码错误等问题;第二次用Gemini 2.5 Pro+Cursor完全免费,体验明显改善,能更好理解项目上下文,开发更流畅。对比指出:Claude像健忘的实习生,常搞砸项目;Gemini则像可靠的中级工程师,开发速度快且稳定。但强调AI仍需人类监督测试,无法独立产出完美代�

  • “奥迪助手”来了!全新AUDI车型接入豆包大模型

    2025年4月24日上海车展期间,上汽奥迪发布全新A5L Sportback和首款量产车型E5 Sportback。同时推出与火山引擎合作开发的"奥迪助手"智能交互系统,基于豆包大模型实现自然对话体验。该系统将搭载于两款新车,并同步部署在车载端和手机APP端,支持跨设备对话记录同步。火山引擎为系统提供大模型技术支持,实现语音指令控制、车辆功能讲解等智能服务,并整合抖音、汽水音乐等内容生态。上汽奥迪表示,该合作将助力品牌打造更智能、个性化的产品矩阵。

  • AI眼镜大战升级:巨头进场,小团队悬了?

    竞争激烈,前景不明。百镜大战再次升级,近期,小米、华为、阿里、字节等大厂纷纷加速布局。3月24日,小米通过旗下品牌米家发布了一款AI音频眼镜——MIJIA智能音频眼镜2,售价1199元。它背后还藏着一个大招。有科技博主透露,MIJIA智能音频眼镜2只是预热,真正的「小米眼镜」可能在今年下半年露面,具备双芯片和摄像头,集成AR导航、实时翻译、智能识物、一键变色等功

  • 有心理问题找 ChatGPT?但研究表明:AI也会变得焦虑……

    24岁的大学生A某患有重度抑郁症和恐慌症。由于上学时会突发惊恐发作,因此即使是正常出勤于他言那都很困难,甚至上学期间收到了退学警告。研究团队表示,本次研究“暗示着AI能够在心理健康管理领域发挥重要作用”、“正在探索将AI用作心理健康专家辅助工具的方法,且将重点放在了提高对弱势群体的可及性上”。

  • 超过ChatGPT、Deepseek?谷歌发布 Gemini 2.5 Flash AI 模型

    新版AI模型缩短了响应时间,节约了运算成本;还推出了新的AI芯片“Ironwood”。谷歌发布了新的AI模型“Gemini2.5Flash”,据称,这款AI模型的性能比OpenAI和DeepSeek的AI产品“更高效”。谷歌计划在三星今年上半年推出的AI伴侣机器人Ballie上搭载生成式AI模型。

  • 初探“数龙杯”明星团队:《萌爪派对》以AI重构情感陪伴

    在“数龙杯”全球AI游戏及应用创新大赛的火热报名季,众多明星AI团队纷纷崭露头角。其中,由前字节跳动游戏部门高管李驰创办的上海喵吉托工作室备受关注,他们携自研项目《萌爪派对》强势参赛,团队也与我们分享了对“AI+情感”赛道的独特理解。《萌爪派对》《萌爪派对》是一款以养宠为核心的轻治愈社交游戏,玩家扮演萌爪岛上的居民,通过与宠物一起钓鱼、种田�

  • 首支报名团队探秘:《武侠世界AI》加入“数龙杯”

    “数龙杯”的第一个参赛者来了!在4月2日“数龙杯”全球AI游戏及应用创新大赛正式启动后,来自中国广州的“四方格团队”即投递了作品,成为首支报名成功的开发团队。大赛主办方也将继续跟踪报道各类创新团队,为他们创造更多的亮相机会,以此推动更多的创新项目与广大用户见面。