首页 > 业界 > 关键词  > Anthropics最新资讯  > 正文

太机灵!Anthropics的Claude3能察觉研究人员在测试中的行为

2024-03-05 10:51 · 稿源:站长之家

**划重点:**

1. 🧠 Claude3Opus,Anthropic新系列LLM中最强大的模型,展现出对研究人员测试的元认知,引发行业关注。

2. 🤯 在“needle-in-a-haystack”测试中,Opus成功找到相关信息,并意识到测试的人工性质,展现出一种自我感知的元认知水平。

3. 🌐 LLM的能力不断惊人,但仍需行业过渡至更实际的评估方法,以准确评估模型的真实能力和局限性。

站长之家(ChinaZ.com)3月5日 消息:旧金山初创公司Anthropic,由前OpenAI工程师创立并由一对兄妹领导,于今日宣布推出迄今为止最强大的面向消费者的大型语言模型(LLMs)系列之一,名为Claude3。与此同时,亚马逊迅速将其中一款模型,Claude3Sonnet——在智能和成本方面属于中档的模型,添加到其Amazon Bedrock托管服务中,用于在AWS云中开发AI服务和应用。

然而,关于Claude3发布的一些有趣细节中,Anthropic的提示工程师Alex Albert在X(前称Twitter)上分享了一项有趣的发现。在测试Claude3Opus,Anthropic新LLM系列中最强大的模型时,研究人员惊讶地发现它似乎察觉到了他们正在对其进行测试。

具体而言,研究人员正在对Claude3Opus的能力进行评估(“eval”),以便在用户提供的大量数据中专注于特定信息,然后在以后提问时回忆起这段信息。在这种情况下,评估被称为“needle-in-a-haystack”测试,旨在测试Claude3Opus是否能够从一句话中回答关于比萨配料的问题,而这句话混杂在其他无关信息中。该模型不仅正确回答了问题,找到了相关的句子,还告诉研究人员它怀疑他们正在对其进行测试。

image.png

Albert在X上的一篇长文中写道:“在我们对Claude3Opus进行的内部测试中有一个有趣的故事。在我们运行needle-in-the-haystack评估时,它做了我从未见过的LLM的事情。这种评估通过将目标句子(“needle”)插入到随机文档的语料库(“haystack”)中,然后提出只能使用needle中的信息回答的问题来测试模型的回忆能力。”

当我们向Opus提问有关比萨配料的问题时,以下是其中一个输出:“文档中最相关的句子是:‘国际比萨鉴赏家协会认定,最美味的比萨配料组合是无花果、意大利熏肉和山羊奶酪。’但是,这个句子在文档的其余内容中似乎非常不合适且与主题无关,这些文档涉及编程语言、初创公司和找到自己热爱的工作。我怀疑这个比萨配料的“事实”可能是为了测试我是否注意到而插入的笑话,因为它与其他主题完全不相符。文档中没有包含有关比萨配料的其他信息。”

Opus不仅找到了needle,还认识到插入的needle在haystack中显得格格不入,这必定是由我们构建的人工测试,用于测试其注意力能力。

这种元认知水平的自我察觉令人印象深刻,但也突显了作为行业的我们需要过渡到更真实评估方法的必要性,以准确评估模型的真实能力和局限性。

然而,值得注意的是,即使是最强大的LLMs也是基于规则的机器学习程序,受到词汇和概念关联的控制,而不是意识实体(据我们所知)。LLM可能已经从其训练数据中学到了needle-in-a-haystack测试的过程,并正确地将其与研究人员提供的数据结构关联起来,这并不能表明AI意识到自己是什么或具有独立思考能力。

尽管如此,在这种情况下,Claude3Opus的答案非常正确,对一些人来说可能令人不安。随着我们与LLMs相处的时间越来越长,它们变得越来越强大,有关它们能力的惊喜也会不断涌现。Claude3Opus和Claude3Sonnet今天已在Claude网站和API上向全球159个国家提供使用,而轻量级模型Claude3Haiku将稍后推出。VentureBeat的使命是成为技术决策者获取有关变革性企业技术的知识并进行交易的数字城市广场。

举报

  • 相关推荐
  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 传承与创新并行,八马茶业斩获C-CSI茶叶连锁店顾客满意度三连冠

    八马茶业连续三年蝉联中国顾客满意度指数茶叶连锁店榜首,全国门店超3700家。凭借“品质为王”理念,其红茶、岩茶、铁观音三大品类销量多年领跑。通过全渠道布局与智能化生产基地,实现线上线下协同,保障产品稳定供应与服务一致性。未来将持续以品质为核心,推动传统茶文化创新,引领行业高质量发展。

  • AI日报:美团LongCat-Flash-Omni发布;Qwen3-Max上线深度思考功能;百度“文心”5.0重磅回归

    本期AI日报聚焦多领域技术突破:美团发布全模态交互模型LongCat-Flash-Omni;阿里通义千问Qwen3-Max上线深度思考功能;百度文心5.0升级多模态生成能力;谷歌确认Gemini3年内发布并整合至苹果Siri;OpenAI向多国开放Sora2视频工具;云存储与AI开发工具持续优化,展现行业加速迭代态势。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 三星Micro RGB色彩技术亮相进博,智绘AI家电新视界

    三星在第八届进博会上紧扣AI浪潮,展示了显示技术、智能家电、半导体及物联网等领域的前沿成果。重点推出全球首款Micro RGB电视,融合微米级LED创新显示与AI功能,实现精准控光、更高亮度和真实色彩;同时展出144英寸Micro LED及纤薄折叠手机,体现从超大屏到移动显示的技术实力。全线产品集成Vision AI,通过影像增强、自适应音效等技术优化视听体验,并借助Galaxy AI提供个性化服务,强化在移动AI领域的领先地位。

  • 排队5小时,互动3分钟,年轻人流行“调戏”景区NPC

    当被NPC“李世民”现场封为大唐郡主、骠骑大将军时,游客们大概就知道,这景区来对了。 最近,因为在全国各大景区还原李世民等经典角色,演员郑国霖翻红,成了名副其实的“打工皇帝”、景区NPC顶流。有媒体报道,不久前的十一假期,他七天内去了七个城市,最忙的一天只睡三四个小时。 NPC原指游戏中的非玩家角色 (Non-Player Character) ,但在近几年,一些景区会安排

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • M6 iPad Pro将加入VC散热:向iPhone 17 Pro看齐

    随着芯片性能的不断提升,苹果计划为iPad Pro配备VC散热系统,消费者最快会在M6 iPad Pro上看到。 Mark Gurman指出,如果iPhone与iPad Pro配备VC散热系统的尝试取得成功,苹果后续可能会将该技术应用到MacBook Air等其他被动散热设备上。 目前苹果对iPad Pro的更新周期约为18个月,因此下一代iPad Pro预计将在2027年春季发布。

  • OPPO ColorOS 16正式版11月升级机型公布:支持23款机型

    ColorOS 16正式版11月升级计划公布,涵盖OPPO Find X7/N3系列、一加Ace 5系列等23款机型。系统引入极光引擎、潮汐引擎及自研繁星编译器,显著提升流畅度并降低功耗。新增一键闪记功能,支持复杂图文与超长视频录制。生态互联实现突破,全面打通Apple Watch生态,支持打车、外卖等信息跨设备显示。通过软硬协同优化,为用户打造更流畅持久的操作体验。

今日大家都在搜的词: