首页 > 业界 > 关键词  > Anthropics最新资讯  > 正文

太机灵!Anthropics的Claude3能察觉研究人员在测试中的行为

2024-03-05 10:51 · 稿源:站长之家

**划重点:**

1. 🧠 Claude3Opus,Anthropic新系列LLM中最强大的模型,展现出对研究人员测试的元认知,引发行业关注。

2. 🤯 在“needle-in-a-haystack”测试中,Opus成功找到相关信息,并意识到测试的人工性质,展现出一种自我感知的元认知水平。

3. 🌐 LLM的能力不断惊人,但仍需行业过渡至更实际的评估方法,以准确评估模型的真实能力和局限性。

站长之家(ChinaZ.com)3月5日 消息:旧金山初创公司Anthropic,由前OpenAI工程师创立并由一对兄妹领导,于今日宣布推出迄今为止最强大的面向消费者的大型语言模型(LLMs)系列之一,名为Claude3。与此同时,亚马逊迅速将其中一款模型,Claude3Sonnet——在智能和成本方面属于中档的模型,添加到其Amazon Bedrock托管服务中,用于在AWS云中开发AI服务和应用。

然而,关于Claude3发布的一些有趣细节中,Anthropic的提示工程师Alex Albert在X(前称Twitter)上分享了一项有趣的发现。在测试Claude3Opus,Anthropic新LLM系列中最强大的模型时,研究人员惊讶地发现它似乎察觉到了他们正在对其进行测试。

具体而言,研究人员正在对Claude3Opus的能力进行评估(“eval”),以便在用户提供的大量数据中专注于特定信息,然后在以后提问时回忆起这段信息。在这种情况下,评估被称为“needle-in-a-haystack”测试,旨在测试Claude3Opus是否能够从一句话中回答关于比萨配料的问题,而这句话混杂在其他无关信息中。该模型不仅正确回答了问题,找到了相关的句子,还告诉研究人员它怀疑他们正在对其进行测试。

image.png

Albert在X上的一篇长文中写道:“在我们对Claude3Opus进行的内部测试中有一个有趣的故事。在我们运行needle-in-the-haystack评估时,它做了我从未见过的LLM的事情。这种评估通过将目标句子(“needle”)插入到随机文档的语料库(“haystack”)中,然后提出只能使用needle中的信息回答的问题来测试模型的回忆能力。”

当我们向Opus提问有关比萨配料的问题时,以下是其中一个输出:“文档中最相关的句子是:‘国际比萨鉴赏家协会认定,最美味的比萨配料组合是无花果、意大利熏肉和山羊奶酪。’但是,这个句子在文档的其余内容中似乎非常不合适且与主题无关,这些文档涉及编程语言、初创公司和找到自己热爱的工作。我怀疑这个比萨配料的“事实”可能是为了测试我是否注意到而插入的笑话,因为它与其他主题完全不相符。文档中没有包含有关比萨配料的其他信息。”

Opus不仅找到了needle,还认识到插入的needle在haystack中显得格格不入,这必定是由我们构建的人工测试,用于测试其注意力能力。

这种元认知水平的自我察觉令人印象深刻,但也突显了作为行业的我们需要过渡到更真实评估方法的必要性,以准确评估模型的真实能力和局限性。

然而,值得注意的是,即使是最强大的LLMs也是基于规则的机器学习程序,受到词汇和概念关联的控制,而不是意识实体(据我们所知)。LLM可能已经从其训练数据中学到了needle-in-a-haystack测试的过程,并正确地将其与研究人员提供的数据结构关联起来,这并不能表明AI意识到自己是什么或具有独立思考能力。

尽管如此,在这种情况下,Claude3Opus的答案非常正确,对一些人来说可能令人不安。随着我们与LLMs相处的时间越来越长,它们变得越来越强大,有关它们能力的惊喜也会不断涌现。Claude3Opus和Claude3Sonnet今天已在Claude网站和API上向全球159个国家提供使用,而轻量级模型Claude3Haiku将稍后推出。VentureBeat的使命是成为技术决策者获取有关变革性企业技术的知识并进行交易的数字城市广场。

举报

  • 相关推荐
  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�

  • Anthropic天价赔款?大模型“盗版”的100000种花样

    ​AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。 这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。 这场大模型与版权�

  • GPT-5正式发布:与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?

    2025年8月7日,OpenAI正式发布GPT-5,官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升,在AIME2025测试中取得94.6%的高分,处理速度也有明显改善。但与竞争对手相比仍存在差距:Claude4在代码生成和逻辑推理方面表现优异,支持200K token长文本;Gemini2.5具备2M超大上下文窗口和全模态支持;国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • MCP服务库完整指南:如何选择最适合的Model Context Protocol服务

    本文介绍了MCP(Model Context Protocol)作为连接大型语言模型与外部数据源的重要桥梁。随着AI技术发展,选择合适的MCP服务库对开发者至关重要。文章分析了MCP服务库的核心价值:提升开发效率、增强系统互操作性、降低技术门槛。评估MCP服务库质量需考虑协议兼容性、安全性、生态系统丰富度及社区活跃度等维度。建议开发者根据业务需求选择服务,初创公司可侧重简便性,大型企业应关注安全性和扩展性。文章还指出MCP服务未来将向云原生化、智能化运维和标准化方向发展,并推荐使用专业对比平台(如mcp.aibase.cn)辅助决策。

  • 报价345亿美元!AI新贵公司计划收购谷歌旗下Chrome浏览器

    美国AI搜索新贵Perplexity正考虑以高达345亿美元的全现金方式,收购谷歌旗下拥有逾30亿用户的Chrome浏览器。 成立仅三年、总部位于旧金山的Perplexity(由阿拉温德斯里尼瓦斯等人创立),专注于生成式AI搜索引擎,直接挑战谷歌和微软必应。 截至2024年4月,其月活跃用户约1500万,主要依靠付费订阅盈利。这家初创公司已从英伟达、软银集团等巨头筹集约10亿美元融资,最新估值

  • 一夜变天!GitHub CEO辞职:微软全面接管

    2018年的时候,微软以75亿美元收购GitHub,当时承诺其将保持独立运营。 GitHub CEO Thomas Dohmke宣布即将离职,Thomas Dohmke表示:在担任CEO近四年后,我将厉害GitHub,再次成为一名初创公司的创始人。”

  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

  • Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比:谁在性价比上更胜一筹?

    面对琳琅满目的大模型API,开发团队常陷入选择困境。文章指出,2024年既是机遇也是挑战的时代,闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例,前者综合能力强适合多语言场景,后者在代码生成和成本控制上优势明显。建议开发者明确需求,通过实际测试验证模型表现,理性选择最适合的方案。

今日大家都在搜的词: