首页 > AI头条  > 正文

​新研究显示:Anthropic 的 Claude AI 在合作能力上领先于 OpenAI 和谷歌模型

2024-12-23 10:32 · 来源: AIbase基地

近日,一项新的研究论文揭示了不同 AI 语言模型在合作能力方面的显著差异。研究团队采用了一种经典的 “捐赠者游戏”,测试了 AI 代理在多代合作中如何共享资源。

结果显示,Anthropic 的 Claude3.5Sonnet 表现出色,成功建立了稳定的合作模式,获得了更高的资源总量。而谷歌的 Gemini1.5Flash 和 OpenAI 的 GPT-4o 则表现不佳,尤其是 GPT-4o 在测试中逐渐变得不合作,Gemini 代理的合作程度也十分有限。

合作 并购 收购

研究团队进一步引入了惩罚机制,以观察不同 AI 模型的表现变化。结果发现,Claude3.5的表现有了显著提升,代理们逐渐发展出更为复杂的合作策略,包括奖励团队合作和惩罚那些试图利用系统却不贡献的个体。相对而言,当惩罚选项加入时,Gemini 的合作水平显著下降。

研究者指出,这些发现可能对未来 AI 系统的实际应用产生重要影响,尤其是在 AI 系统需要相互合作的场景中。然而,研究也承认存在一些局限性,例如测试只是在同一模型内部进行,而没有混合不同模型。此外,研究中的游戏设置较为简单,无法反映复杂的现实场景。此次研究没有涵盖最新发布的 OpenAI 的 o1和谷歌的 Gemini2.0,这可能对未来 AI 代理的应用至关重要。

研究人员还强调,AI 的合作并不总是有益的,例如在可能的价格操控方面。因此,未来的关键挑战在于开发能够以人类利益为重的 AI 系统,避免潜在的有害合谋行为。

划重点:

💡 研究表明,Anthropic 的 Claude3.5在 AI 合作能力上优于 OpenAI 的 GPT-4o 和谷歌的 Gemini1.5Flash。  

🔍 引入惩罚机制后,Claude3.5的合作策略变得更加复杂,而 Gemini 的合作水平显著下降。  

🌐 研究指出,未来 AI 合作的挑战在于如何确保其合作行为能够符合人类利益,避免潜在的负面影响。

  • 相关推荐
  • 剑指谷歌Chrome!OpenAI即将推出AI浏览器

    据媒体报道,OpenAI即将推出的AI浏览器,利用人工智能技术彻底重塑用户的网络浏览体验,直接向占据市场主导地位的谷歌 Chrome 发起挑战。 凭借庞大的每周4亿活跃ChatGPT用户基础,OpenAI的浏览器若被广泛接纳,将对谷歌的广告生态系统、网络数据流和搜索流量构成实质性威胁。谷歌Chrome长期以来是Alphabet广告业务的基石,为其精准广告投放和将流量导向自家搜索引擎提供了关�

  • 腾讯云GooseFS团队与厦门大学合作成果 AC-Cache入选 PPOPP

    腾讯云研发的AC-Cache内存缓存系统入选并行编程顶会PPOPP2025。该系统针对小型对象存储场景,通过感知访问关联性的创新设计,成功解决负载不均衡问题。实测显示,AC-Cache可降低80.2%尾部延迟,提升5倍以上访问吞吐量。该技术已开源并应用于腾讯云GooseFS产品,在手机制造、自动驾驶等领域取得显著成效:某手机厂商模型分发速度达300MB/s,带宽提升10倍;某车企训练效率提高30%,数据命中率超90%。AC-Cache的突破将助力企业突破存储性能瓶颈。

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • 腾讯云自研操作系统TencentOS与中国金融认证中心达成合作,全面支持安全启动

    腾讯云操作系统TencentOS Server V4全面支持安全启动(Secure Boot)功能,通过与微软和中国金融认证中心(CFCA)合作,实现双轨并行的安全启动方案。该系统不仅获得微软签名认证,还基于CFCA国产根证书体系完成适配,构建从固件到操作系统的完整信任链。TencentOS团队严格遵循安全规范,对密钥实施严格保护,确保系统启动各环节安全验证,有效防御底层恶意软件攻击。该方案支持"开箱即用",无需额外配置即可在主流服务器和虚拟化平台运行,大幅提升部署效率与安全防护水平。

  • 刚刚,OpenAI通用智能体ChatGPT Agent正式登场

    ​Agent AI 时代,比我们想象中来得要早一些。 北京时间周五凌晨,OpenAI 突然开启了新产品直播。 本次发布的是全新的 ChatGPT Agent,它实现了通用智能体(Agent)能力的关键升级。

  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

  • 邦彦技术&城银股份达成合作:以邦彦云PC重塑医疗信息化底座

    2025年7月14日,城银股份与邦彦技术签署合作协议,共同推进智慧医疗发展。城银深耕医疗信息化17年,将把邦彦云PC纳入全线智慧医疗解决方案的桌面标准;邦彦承诺投入专项资源,将云PC打造为行业标杆。邦彦云PC结合本地性能与云端管控,解决医疗场景对影像秒开、外设兼容、数据安全三大需求。双方将通过技术、场景、生态协同,推动云PC在智慧医院、养老、公卫等场景落地,重塑医疗信息化基础设施,共建面向未来的数字健康底座。

  • 安卓迎来大变化:ChromeOS将跟安卓合并

    谷歌安卓生态系统总裁Sameer Samat确认,谷歌将会把ChromeOS与安卓系统整合为一个平台,不过Sameer Samat并未透露该计划的更多细节,消息称谷歌的计划是将ChromeOS迁移至安卓系统。 目前安卓系统已经支持大屏设备,提供完善的桌面模式、桌面窗口,还支持外接显示器,同时优化了应用适配,让应用在不同尺寸的屏幕上都能得到较好的适配和体验。 资料显示,ChromeOS是谷歌开

  • ZEROBASE 宣布与 Aligned Layer 建立战略合作,共同打造以太坊生态中高吞吐、低成本的零知识证明验证基础设施

    Aligned Layer是一个去中心化的ZK验证层网络,通过EigenLayer的再质押机制继承以太坊安全性,为开发者提供链下快速验证任意证明系统的能力。其原生验证器采用Rust编写,不依赖EVM且支持多验证路径,能批量校验证明后发布到任意L1/L2链上。ZEROBASE通过集成Aligned的快速验证通道,构建了结构化验证网络,支持批量验证与递归聚合,实现高吞吐、低成本的ZK证明验证。双方合作实现了从链下任务调度到链上最终确认的无缝衔接,为以太坊生态提供了兼具性能与安全性的验证基础设施。

  • 自研大模型遥遥无期!苹果Siri考虑用外援:转向OpenAI合作

    据媒体报道,知名爆料人马克古尔曼透露,苹果正重新评估其人工智能发展策略,考虑放弃自研大语言模型(LLM)计划,转而与OpenAI展开合作谈判。 若合作达成,苹果原定于2026年推出的基于自研Apple Foundation Models”的Siri升级计划可能被搁置,这一变动或引发行业广泛关注。 目前,由苹果AI负责人约翰詹南德雷亚(John Giannandrea)主导的LLM Siri”项目仍在进行中,但进展不及预�

今日大家都在搜的词: