首页 > 业界 > 关键词  > AI最新资讯  > 正文

刚刚,OpenAI开源PaperBench,重塑AI Agent评测

2025-04-03 08:45 · 稿源: AIGC开放社区公众号

今天凌晨1点,OpenAI开源了一个全新的AI Agent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。根据OpenAI公布的测试数据显示,目前知名大模型

......

本文由站长之家合作伙伴自媒体作者“AIGC开放社区公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 未来智能发布viaim讯飞智能体耳机:迈出“AI Agent”战略第一步

    5月20日,AI硬件公司未来智能推出viaim讯飞智能体耳机,标志着软件系统与功能模块的全面迭代。CEO马啸称这不仅是新功能,更是新范式。产品引入“项目”功能,可集中管理多录音和文档,实现从单次内容处理到推进完整任务的升级。同时,AI助理具备“自省”和“解决方案”技能,能主动理解并产出成果。支持外部音频和文档上传,构建跨来源信息汇聚焦点。全球市场验证了从工具到Agent的跃迁,2025年国内门店超3500家,出货量破25万件。

  • AI日报:腾讯发布设计智能体Ardot;千问5月20日将发布重大模型;OpenAI推出ChatGPT个人理财工具

    本期AI日报聚焦八大热点:腾讯发布AI设计平台Ardot,一句话生成可编辑设计稿并一键转代码;通义千问“重量级”大模型将于5月20日阿里云峰会亮相,实现全面升级;AI大模型在基层警务中落地,豆包助力破获柴油盗窃案;Google I/O大会将推出Gemini 4.0等创新产品;索尼澄清Xperia 1XIII的AI相机助手仅提供拍摄建议;OpenAI推出ChatGPT个人理财工具,结合GPT-5.5支持连接银行账户;中国大模型周调用量连续三周超越美国,腾讯Hy3 preview以2.66万亿Token领先;红果短剧回应取消AI仿真人剧本保底传闻,称部分剧本仍保留保底政策。

  • 为Agent而生!阿里云全新AI产品官网千问云上线 模型服务全量 Skill/CLI 化

    今日,在2026阿里云峰会上,阿里云发布为Agent而生的全新AI产品官网千问云”(www.qianwenai.com),提供Qwen、GLM、Kimi、DeepSeek、Wan、HappyHorse等150多款主流模型API ,并将模型服务的核心能力封装为Skills和CLI工具,可让Agent工具高效地用模型和开发AI应用。 据介绍,千问云网站从原子能力到交互逻辑实现了全面重构。 千问云的UI设计以及功能模块更加简洁,在模型选择和模型调用环

  • 前端铺开智能体,后端猛砸TPU:直击谷歌I/O大会

    ​曾经号称“看不懂AI”的伯克希尔,开始加仓AI。 谷歌,就成了Q1伯克希尔大量加持的其中一家AI公司。一季度,伯克希尔增持谷歌母公司Alphabet的A类股3640万股,环比激增约204%,持仓市值增至156亿美元。 投资公司们的热钱开始翻倍投入谷歌的同时,谷歌也用真实数据展示了一件事——当AI真正开始为普通人所用时,它的增长曲线能飞得多漂亮。 “两年前,我们每月处理的�

  • 未来智能完成亿元级A+轮融资,与传音合作打造下一代AI Agent硬件

    2026年5月8日,AI硬件公司未来智能完成亿元级A+轮融资,传音参与投资并达成战略合作。双方将整合未来智能在AI算法、可穿戴硬件研发及场景化数据沉淀方面的能力,与传音在消费电子产业链、全球渠道及规模化制造上的优势,共同推动具备自主感知、决策与执行能力的下一代AI Agent硬件产品研发与落地。耳机因其全天候、低延迟、高隐私及随身性,正成为个人AI的最佳入口。未来智能已积累超150万全球注册用户,覆盖200多个国家和地区,其场景化数据沉淀成为训练Agent能力的核心资产。本轮融资将重点用于人才投入、生态建设及上游供应链拓展,加速AI Agent从会议室走向全球用户日常。

  • OpenAI成立OpenAI部署公司:帮助企业构建人工智能系统

    OpenAI正式成立OpenAI 部署公司”,在帮助企业构建人工智能系统。 同时,OpenAI已同意收购Tomoro一家专注于将AI转化为运营优势的应用 AI 咨询与工程公司。 新成立的部署公司由OpenAI控股,无论客户是与OpenAI、OpenAI部署公司,还是与两者同时合作,都将获得统一的服务体验。

  • 2026年企业级智能体开发平台推荐:AIAgent价值及应用深度报告

    甲子光年2025年7月发布的《企业级AI Agent价值及应用报告》指出,AI已从“聊天助手”进化为“会主动干活的数字员工”,成为企业数字化转型的真正生产力引擎。报告从技术成熟(大模型、算力、开源生态)、市场需求(企业从PoC转向生产级应用)两方面分析了AI Agent兴起背景,强调其“自主规划+工具调用”能力。报告详细阐述了企业级Agent的核心在于“可靠落地”,需具备高可用性、可扩展性、系统集成及安全合规能力,并覆盖金融、制造、医疗、营销等行业的落地案例。最后,报告提供了从试点到规模化的实践路径,并预测市场将高速增长,多Agent协同、价值创新及安全将成为未来核心趋势。

  • 豆包付费是字节整理Agent生态的开始

    这是《窄播weekly》的第89期,本周我们关注的商业动态是:豆包开始筹划付费,国内头部AI助手的竞争要从免费的Chatbot阶段进入到付费的Agent阶段了。 5月4日,豆包的App Store页面出现了订阅服务声明,在免费的基础版之外,增加了三个付费版本:标准版连续包月每月68元,连续包年每年688元;加强版连续包月每月200元,连续包年每年2048元;专业版连续包月每月500元,连续包年每年5088�

  • 人声接近真人!OpenAI一口气更新三款超强语音AI

    OpenAI正式宣布对其实时API接口进行重大升级,一次性推出三款全新高阶语音智能模型,全面强化AI在实时听觉、口语交互、翻译与转录方面的能力,并大幅降低企业开发智能语音应用的技术门槛。 本次更新的核心产品包括:GPT-Realtime-2、实时翻译模型以及实时转写模型。其中,GPT-Realtime-2搭载了GPT-5级别的推理能力,人声仿真度进一步提升。 相比前代产品,它能够更精准地理�

  • 当Agent开始接管运维,更需要原生的“确定性”

    Agent自动运维虽能分析日志、生成方案,甚至实现诊断-决策-执行闭环,但通用Agent对数据库内核的“外部观察者”视角存在局限,且直接开放内核访问存在安全风险。理想架构应为“数据库—专业管控平台—Agent”三层:由管控平台(如KEMCC)获取内核级精准数据、集成原生诊断能力、提供安全可控的执行与审计,Agent负责“做什么”,平台负责“怎么做”,确保数据精度、执行安全与审计合规。

今日大家都在搜的词: