刚刚，OpenAI开源PaperBench，重塑AI Agent评测

2025-04-03 08:45 · 稿源： AIGC开放社区公众号

今天凌晨1点，OpenAI开源了一个全新的AI Agent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力，需要对2024年国际机器学习大会上顶尖论文的复现，包括对论文内容的理解、代码编写以及实验执行等方面的能力。根据OpenAI公布的测试数据显示，目前知名大模型

......

本文由站长之家合作伙伴自媒体作者“AIGC开放社区公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

守护用户数据安全，OPPO 携火山引擎发布《移动 Agent 安全技术白皮书》

在OPPO开发者大会上，OPPO联合火山引擎等机构发布《移动Agent安全技术白皮书》，宣布打造隐私计算云系统，通过端云协同架构构建用户数据全生命周期的“安全长城”。该系统结合火山引擎AI机密计算方案，实现端到端加密，确保数据“可用不可见”，任何人与系统均无法获取用户数据。双方将持续深化合作，致力于AI时代的数据安全治理，让用户享受AI便利的同时更安全放心。

OPPO 移动Agent安全技术白皮书私密计算云
苹果前CEO发声：OpenAI成苹果AI时代劲敌 Siri显得十分滞后

曾担任苹果首席执行官的约翰斯库利近日公开表示，OpenAI已成为苹果几十年来首个真正意义上的竞争对手，并直言人工智能并非苹果特别擅长的领域”。从实际情况看，苹果在人工智能竞赛中确实表现欠佳。与OpenAI、谷歌、亚马逊和Meta等公司持续推出的产品更新相比，苹果显得步伐迟缓。今年早些时候，其对AI助手Siri进行全面升级的计划被推迟，这无疑在产品推进方面遭遇�

苹果人工智能 OpenAI
持续领跑！360安全智能体首批通过中国软件评测中心认证

360安全智能体近日通过中国软件评测中心评估，在钓鱼邮件和网络告警两大核心场景中均获L3成熟级认证。这标志着360在智能体技术应用上具备领先实力，成为企业安全运营与产业智能化转型的行业标杆。其智能体依托海量安全数据与专业训练，能精准识别威胁并实现分钟级响应，推动安全运营效率提升15倍。此次认证不仅巩固了360在AI安全领域的领导地位，更为行业树立了智能体能力建设与评估的典范。

360安全智能体智能体能力成熟度评估钓鱼邮件研判
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
荐对话逗逗AI：猛涨千万用户背后，不抢屏幕时间，不做超级app，也不止于游戏了

当你在游戏里卡关半小时，烦躁地想切出去搜攻略；或者在开放世界里孤独“跑图”，无聊到只能听歌的时候，如果这屏幕上突然冒出一个“小可爱”，一边帮你找路，一边陪你吐槽，感觉会如何？这就是逗逗AI正在做的事。它不是一个需要你切换点开的APP，而是一个以虚拟形象或悬浮球形式，能看到你的游戏界面，听到你的声音，和你随时互动的AI玩伴。我们来看一个顶

游戏攻略 AI玩伴虚拟形象
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
荐AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机器人DR02发布；谷歌Chrome即将引入Gemini新功能

快手开源72B代码模型KAT-Dev在SWE-Bench测试中准确率达74.6%，创国产AI编程里程碑；杭州云深处推出全球首款IP66防护全候作业机器人DR02；谷歌Chrome将集成Gemini引发隐私担忧；学者指控苹果使用盗版书籍训练AI，版权争议再起；Liquid AI发布高效稀疏激活模型LFM2-8B-A1B；苹果拟收购Prompt AI布局智能家居视觉技术；AI伴侣应用泄露4300万条用户隐私对话；西湖大学DeepScientist显著提升科研效率。

AI日报快手72B代码模型 KAT-Dev
国际权威认可！绿舟成为CP亚太地区首批合作伙伴！

绿舟成为ClimatePartner亚太地区首批战略合作伙伴，标志着其气候友好认证服务再获国际顶尖环保机构认可。双方合作将助力亚太地区卖家高效完成亚马逊气候友好绿标认证，通过定制化方案、成本优化及流程提速（最快4周），帮助卖家获得10%流量提升和12.5%销量增长。此次合作打破跨境卖家面临的认证壁垒，为中小卖家提供低门槛的权威合规路径。

绿舟 ClimatePartner 气候友好认证
IBM与Anthropic达成战略合作，为企业软件开发注入AI赋能的安全和治理

IBM与Anthropic达成战略合作，将Claude大语言模型集成至IBM软件产品及开发工具中，旨在加速企业级AI开发进程。该合作聚焦提升开发效率，在IBM全新AI集成开发环境中率先应用，支持代码生成、测试部署等全生命周期任务。内部测试显示生产力提升45%，同时确保代码质量与安全合规。双方强调将为企业提供安全可靠的AI解决方案，推动行业标准化发展。

IBM Claude大语言模型企业级AI

今日大家都在搜的词：

热文

3 天
7天

刚刚，OpenAI开源PaperBench，重塑AI Agent评测

守护用户数据安全，OPPO 携火山引擎发布《移动 Agent 安全技术白皮书》

苹果前CEO发声：OpenAI成苹果AI时代劲敌 Siri显得十分滞后

持续领跑！360安全智能体首批通过中国软件评测中心认证

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

荐对话逗逗AI：猛涨千万用户背后，不抢屏幕时间，不做超级app，也不止于游戏了

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

荐AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机器人DR02发布；谷歌Chrome即将引入Gemini新功能

国际权威认可！绿舟成为CP亚太地区首批合作伙伴！

IBM与Anthropic达成战略合作，为企业软件开发注入AI赋能的安全和治理

今日大家都在搜的词：

热文

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

知乎崩了上热搜：网页端完全无法进入 App端也未能幸免

华为nova 14活力版、nova Flip S官宣明天发布

红米REDMI K90 Pro Max丹宁色亮相采用第三代科纳皮设计

苹果14英寸MacBook Pro发布：售价12999元起首发苹果M5芯片

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

董明珠称格力向特斯拉提供服务已有近14万项专利技术

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

京东回应下场造车：不直接涉及制造三方联合推出

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

Windows 10即将“停服”上热搜微软建议用户升级Win 11

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

小米推出短剧App围观短剧：主打无广告免费看

站长商机