首页 > AI头条  > 正文

MIT 新创公司 OpenAGI 推出 AI Agent,声称超越 OpenAI 与 Anthropic

2025-12-02 15:18 · 来源: AIbase基地

近日,来自麻省理工学院的初创公司 OpenAGI 正式亮相,并宣布其新推出的 AI 模型 Lux 在计算机操作方面的表现超越了 OpenAI 和 Anthropic 的同类产品,且成本仅为其十分之一。OpenAGI 的首席执行官秦增义表示,Lux 是一种基础模型,旨在通过解析计算机截图,自动执行桌面应用程序中的操作。

最新发布的 Online-Mind2Web 基准测试中,Lux 的成功率达到了83.6%,而 OpenAI 的 Operator 仅为61.3%,Anthropic 的 Claude Computer Use 则为56.3%。这种显著的性能差距让业界人士对 Lux 的技术能力充满期待。

与传统的大型语言模型不同,Lux 采用了 “Agent主动预训练” 的方法,专注于从计算机截图和动作序列中学习。这一自我强化的训练循环使得 Lux 能够在不断探索的过程中提高自身能力,从而实现了更高效的操作。

OpenAGI 还声称,Lux 的操作成本大约是 OpenAI 和 Anthropic 前沿模型的十分之一,且其速度也更快。不同于仅能处理浏览器任务的竞争对手,Lux 可以全面控制桌面应用程序,包括 Excel、Slack 等,极大地扩展了其市场潜力。公司同时发布了开发者软件开发工具包,允许第三方基于 Lux 开发应用。

在安全性方面,OpenAGI 为 Lux 设计了内置的安全机制,当模型接收到可能违反安全政策的请求时,会拒绝执行,并向用户发出警告。这一特性在当前 AI 代理快速发展的背景下尤为重要。

秦增义博士背景深厚,曾参与开发多个广受欢迎的 AI 模型,展示了较小团队在技术上的潜力与创新。

划重点:

- 🚀 OpenAGI 推出的 Lux AI 代理在计算机操作基准测试中获得83.6% 的成功率,远超 OpenAI 和 Anthropic。

- 💡 Lux 采用独特的学习方式,通过计算机截图和动作序列进行训练,具有自我强化的能力。

- 🔒 安全机制内置于 Lux 中,能够识别和拒绝潜在的危险请求,保障用户数据安全。

  • 相关推荐
  • AI日报:Medeo AI新版视频Agent上线:OpenAI正式发布GPT-5.2;钉钉AI功能大升级

    本期AI日报聚焦多款AI产品更新:Medeo AI新版视频Agent支持自然语言一键改剧本,降低创作门槛;钉钉8.1.10将AI融入职场沟通,提升效率;OpenAI低调上线GPT-5.2,延迟显著降低,逻辑一致性提升,并推出支持私有化部署的成人模式;迪士尼投资100亿美元与OpenAI合作,推动IP在生成式AI中的创新应用;谷歌Gemini Deep Research开放API,供开发者构建研究应用;Cohere推出Rerank 4,上下文窗口扩展至32K,提升企业搜索精度;拓竹科技推出3D手办生成器“印你”,依托腾讯混元3D模型,简化3D建模流程;谷歌NotebookLM升级,为Ultra会员提供更高权限,优化智能笔记体验。

  • OpenAI发布GPT最新升级版本:GPT-5.2来了 OpenAI最新发布

    OpenAI于12月12日正式推出新一代大模型GPT-5.2,付费用户端及API同步开放。该模型首次采用“三版本细分”策略,针对不同需求精准匹配:Instant版主打低延迟、高响应,适合日常交互;Thinking版聚焦复杂任务,如编程、长文档分析,担当企业“智能助手”;Pro版面向高难度专业场景,强调极致准确性与可靠性。技术性能上,GPT-5.2在编程、数学计算、事实准确性及多模态处理等方面均有突破,能直接生成表格、制作PPT、编写多语言代码,显著提升职场效率。据预测,重度用户每周可减少10小时以上重复性工作。此外,OpenAI计划于2026年第一季度上线成人模式,并将所有版本的知识库更新至2025年8月,确保信息贴近现实。此次发布标志着AI开始深入专业场景,成为推动行业变革的核心力量。

  • ChatGPT全球服务突发中断 OpenAI紧急修复

    OpenAI的人工智能助手ChatGPT于12月2日至3日连续出现服务中断,导致部分用户无法正常使用。 此次故障主要影响网页版用户,许多人在通过浏览器访问时遭遇无响应或加载失败的问题,而Mac桌面客户端在此期间运行正常,未受影响。 故障发生后,OpenAI迅速采取缓解措施,并于2日2时37分开始监测恢复进展。至当日3时,服务已确认完全恢复正常。公司随后发布声明,解释此次中断

  • OpenAI奥特曼启动“红色警报”:全力改进ChatGPT 暂缓广告业务

    OpenAI首席执行官山姆奥特曼在内部备忘录中向员工宣布,公司将启动红色警报”紧急状态,以集中资源提升ChatGPT的核心能力,同时推迟广告业务等非核心项目。 备忘录显示,奥特曼将谷歌等竞争对手在生成式AI领域的技术突破视为直接威胁”,认为其快速迭代已对OpenAI构成严峻挑战。 为巩固市场地位,公司决定暂

  • 声网对话式 AI Studio 零代码也能快速开发对话式 Agent

    声网在RTE2025大会上发布对话式AI Studio 1.0,定位“零代码生产级智能体工厂”,旨在降低开发门槛。平台通过可视化编排、模块化设计及生态资源整合,让非技术用户也能快速打造专属智能体。它提供场景化模板与插件商店,覆盖智能客服、情感陪伴等热门场景,并支持第三方资源一键集成。平台还与模型评测平台联动,为用户推荐最优模型组合。新增的AI外呼功能支持SIP接入与PSTN连接,便于企业部署智能外呼/内呼。目前产品已上线,新用户可获免费体验包,助力企业低成本快速落地项目。

  • OpenAI推出ChatGPT购物研究功能

    OpenAI于11月25日正式推出ChatGPT购物研究功能,旨在帮助用户快速精准地找到心仪电商产品。该功能通过自然语言理解与信息整合,突破传统推荐算法局限,能主动提问、智能筛选,深入挖掘用户真实意图,精准识别功能参数、使用场景及风格偏好。结合历史对话记忆功能,系统可纳入个人偏好与习惯,提供个性化购买指南,包括热门产品推荐、核心差异对比及优缺点分析,并附带可靠零售链接。未来还将接入即时结账功能,实现从研究、决策到购买的全流程闭环,显著简化购物流程。目前该功能正逐步向移动端与网页端用户开放,覆盖免费版、Plus、Pro等多个层级。

  • Anthropic推出AI模型Claude Opus4.5:编程能力超群 接近顶尖工程师

    Anthropic于11月25日正式发布旗舰AI模型Claude Opus 4.5并投入商用。该模型在编程、智能代理等领域表现卓越,尤其在处理复杂研究任务及电子表格、PPT制作等办公场景显著优于同类产品。专业测试显示其编程能力超越谷歌Gemini 3 Pro与OpenAI GPT-5.1,在软件工程师闭卷测试中甚至超过所有历史人类考生。同步更新的多款配套工具(如浏览器扩展、Excel增强功能)进一步强化技术生态。目前该模型已全面接入企业级服务,标志着Anthropic在AI商业化进程中的关键突破。

  • OpenAI调查:AI工具使员工日均节省1小时

    OpenAI近期一项针对9000名员工的大型调查显示,其AI工具已帮助许多员工每天节省40至60分钟的专业工作时间,其中数据科学、工程、传播与会计等岗位的感受尤其明显。整体而言,四分之三的受访者认为AI提升了自己的工作速度或输出质量。 尽管AI热潮已持续三年,外界对其是否真正带来生产力红利仍存质疑。MIT今年8月的研究指出,绝大多数企业在生成式AI上的投入未能获得回�

  • AI日报:可灵Avatar 2.0 上线;谷歌推出Gemini 3 Deep Think模式;阿里云析言 XiYan-SQL 强势夺冠

    本期AI日报聚焦多项AI技术突破:Kling AI Avatar 2.0上线,实现数字人表情动作智能生成;谷歌推出Gemini 3 Deep Think模式,显著提升AI推理能力;微软发布轻量级实时语音模型VibeVoice 0.5B;OpenAI最强编码模型GPT-5.1-CodexMax全面接入API;阿里云“析言 XiYan-SQL”在SQL诊断评测中夺冠。此外,豆包助手调整AI操作能力,谷歌将展示Android XR平台更新。

  • 火山引擎分享Data Agent评测体系,提出“评估驱动开发”新范式

    字节跳动数据平台在AICon大会上分享了其Data Agent自动化评测技术。面对大模型在数据行业应用广泛但评估标准不一的挑战,团队提出覆盖技术选型、研发迭代至业务验证的“三层评测框架”,并倡导以“评估驱动开发”新范式推动大模型在数据分析等领域的深度赋能。针对Text-to-SQL等核心任务,团队创新采用基于“语义等价”的自动化评测方法,通过Apache Calcite将SQL转换为抽象语法树,结合图匹配网络计算逻辑相似度,显著提升评估可靠性。未来自动化评测将更注重线上线下一致性、多模态能力覆盖及与模型训练的深度结合,推动大模型应用更精准高效地创造业务价值。

今日大家都在搜的词: