自主操作计算机框架Self-Operating Computer：用GPT-4V来模拟人类的鼠标点击和键盘输入

2023-11-29 10:33 · 稿源：站长之家

站长之家（ChinaZ.com）11月29日消息:自动化技术的最新进展引人瞩目，其中一项引人注目的技术是Self-Operating Computer框架。这一框架采用了先进的GPT-4V模型，通过模拟人类的鼠标点击和键盘输入，实现了令人惊叹的自主操作。在演示中，我们看到了框架自动打开浏览器并访问Google Doc，然后开始撰写诗歌。

Self-Operating Computer的核心能力在于基于给定的目标，估计鼠标点击的正确X和Y坐标位置，以及在每个步骤中进行适当的键盘输入。这一创新的框架旨在与任何视觉-文本多模态模型协同工作，以评估其操作计算机的能力。其使用GPT-4V的强大模拟功能使得计算机可以自主执行各种任务，展现了令人惊叹的智能水平。

项目地址：

https://github.com/OthersideAI/self-operating-computer#self-operating-computer-framework

值得注意的是，目前Self-Operating Computer框架仅支持在Mac系统中使用。不过，对于有兴趣的用户，他们可以通过自行部署来体验这一引人入胜的技术。这种自主操作计算机的框架为用户提供了一个全新的可能性，使得计算机不再仅仅是被动执行任务的工具，而是能够根据预定目标主动进行操作。

总体而言，Self-Operating Computer框架的出现标志着自动化领域的一次重大飞跃。通过结合先进的模型和多模态技术，该框架展示了计算机自主执行任务的新水平。

尽管目前仅限于Mac系统，但随着技术的不断发展，相信将来会有更广泛的应用场景涌现。自主操作的计算机框架无疑将改变我们对计算机能力的认知，为未来的科技发展打开崭新的可能性。

（举报）

相关推荐

关键词：

GPT-4V

GPT5上线大翻车！用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

OpenAI发布最强AI模型GPT-5，但引发用户强烈不满。新模型上线后反应速度变慢、回答质量下降，且官方突然下架GPT-4o等8个旧模型，导致付费用户抗议。部分用户对旧版产生情感依赖，认为GPT-4o更具人性化温暖。第三方测试显示GPT-5在复杂任务上虽有提升，但交互体验明显退步。CEO承认低估用户对旧版的喜爱，承诺将恢复部分旧模型并提供更多定制服务。专家指出大模型边际效益递减，面临数据质量和算力成本限制。总体而言，GPT-5在技术指标进步的同时，牺牲了情感交互体验。

GPT-5发布 OpenAI AI模型淘汰
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
荐因为GPT-5，这群人决定在Reddit上起义。

这个周末，对OpenAI的抗诉，好像从未如此热闹过。起因自然还是因为GPT-5。 OpenAI上了GPT-5当天，做了一个非常神奇的操作，他们只保留了GPT-5，然后把GPT-4.5、GPT-4o、o3什么的，全都砍掉了。

GPT-5
OpenAI CEO：GPT-6将具备个性化记忆记住用户偏好习惯

OpenAI的首席执行官萨姆奥尔特曼（Sam Altman）在近日的一次专访中，透露了下一代大模GPT-6的最新进展。他表示，GPT-6 的开发正在积极推进中，其发布节奏将比从GPT-4到GPT-5的周期更快。奥尔特曼特别强调，GPT-6将不再局限于单纯回答问题，而是朝着与用户深度适配”的方向演进。他举例描述

GPT-6 OpenAI 萨姆奥尔特曼
当GPT-5遇上Gemini 2.5，谁更适合你的业务？这份对比报告说了算

某跨境电商CTO复盘会上展示：GPT-5 Standard处理百万级商品描述时，费用比Gemini 2.5 Flash-Lite高35%，响应速度慢0.8秒。大模型选型面临参数迷雾、场景错配、隐藏成本三重困境。AIbase选型对比平台通过真实数据测试，提供透明价格拆解和性能雷达图，帮助规避预算陷阱。实测显示GPT-5在合同逻辑分析准确率高3.2%，而Gemini表格解析速度快40%、月总成本低26%。工具可动态追踪官方调价，生成定制化决策报告，用数据替代经验主义，提升技术选型效率。

大模型选型参数迷雾场景错配
博士水平的GPT-5依然翻车 OpenAI奥特曼：AGI已失去意义

上周末OpenAI公司发布了传闻已久的GPT-5大模型，号称迄今为止最先进的人工智能模型，具备博士级别的智能水平。 GPT-5发布之后在多个榜单上确实刷榜了，包括编程、数学等，总计拿到了25个榜单的第一，评分表现很震撼。然而上线之后，GPT-5的实际表现引发质疑，跑分第一不代表实际体验第一，甚至被不少用户认为表现倒退了，反应也变慢，这可能是OpenAI翻车最快的旗舰大�

GPT-5发布人工智能模型 OpenAI整改
荣耀Magic V Flip2发布：售价5499元起

昨日晚间，Magic V Flip2正式发布，这款被荣耀视为最强小折叠的产品，凭借全方位的升级与出色的配置，一经亮相便吸引了众多消费者的目光。在售价方面，荣耀Magic V Flip2提供了多个版本供消费者选择。其中，12GB +256GB、12GB +512GB和12GB +1TB版本售价分别为5499元、5999元和6499元;高定款（16GB +1TB）售价为7499元。该机型提供钛空灰、月影白、晨曦紫等丰富配色，高定款则采用独特的�

荣耀Magic V Flip2
豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

文章探讨了企业选择AI大模型时面临的实际决策难题，指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台（https://model.aibase.cn/compare）通过三大核心价值解决痛点：1）聚焦业务场景而非参数堆砌，突出价格、语言支持、上下文长度等实用维度；2）透明化成本计算，标注长文本溢价规则和多模态附加费；3）一键生成对比报告。平台特别强调中文场景的特殊性（如豆包1.5在中文处理成本的优势），并揭示厂商宣传中容易忽略的隐藏成本（如GPT-5-min超5000字符的30%溢价）。典型电商客服案例显示，需综合中文理解、多模态、性价比等维度决策，最终选择取决于具体业务需求而非绝对性能排名。

智能客服系统中文场景预算有限
一图读懂荣耀Magic V Flip2：荣耀最强小折叠 5499元起

今晚，荣耀Magic V Flip2正式发布，起售价是5499元。荣耀Magic V Flip2全系搭载精研雾面金属中框，机身展开状态下薄至6.9mm，折叠状态下薄至15.5mm，重约204g，一手可握。影像上，荣耀Magic V Flip2配备了竖折首款2亿超清写真镜头，拥有1/1.4超大底传感器和2.24m等效大像素，轻松放大高清真实美，搭配50

荣耀Magic V Flip2
免费使用！腾讯地图已接入DeepSeek-V3.1

DeepSeek V3.1于2025年8月21日发布并开源，腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升：思考效率更高，响应更快；上下文理解更强，支持多轮连贯对话；智能体调用更精准，尤其在中文网页理解和跨领域搜索方面表现突出。依托升级，AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务，让导航升级为全程智能生活陪伴。

DeepSeek V3.1 腾讯地图

今日大家都在搜的词：

热文

3 天
7天

自主操作计算机框架Self-Operating Computer：用GPT-4V来模拟人类的鼠标点击和键盘输入

GPT5上线大翻车！用户强烈呼吁使用旧版 OpenAI重新上线GPT4o

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

荐因为GPT-5，这群人决定在Reddit上起义。

OpenAI CEO：GPT-6将具备个性化记忆记住用户偏好习惯

当GPT-5遇上Gemini 2.5，谁更适合你的业务？这份对比报告说了算

博士水平的GPT-5依然翻车 OpenAI奥特曼：AGI已失去意义

荣耀Magic V Flip2发布：售价5499元起

豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

一图读懂荣耀Magic V Flip2：荣耀最强小折叠 5499元起

免费使用！腾讯地图已接入DeepSeek-V3.1

今日大家都在搜的词：

热文

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

华为nova 14系列宣布限时降价至高优惠500元

黑神话钟馗预告片上线1天播放破千万登顶B站热门视频榜

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

小米智能家庭屏Max27闺蜜机今日开售售价3999元

李国庆婚礼收到11万余元善款受助学生寄来祝福

vivo Vision探索版发布将于明日开放线下体验

REDMI Note 15标准版发布：售价999元起

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

站长商机