首页 > 业界 > 关键词  > GPT-4V最新资讯  > 正文

自主操作计算机框架Self-Operating Computer:用GPT-4V来模拟人类的鼠标点击和键盘输入

2023-11-29 10:33 · 稿源:站长之家

站长之家(ChinaZ.com)11月29日 消息:自动化技术的最新进展引人瞩目,其中一项引人注目的技术是Self-Operating Computer框架。这一框架采用了先进的GPT-4V模型,通过模拟人类的鼠标点击和键盘输入,实现了令人惊叹的自主操作。在演示中,我们看到了框架自动打开浏览器并访问Google Doc,然后开始撰写诗歌。

Self-Operating Computer的核心能力在于基于给定的目标,估计鼠标点击的正确X和Y坐标位置,以及在每个步骤中进行适当的键盘输入。这一创新的框架旨在与任何视觉-文本多模态模型协同工作,以评估其操作计算机的能力。其使用GPT-4V的强大模拟功能使得计算机可以自主执行各种任务,展现了令人惊叹的智能水平。

image.png

项目地址:

https://github.com/OthersideAI/self-operating-computer#self-operating-computer-framework

值得注意的是,目前Self-Operating Computer框架仅支持在Mac系统中使用。不过,对于有兴趣的用户,他们可以通过自行部署来体验这一引人入胜的技术。这种自主操作计算机的框架为用户提供了一个全新的可能性,使得计算机不再仅仅是被动执行任务的工具,而是能够根据预定目标主动进行操作。

总体而言,Self-Operating Computer框架的出现标志着自动化领域的一次重大飞跃。通过结合先进的模型和多模态技术,该框架展示了计算机自主执行任务的新水平。

尽管目前仅限于Mac系统,但随着技术的不断发展,相信将来会有更广泛的应用场景涌现。自主操作的计算机框架无疑将改变我们对计算机能力的认知,为未来的科技发展打开崭新的可能性。

举报

  • 相关推荐
  • OpenAI女神官宣离职了!曾被誉为GPT-4o之母

    那个给GPT-4o注入灵魂的人,走了。 近日,被业内誉为GPT-4o之母”的OpenAI高管Joanne Jang在X平台正式发文,宣布结束其在公司长达4年半的职业生涯。 作为赋予ChatGPT灵魂的关键人物,她的离去无疑为这家AI巨头的IPO之路蒙上了一层阴影。 据悉,Joanne Jang斯坦福大学应用数学与计算机科学双学士学位,计算机科学硕士学位。 她加入OpenAI时,该公司还只是一个不到200人的研究实验室

  • 智谱的“GPT-4V”来了,CEO张鹏说他们就是奔着AGI去的

    时隔仅仅四个月,智谱大模型再度升级。在沈阳举办的2023中国计算机大会CNCC2023上,智谱介绍了新一代ChatGLM3大模型。主要是在在资源配置集中优化使用上需要跟各方进行协同,另外在比如算力网络、超算互联这样的新的解决方案领域,我们也还有很多研究工作需要推进。

  • 在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

    最近一段时间,我们见证了大型语言模型的显著进步。生成式预训练Transformer或GPT的发布引领了业界和学术界的多项突破。更多技术细节和实验结果参阅原论文。

  • 全新视觉提示方法SoM 让GPT-4V看的更准、分的更细

    研究人员推出了一种新的视觉提示方法Set-of-Mark,它可以让OpenAI多模态大模型GPT-4V在视觉内容理解方面有了质的提升。GPT-4V是一种基于GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。这些结果表明了SoM的有效性和灵活性,以及GPT-4V在细粒度视觉任务上的潜力。

  • GPT-4V医学考试成绩超过多数医学生 AI看病稳妥了?

    近期研究显示,GPT-4V在医学执照考试中表现优异,准确率远超过大部分医学生。这为AI在医学临床中的应用提供了新的可能性。这一研究为未来开发更精细的人工智能协作系统提供了方向,以使其成为可靠的医学辅助工具。

  • 微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

    微软AzureAI发布了MM-Vid,这是一项结合GPT-4V与专用工具的创新,致力于解读长视频并为视障人士提供更好的体验。人工智能在长视频理解领域所面临的复杂挑战,包括分析多个片段、提取不同信息源、实时处理动态环境等。这一创新有望推动视觉领域的发展,使得语言模型在多模态环境下的应用更加广泛。

  • 微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

    微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。LLaVA-1.5在多模态领域取得显著进展,通过开源促进了其在视觉问答、自然语言处理、图像生成等方面的广泛应用。

  • 浙大校友联手微软开源LLaVA-1.5,硬刚GPT-4V

    LLaVA-1.5是来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源的一款全新的端到端多模态大模型,可与OpenAI的GPT-4V形成正面竞争。LLaVA-1.5在11项基准测试中都实现了新的状态最优成绩,包括视觉问答、图像caption等任务,展现出了强大的多模态理解能力。LLaVA-1.5以其出色的多模态理解能力,向业内掀起了一股“硬刚GPT-4”的新风潮。

  • 零一万物API开放 多模态中文图表体验超越GPT-4V

    零一万物API正式向开发者开放,其中包含三款强大的模型。首先是Yi-34B-Chat-0205,支持通用聊天、问答、对话、写作和翻译等功能;其次是Yi-34B-Chat-200K,能处理多文档阅读理解和构建超长知识库;最后是Yi-VL-Plus多模态模型,支持文本、视觉多模态输入,中文图表体验超越GPT-4V。无论是在图表识别、文本理解还是长篇文本分析方面,这些模型都展现出了令人惊叹的性能。

  • GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类

    SamAltman最近在世界经济论坛上发言,称达到人类级别的AI很快就会降临。正如LeCun一直以来所言,如今的AI连猫狗都不如。他还曾与何恺明大神共同提出了用于图像分类的简单、高度模块化的网络结构ResNeXt,这篇论文发表在了CVPR2017上。

今日大家都在搜的词: