首页 > 业界 > 关键词  > ambientGPT最新资讯  > 正文

ambientGPT:开源多模态MacOS基础模型操作界面 可调用GPT-4o API

2024-05-23 09:56 · 稿源:站长之家

划重点:

⭐ AmbientGPT 可以运行 GPT-4和本地基础模型,并直接了解屏幕环境,使基础模型不再局限于浏览器。

⭐ 使用 AmbientGPT,屏幕上下文将直接作为查询的一部分进行推断,无需再次显式上传上下文。

⭐ 若要运行本地模型,需要使用 ARM64MacBook,并使用兼容的 OpenAI API 密钥。

站长之家(ChinaZ.com)5月23日 消息:最近,一款名为 ambientGPT 的开源项目备受关注。这款工具是一款多模态 MacOS 基础模型操作界面,可以调用 GPT-4o API 或者本地开源模型进行问答,并能直接访问屏幕内容而不需要截图。它的本地模型是基于 Apple 的 MLX 库,技术栈包括 Python + Node。

image.png

AmbientGPT 是一项具有创新意义的技术,它可以运行 GPT-4和本地基础模型,并且能够全面了解屏幕环境。这一技术的出现,突破了基础模型一直局限于浏览器的限制。通过使用 AmbientGPT,用户的屏幕上下文将直接作为查询的一部分进行推断,从而避免了再次上传上下文的麻烦。

在使用 AmbientGPT 时,用户需要具备 ARM64(M1、M2、M3等)MacBook,并且需要使用兼容的 OpenAI API 密钥,以便能够使用 GPT-4o。同时,为了运行本地模型,还需要安装必要的软件包。

AmbientGPT 的出现为用户提供了更便利、更高效的使用体验,使得 GPT-4和本地基础模型能够更好地融入用户的实际屏幕环境中,从而实现更加智能化的应用和操作。该技术的推出,预示着未来在智能模型应用领域将会迎来更多创新和便利。

产品入口:https://top.aibase.com/tool/ambientgpt

举报

  • 相关推荐
  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 苹果iPadOS 26脱胎换骨:一大波功能向macOS看齐

    苹果召开WWDC 2025全球开发者大会,发布了全新的iPadOS 26。 以下是苹果公司今日宣布的所有iPadOS 26新功能,这些更新将使iPad拥有接近macOS的使用体验。 应用窗口现在可自由调整大小。 支持同时打开多个窗口。 通过新的分屏手势,可将窗口调整为半屏、三分之一或四分之一大小。 每个窗口新增红、黄、绿交通灯按钮,对应的分别是关闭、最小化和最大化。 应用重启后会记�

  • 苹果macOS 26 Tahoe发布:全新玻璃风格 顶栏全透明设计

    据媒体报道,在备受瞩目的WWDC25开发者大会上,苹果正式揭晓了新一代操作系统:macOS 26 Tahoe。此次更新带来了从视觉焕新到功能强化的全方位升级。 macOS 26 Tahoe采用了全新的玻璃质感设计语言,覆盖了Dock栏、应用图标乃至桌面小部件。原生应用界面深度融入了这一风格,顶栏实现全透明化,营造出通透灵动的整体观感。用户还能自定义系统文件夹的配色方案,个性化体验得�

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • ChatGPT重磅升级GPT-4.1:编程专家模型登场

    OpenAI于5月15日正式推出GPT-4.1模型,采用差异化推送策略:付费用户可体验完整版,普通用户使用轻量级GPT-4.1 mini。新版模型在编程任务表现突出,能精准遵循指令,避免冗长输出。测试显示其响应速度提升30%,输出稳定性提高40%,部分性能超越GPT-4o。同时OpenAI宣布将斥资30亿美元收购编程工具Windsurf,强化开发者生态,与Google同日发布的Gemini-GitHub形成直接竞争。两大巨头的动作标志着AI编程助手进入生态竞争新阶段。

  • macOS 26液态玻璃“致敬”Windows Vista:微软罕见贴脸嘲讽

    苹果正式发布了全新的macOS 26操作系统,其中采用了液态玻璃”(Liquid Glass)设计语言。 不有有不少人指出,这一设计与2006年Windows Vista的毛玻璃(Aero Glass)设计极为相似。 此前通常避免在竞争对手发布新产品时发表评论的微软,日前也在官方Instagram账号上发布了一段视频,并称就把它放这了”,调侃苹果的这一设计致敬”了Windows Vista。 微软发布的视频中,使用了#WindowsAer

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • 理想汽车OTA7.4正式推送!自研MindGPT-4o-preview模型首次上车

    理想汽车5月28日发布OTA 7.4版本升级,主要亮点包括:1)首次搭载自研MindGPT-4o大模型,智能助手"理想同学"升级为3D毛绒形象,新增双手交互动作,语音交互更自然生动;2)新增"小同桌"多角色对话功能,支持连续聊天和情商引导;3)升级为生活助手Agent,能自主操作车机完成复杂任务,支持支付宝小程序操作;4)新增家庭账号系统、面容识别和对话历史功能;5)影音体验优化,支持前后排独立音区;6)推出儿童节专属"小主人"模式,新增斑马百科应用;7)新增超充站降锁、冰箱定时开关等实用功能;8)优化L6车型CDC悬架系统,提升操控性。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

    5月13日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了5款模型和产品,包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。