首页 > AI头条  > 正文

微软发布 OmniParser V2.0:把屏幕截图转化成LLM可处理的结构化格式

2025-02-17 10:28 · 来源: AIbase基地

微软近日发布了 OmniParser V2.0,这是一个旨在将用户界面(UI)截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能,帮助用户更好地理解和操作屏幕上的信息。

该工具的训练数据集包括一个可交互图标检测数据集,该数据集从热门网页中精心挑选并自动注释,以突出可点击和可操作的区域。此外,还有一个图标描述数据集,旨在将每个 UI 元素与其对应的功能相结合。

QQ_1739759294065.png

在 V2.0版本中,OmniParser 进行了显著改进,更新后的数据集更大且更干净,图标的描述与定位效果提高了60%。根据测试,该版本的平均延迟也大幅降低,在 A100设备上约为0.6秒 / 帧,而在单个4090显卡上为0.8秒 / 帧。性能方面,OmniParser 在 ScreenSpot Pro 测试中获得了39.6的平均准确率。

用户只需使用 OmniTool 这一工具即可控制 Windows11虚拟机,OmniTool 与 OmniParser 结合使用,用户还可以选择适合的视觉模型。当前 OmniTool 支持多种大型语言模型,如 OpenAI 的多个版本、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic Computer Use,方便用户进行各种操作。

OmniParser 旨在将非结构化的截图图像转换为结构化的元素列表,包括可交互区域的位置和图标的潜在功能描述。使用该工具的用户需具备基本的分析能力和批判性思维,因为虽然 OmniParser 能够提取信息,最终的判断仍需用户自行做出。此工具可用于多种类型的截图,包括 PC 和手机界面,适应性强。

不过,OmniParser 的局限性也值得注意。该工具并不检测输入中的有害内容,因此用户应当谨慎提供输入,确保不含有害信息。同时,尽管 OmniParser 仅将截图转化为文本,它仍可用于构建可操作的图形用户界面代理。开发者在使用 OmniParser 构建和运营代理时,需遵循安全标准和道德规范。

模型:https://huggingface.co/microsoft/OmniParser-v2.0

项目:https://github.com/microsoft/OmniParser/tree/master

划重点:  

🔍 OmniParser V2.0是一款智能解析工具,能将 UI 截图转换为结构化信息,提升用户操作体验。  

⚡ 新版本改进显著,平均延迟减少至0.6秒 / 帧,准确率达39.6%。  

🔐 使用时需注意输入内容的安全性,开发者应遵循安全标准与伦理规范。  

  • 相关推荐
  • 如何通过Matrixport结构化理财产品把握加密市场机遇,稳中求胜?

    文章探讨了在通胀上升、就业下降的宏观环境下,投资者面临的挑战和不确定性。重点介绍了Matrixport提供的加密理财产品,如"趋势智赢"和"鲨鱼鳍"等结构化产品,帮助投资者在不同市场环境下实现稳定收益。特别推出创新产品"海鸥",适合单边行情投资,门槛低、灵活性高,能在极端行情中获取高额收益。Matrixport通过多样化产品矩阵满足不同投资者需求,帮助用户在市场波动中灵活调整策略,实现资金增值。未来将继续深耕加密资管领域,为全球用户提供优质理财服务。

  • 华为旗舰平板MatePad Pro 12.2今日发布

    今日下午,华为将正式发布MatePad Pro12.22025款平板电脑,该机目前已在官网开启销售。作为华为平板系列的又一力作,MatePad Pro12.2提供了普通版和柔光版两种选择,并配备12GB内存与256GB/512GB两种存储组合,满足用户多样化的需求。在配色方面,该机推出了砚黑、宣白、飞天青三款时尚配色,供消费者挑选。

  • AI日报:字节发布同声传译模型Seed LiveInterpret 2.0;秘塔搜索API上线;Lovart AI正式版全球发布

    AI日报栏目报道了多项AI领域最新进展:1)字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0,实现中英高质量实时翻译;2)秘塔搜索API上线,提供低价多模态搜索服务;3)Lovart AI正式版发布,作为首个AI设计Agent重塑创作流程;4)李沐团队推出Higgs Audio v2语音合成模型,融合千万小时训练数据;5)OpenAI开发Sora2视频生成模型,与谷歌Veo3展开竞争;6)OpenAI与Oracle合作扩展Stargate项目,�

  • 华为MatePad Pro 12.2英寸发布:售价3999元起

    除了强大的软件支持,华为MatePad Pro12.2英寸在交互体验上也进行了全面升级。新品拥有全新分屏摘要功能,无需拖拽即可一键完成总结,大大提高了工作效率。同时,该设备还深度适配了手写笔HUAWEI M-Pencil Pro,新增AI功能快捷入口,用户只需轻捏笔身就能唤起小艺,支持即圈即搜,让创作更加便捷。自由多窗、全景多窗等创新功能的加入,更是实现了4个应用的前台显示和自由�

  • 华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

    华为将于7月24日发布三款平板新品:旗舰款MatePad Pro 12.2英寸配备全新PaperMatte显示屏,采用Tandem OLED技术,功耗降低30%,支持144Hz刷新率、2000尼特峰值亮度,搭载麒麟9020A处理器,内置10100mAh电池和100W快充;MatePad 11.5 2025采用11.5英寸LCD屏,搭载麒麟8020处理器;MatePad Air 12 2025配备12英寸LCD屏,预计搭载麒麟9系新处理器。三款产品均主打高性能和长续航,满足不同用户需求。

  • 超充时代,PDU如何进化成汽车电力系统的“智能管家”

    2025年800V高压平台将成为新能源车主流配置,支持5分钟快充续航200公里。文章重点分析了PDU(电源分配单元)的技术革新:1)传统独立PDU存在安全隐患、空间占用大、适配性差等问题;2)新型集成化方案将DC/DC转换器、车载充电机等模块整合,实现体积缩小2/3、重量减轻15-25kg;3)冠宇推出的"锂电+PDU+智能BMS"三位一体架构,支持800V平台和8C超快充,通过30%形变测试,重量仅为铅酸电池1/3。该方案已搭载于上汽、理想、奔驰等品牌车型,年出货量近百万套。

  • 华为MatePad Pro 12.2亮相 首款全面搭载鸿蒙5的平板

    今日,全新华为MatePad Pro 12.2正式发布,这是首款全面搭载鸿蒙操作系统5的平板,让平板拥有像电脑一样的生产力体验。 华为MatePad Pro 12.2不仅支持剪映专业版,还适配WPS Office、万兴脑图、中望CAD等多款鸿蒙电脑同款应用。 1:1还原了桌面端的界面布局与核心功能,实现流畅丝滑的操作体验。

  • 华为MatePad Pro 12.2开启预约 预计7月24日正式发布

    华为MatePad Pro 12.2英寸平板7月18日开启预约,将于7月24日正式发布。该产品提供普通版和柔光版两种版本,12GB+256GB/512GB两种存储组合,曜黑、宣白、飞天青三款配色。采用全新PaperMatte显示技术,基于Tandem OLED面板打造,功耗降低30%,支持144Hz高刷、2000尼特峰值亮度,获得德国莱茵TUV与SGS护眼认证。内置10100mAh电池,支持100W快充。后置5000万主摄+800万超广角,前置800万像素。支持Wi-Fi7、蓝牙5.2等连接技术,国行版将搭载HarmonyOS5系统。

  • REDMI Pad 2定位千元大平板 王腾:老人看剧、小朋友学习都合适

    今日,REDMI推出全新平板电脑REDMI Pad 2,目前已在小米商城、电商平台开启预约,将于8月1日正式开售。 官方暂未公布新品价格,但根据REDMI品牌总经理王腾介绍,这是一款千元大平板,放在家里给老人看剧、小朋友学习都非常合适。 作为参考,2022年发布的初代REDMI Pad起售价1299元(4GB 128GB),2024年发布的REDMI Pad Pro起售价1499元(6GB 128GB)。

  • A日报:Trae 2.0 正式升级 SOLO 模式;通义发布Qwen3新模型;智谱AI重磅推出Zread

    本期AI日报聚焦多项AI领域突破:1)Trae 2.0推出SOLO模式,实现AI全流程自主开发;2)阿里通义发布Qwen3-235B大模型,支持256K文本处理;3)智谱AI推出Zread工具,一键转换GitHub项目为使用手册;4)零一万物发布万智企业大模型平台2.0及定制Agent方案;5)字节跳动推出通用机器人模型GR-3,具备高精度操作能力;6)Pika推出AI视频特效APP,降低创作门槛;7)Dia浏览器将上线AI驱动的"分身鼠标&

今日大家都在搜的词: