首页 > 业界 > 关键词  > 正文

清华大学开发出新视觉语言模型 可更准确理解 GUI

2023-12-27 15:29 · 稿源:站长之家

站长之家(ChinaZ.com)12月27日 消息:清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。

CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容,这是有效 GUI 交互的关键要求。

CogAgent 的架构具有独特的高分辨率跨模块,这是其性能的关键。该模块使模型能够有效处理高分辨率输入(1120x1120像素),这对于识别小型 GUI 元素和文本至关重要。

QQ截图20231227153006.jpg

CogAgent 在各种任务中优于现有的基于 LLM 的方法,特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。

这项研究的结果表明,CogAgent 代表了 VLM 的重大飞跃,特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。

CogAgent 的潜在应用包括:

  • 自动化 GUI 操作,例如点击按钮、输入文本和选择菜单。
  • 提供 GUI 帮助和指导,例如解释功能和提供操作说明。
  • 开发新的 GUI 设计和交互方式。

CogAgent 仍处于早期开发阶段,但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

地址:https://github.com/THUDM/CogVLM

举报

  • 相关推荐
  • 重新理解「会员模式」

    时至今日,「会员」在商业世界里已不是什么新鲜事。 电商有会员、商超有会员、品牌有会员、视频网站有会员、社交媒体有会员……无论是阿里、京东,还是美团,各家平台对于会员的投入越来越明显和坚决。但不得不承认的是,就像“看电影时所有观众全都站了起来”的“剧院效应”,普通用户对于会员的价值感却在下降。 当“加入会员”成为常态,会员好不好、值不�

  • 丝瓜汤文学为何引起共鸣:家长与子女需要相互理解

    “丝瓜汤文学”近日火爆网络,源于短视频博主@累子创作的家庭短剧。剧中母亲总让儿子喝丝瓜汤,强调“汤能降肝火”,儿子拒绝后却遭指责。这种将情绪冲突简化为身体不适、用一碗汤带过的对话模式,触动众多网友,引发对代际沟通的广泛讨论。专家指出,这反映了人们情绪表达的现实需求,背后是对“被懂得”“被理解”的深情呼唤。值得家长反思并尝试改变沟通方式,学会倾听子女想法,给予更多理解和尊重。

  • 聚焦“视觉+机器人”!思看科技与艾利特机器人达成战略合作

    9月22日,思看科技与埃利特机器人在苏州签署战略合作协议。双方将聚焦“视觉+机器人”领域,在资源共享、市场拓展、生态共建等方面深化合作,共同推动机器人视觉感知与决策控制、人机交互等关键技术的创新突破。思看科技在三维视觉数字化领域技术领先,埃利特机器人拥有协作机器人全栈自研能力,双方优势互补,致力于在高端制造场景中实现“手眼合一”,赋能行业智能化转型。此次合作标志着两家企业在机器人与视觉融合领域迈出关键一步,未来将共同推动三维视觉与机器人技术的深度协同创新。

  • iOS 26.1首个Beta版更新发布 苹果AI支持更多语言

    苹果发布iOS 26.1开发者预览版Beta更新,内部版本号23B5044l。主要更新包括:Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持;AirPods实时翻译功能扩展至日语、韩语、意大利语和中文(含繁简);电话应用数字键盘采用全新液态玻璃设计。此外,Apple Music支持滑动切换歌曲,照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送,适配第二代iPhone SE及之后共25款机型,iPhone 17系列和iPhone Air出厂预装该系统。

  • 2025视觉中国&500px视觉盛典贵州站开启招募!

    至誉科技展台提供免费笔记本屏幕校色服务,现场参与互动可领取贴纸、钥匙扣等礼品。美图云修、东芝、索尼、适马、永诺、雷克沙、富图宝、神牛、艺卓、唯卓仕、斯丹德等品牌均设有产品体验区和互动活动,参与者可通过关注社交媒体账号、打卡拍照等方式赢取显示器、相机镜头、存储设备及周边礼品。现场还可体验专业校色仪及新品设备,机会难得。

  • 国产读码器,竟把准确率干到99.99%?

    国产读码器行业面临准确率低、环境适应性差等痛点。研祥金码推出R-8900智能读码器,以4700万像素超大视野和AI解码算法实现99.99%超高识别率,可秒解微小码、油污码。具备IP65防护和宽温设计,支持极端环境下7×24小时稳定运行,年均故障维修次数减少5-10次,大幅提升工业场景应用可靠性。

  • “直播+橱窗”,小红书创作者在种草之上长出新模式

    ​近期,「克劳锐」观察到,小红书不仅将Slogan从“你的生活指南” 变成“你的生活兴趣社区”,“市集”也强势入驻App首页底部导航栏一级入口…… 如今,在当下的内容消费市场,小红书早已超越 “种草社区” 的单一定位,成为深度融入大众生活的消费决策核心入口。 截至目前,小红书平台月活跃用户已突破3.5亿,这一数据背后,是“种草”理念对用户心智的深度渗透�

  • 腾讯云李力:坚持同源同构,为企业打造更贴近Agent的AI原生云

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出“更贴近Agent的AI+Infra”解决方案,包括Agent+Runtime、云专家服务智能体Cloud Mate及全链路安全能力。腾讯云副总裁李力强调,“同源同构”是核心原则,确保产品服务一致性与全球化布局。方案旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力AI从实验室走向生产级应用。腾讯云通过硬件多元支持、软件加速优化及智能运维服务,降低企业技术门槛,已服务国内90%大模型厂商及千行百业。

  • 淘宝开学季三连招,和超千万大学生一起开好局

    九月开学季,超千万大学新生涌入校园,这群承载着未来消费潜力的群体瞬间点燃各大平台的战火:有的狂撒优惠券,有的推出专属服务,有的拉来明星种草……平台和品牌扎堆下场,开学季营销战打得热闹非凡。 在这场抢人大战中,凭借对校园场景的深度渗透和生态优势,淘宝跳出了传统的框架,把工夫下在了更懂新生的地方:从一杯戳中社交刚需的奶茶免单,到一站式服务�

  • 视觉中国「灵感拓展」功能完成生成式AI服务上线登记

    视觉中国旗下中华易美视觉科技公司推出的“灵感拓展”功能已通过江苏省网信办生成式人工智能服务上线登记,正式在VCG.com面向用户开放。该功能基于国产大模型,结合丰富内容资源,通过AI技术为创作者提供灵感和方向,提升创意产出效率与质量。用户可在搜索时获得智能拆解的多维度创作建议,帮助精准定位需求,突破创作瓶颈,优化素材匹配效率。该功能是视觉中国在“AI智能+内容数据+应用场景”战略下的重要成果,目前已面向合作客户开放。

今日大家都在搜的词: