清华大学开发出新视觉语言模型可更准确理解 GUI

2023-12-27 15:29 · 稿源：站长之家

站长之家（ChinaZ.com）12月27日消息:清华大学智普AI的研究人员开发了一种新的视觉语言模型（VLM），名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。

CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容，这是有效 GUI 交互的关键要求。

CogAgent 的架构具有独特的高分辨率跨模块，这是其性能的关键。该模块使模型能够有效处理高分辨率输入（1120x1120像素），这对于识别小型 GUI 元素和文本至关重要。

QQ截图20231227153006.jpg

CogAgent 在各种任务中优于现有的基于 LLM 的方法，特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。

这项研究的结果表明，CogAgent 代表了 VLM 的重大飞跃，特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。

CogAgent 的潜在应用包括:

自动化 GUI 操作，例如点击按钮、输入文本和选择菜单。
提供 GUI 帮助和指导，例如解释功能和提供操作说明。
开发新的 GUI 设计和交互方式。

CogAgent 仍处于早期开发阶段，但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

地址：https://github.com/THUDM/CogVLM

（举报）

相关推荐

关键词：

“大叔不理解但照做”走红本人回应：纯属意外

近日，一段以“大叔不理解但照做”为主题的短视频在网络上迅速蹿红，引发了网友们的广泛关注和热烈讨论。视频中，一位大叔误入云南永善县溪洛渡艺术团在上海机场步道的舞蹈拍摄队伍，在未完全理解情境的情况下，仍跟着摆出了一个动作，这一可爱且充满反差萌的举动，让视频的“快乐指数”极速飙升，全网都开始寻找这位神秘的“飞天大叔”。

短视频网络热点反差萌
沃旭VSL - 340：让每台叉车都拥有“视觉大脑”

沃旭通讯推出VSL-340叉车数字化终端，通过AI视觉、激光雷达与UWB多源融合技术，解决工厂物流找货难、调度乱、安全隐患多三大痛点。该终端实现厘米级定位、智能调度与主动安全防护，支持多车协同作业，提升效率30%以上，降低碰撞风险。无需大规模改造，即可让传统叉车升级为智能移动节点，助力工厂迈入可视化、可调度、可追踪的智慧物流新阶段。

智能制造工厂物流叉车数字化
荐双11杀出新玩家，红果短剧开卖“霸总同款”

双11激战正酣，素有“短剧一哥”之称的红果也开始带货了。近日，红果开始内测短剧带货新功能，用户在红果观看短剧时，页面会弹出“搜同款”提示，让用户能在站内一键购买剧中同款产品。一位接近字节的知情人士在接受“ Tech星球”采访时透露，红果“搜同款”带货功能是抖音的基础功能，现在抖音将该功能复制到了红果上。剧点短剧副总裁吕少龙说:“这功能其实

短剧带货红果搜同款
AI视觉重塑质检“智慧之眼”，聚焦四大核心应用场景

AI视觉质检技术正以精准化、场景化、智能化为核心驱动力，推动测试测量领域从传统人工/2D检测向“3D全维度+AI深度赋能”跨越升级。2026年慕尼黑上海电子生产设备展将汇聚超千家电子制造企业，集中展示焊接工艺缺陷检测、元件贴装质量排查等核心应用场景的解决方案。头部企业将通过3D成像+AI识别、X射线智能检测等技术，实现微米级缺陷精准捕捉与全流程数据闭环管理，

AI视觉质检 3D全维度检测电子制造展会
2025视觉中国&500px视觉盛典青岛站开启招募！

本文介绍了多个科技品牌在展会现场推出的互动体验和福利活动：至誉科技提供免费笔记本屏幕校色服务，关注小红书可领取贴纸等礼品；东芝通过问卷赠送手机挂绳；索尼展出新品相机镜头；适马打卡送周边；永诺展示神秘新品镜头；雷克沙关注社媒可领专属礼物；富图宝有识脚架互动游戏；神牛到场即送周边；艺卓体验专业显示器；唯卓仕可参与新品抽奖；斯丹德提供免费抽奖与补光灯体验；明基首次展出未发售的校色显示器。各品牌均通过现场互动吸引用户参与。

展位活动免费校色问卷赢礼
鸿蒙公开课走进中山大学：解码“星火燎原”的创新故事

11月14日，华为在中山大学举办鸿蒙公开课，吸引400名学生参与。华为终端业务总裁徐钦松分享了鸿蒙系统的诞生背景：为解决万物互联时代设备割裂、生态不通等痛点，华为自2015年起自主研发，通过底层架构创新实现多设备统一操作，构建“一个系统、一个生态”。目前鸿蒙生态设备超10亿台，覆盖18个领域，开发者规模达800万，并与400多所高校合作培养人才。鸿蒙从“可用”到“好用”的跨越，正成为推动产业数字化的重要引擎。

鸿蒙操作系统创新引领未来万物智联时代
慧辰股份的AI应用破圈发布机器人智脑“X”平台赋能让硬件更智能

慧辰股份发布AI战略，聚焦垂直领域打造“专才”而非“通才”AI产品。其四大智能体包括：Data Agent重塑数据分析交互，让业务人员用自然语言分析内外数据；垂直行业数据洞见智能体，专攻非结构化数据价值挖掘；市场需求研判智能体，辅助销售团队把握商机；数字员工管理平台，规模化部署AI应用。通过将AI技术与行业Know-How深度结合，该公司推动AI从“炫技”走向“赋能”，成为产业数字化转型的基础设施。

人工智能垂直领域AI 企业级AI
小孩姐逛清华暴走2万步直呼不考了：天真烂漫言论引热议

近日，一名小女孩在参观清华大学后，因徒步游览校园导致“脚底板抗议”，笑称“还是职业技术学院好，路少走些”，其天真烂漫的言论在网络上引发广泛关注和热议。据悉， 11 月 9 日，一位妈妈带着女儿来到清华校园参观，希望能激发孩子对名校的向往。小女孩起初兴致高昂，在清华二校门、清华学堂等地标前打卡留念，并立志将来要考入这所顶尖学府。然而，随着�

清华大学校园参观徒步游览
从巴别鱼到技术突围：W4Pro以体验领先定义跨语言沟通新标杆

时空壶W4Pro开放式AI同传耳机通过技术创新，将科幻构想变为现实产品。在跨语言沟通核心指标上实现双重突破：响应延迟仅0.2秒，较行业平均提速75%；翻译延迟控制在3秒内，实测平均2.8秒，较竞品提速38%-53%。搭载骨声纹识别+矢量降噪双技术方案，在85分贝嘈杂环境中语音识别准确率仍保持98%以上。支持43种语言及96种口音实时互译，覆盖全球98%主流区域，新增孟加拉语等小语种适配。单设备即可实现双向跨语言交流，打破多数竞品需配对使用的局限。单次充电支持6小时翻译使用，综合续航达18小时，开放式挂耳设计仅重12克。该产品精准解决了跨语言沟通中的延迟、降噪、场景适配等核心痛点，推动行业向"无感沟通"迈进。

跨语言沟通 AI同传耳机技术创新
热搜第一！苹果推出新配件：1299元买“一块布”

微博话题iPhone Pocket发布”冲上热搜榜第一名，引发关注。今天下午，苹果官方宣布，ISSEY MIYAKE携手苹果正式推出iPhone Pocket，短款售价1299元，长款售价1899元。

iPhone Pocket 苹果配件

今日大家都在搜的词：

热文

3 天
7天

清华大学开发出新视觉语言模型可更准确理解 GUI

“大叔不理解但照做”走红本人回应：纯属意外

沃旭VSL - 340：让每台叉车都拥有“视觉大脑”

荐双11杀出新玩家，红果短剧开卖“霸总同款”

AI视觉重塑质检“智慧之眼”，聚焦四大核心应用场景

2025视觉中国&500px视觉盛典青岛站开启招募！

鸿蒙公开课走进中山大学：解码“星火燎原”的创新故事

慧辰股份的AI应用破圈发布机器人智脑“X”平台赋能让硬件更智能

小孩姐逛清华暴走2万步直呼不考了：天真烂漫言论引热议

从巴别鱼到技术突围：W4Pro以体验领先定义跨语言沟通新标杆

热搜第一！苹果推出新配件：1299元买“一块布”

今日大家都在搜的词：

热文

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

小米超级小爱AI大模型推出随心修图功能

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

荣耀500系列官宣将于11月24日发布

阿里巴巴回应千问崩了：状态良好欢迎来问

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

95岁巴菲特每周还上5天班此前计划年底退休

华为Mate 80系列已在华为商城开启预约

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

荣耀500系列官宣：超级标准版+超级Pro版

站长商机

清华大学开发出新视觉语言模型 可更准确理解 GUI

今日大家都在搜的词：

热文

站长商机

清华大学开发出新视觉语言模型可更准确理解 GUI