首页 > 业界 > 关键词  > 正文

清华大学开发出新视觉语言模型 可更准确理解 GUI

2023-12-27 15:29 · 稿源:站长之家

站长之家(ChinaZ.com)12月27日 消息:清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。

CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容,这是有效 GUI 交互的关键要求。

CogAgent 的架构具有独特的高分辨率跨模块,这是其性能的关键。该模块使模型能够有效处理高分辨率输入(1120x1120像素),这对于识别小型 GUI 元素和文本至关重要。

QQ截图20231227153006.jpg

CogAgent 在各种任务中优于现有的基于 LLM 的方法,特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。

这项研究的结果表明,CogAgent 代表了 VLM 的重大飞跃,特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。

CogAgent 的潜在应用包括:

  • 自动化 GUI 操作,例如点击按钮、输入文本和选择菜单。
  • 提供 GUI 帮助和指导,例如解释功能和提供操作说明。
  • 开发新的 GUI 设计和交互方式。

CogAgent 仍处于早期开发阶段,但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

地址:https://github.com/THUDM/CogVLM

举报

  • 相关推荐
  • “大叔不理解但照做”走红 本人回应:纯属意外

    近日,一段以“大叔不理解但照做”为主题的短视频在网络上迅速蹿红,引发了网友们的广泛关注和热烈讨论。 视频中,一位大叔误入云南永善县溪洛渡艺术团在上海机场步道的舞蹈拍摄队伍,在未完全理解情境的情况下,仍跟着摆出了一个动作,这一可爱且充满反差萌的举动,让视频的“快乐指数”极速飙升,全网都开始寻找这位神秘的“飞天大叔”。

  • 沃旭VSL - 340:让每台叉车都拥有“视觉大脑”

    沃旭通讯推出VSL-340叉车数字化终端,通过AI视觉、激光雷达与UWB多源融合技术,解决工厂物流找货难、调度乱、安全隐患多三大痛点。该终端实现厘米级定位、智能调度与主动安全防护,支持多车协同作业,提升效率30%以上,降低碰撞风险。无需大规模改造,即可让传统叉车升级为智能移动节点,助力工厂迈入可视化、可调度、可追踪的智慧物流新阶段。

  • 双11杀出新玩家,红果短剧开卖“霸总同款”

    双11激战正酣,素有“短剧一哥”之称的红果也开始带货了。 近日,红果开始内测短剧带货新功能,用户在红果观看短剧时,页面会弹出“搜同款”提示,让用户能在站内一键购买剧中同款产品。 一位接近字节的知情人士在接受“ Tech星球”采访时透露,红果“搜同款”带货功能是抖音的基础功能,现在抖音将该功能复制到了红果上。 剧点短剧副总裁吕少龙说:“这功能其实

  • AI视觉重塑质检“智慧之眼”,聚焦四大核心应用场景

    AI视觉质检技术正以精准化、场景化、智能化为核心驱动力,推动测试测量领域从传统人工/2D检测向“3D全维度+AI深度赋能”跨越升级。2026年慕尼黑上海电子生产设备展将汇聚超千家电子制造企业,集中展示焊接工艺缺陷检测、元件贴装质量排查等核心应用场景的解决方案。头部企业将通过3D成像+AI识别、X射线智能检测等技术,实现微米级缺陷精准捕捉与全流程数据闭环管理,

  • 2025视觉中国&500px视觉盛典青岛站开启招募!

    本文介绍了多个科技品牌在展会现场推出的互动体验和福利活动:至誉科技提供免费笔记本屏幕校色服务,关注小红书可领取贴纸等礼品;东芝通过问卷赠送手机挂绳;索尼展出新品相机镜头;适马打卡送周边;永诺展示神秘新品镜头;雷克沙关注社媒可领专属礼物;富图宝有识脚架互动游戏;神牛到场即送周边;艺卓体验专业显示器;唯卓仕可参与新品抽奖;斯丹德提供免费抽奖与补光灯体验;明基首次展出未发售的校色显示器。各品牌均通过现场互动吸引用户参与。

  • 鸿蒙公开课走进中山大学:解码“星火燎原”的创新故事

    11月14日,华为在中山大学举办鸿蒙公开课,吸引400名学生参与。华为终端业务总裁徐钦松分享了鸿蒙系统的诞生背景:为解决万物互联时代设备割裂、生态不通等痛点,华为自2015年起自主研发,通过底层架构创新实现多设备统一操作,构建“一个系统、一个生态”。目前鸿蒙生态设备超10亿台,覆盖18个领域,开发者规模达800万,并与400多所高校合作培养人才。鸿蒙从“可用”到“好用”的跨越,正成为推动产业数字化的重要引擎。

  • 慧辰股份的AI应用破圈 发布机器人智脑“X”平台赋能让硬件更智能

    慧辰股份发布AI战略,聚焦垂直领域打造“专才”而非“通才”AI产品。其四大智能体包括:Data Agent重塑数据分析交互,让业务人员用自然语言分析内外数据;垂直行业数据洞见智能体,专攻非结构化数据价值挖掘;市场需求研判智能体,辅助销售团队把握商机;数字员工管理平台,规模化部署AI应用。通过将AI技术与行业Know-How深度结合,该公司推动AI从“炫技”走向“赋能”,成为产业数字化转型的基础设施。

  • 小孩姐逛清华暴走2万步直呼不考了:天真烂漫言论引热议

    ​近日,一名小女孩在参观清华大学后,因徒步游览校园导致“脚底板抗议”,笑称“还是职业技术学院好,路少走些”,其天真烂漫的言论在网络上引发广泛关注和热议。 据悉, 11 月 9 日,一位妈妈带着女儿来到清华校园参观,希望能激发孩子对名校的向往。小女孩起初兴致高昂,在清华二校门、清华学堂等地标前打卡留念,并立志将来要考入这所顶尖学府。然而,随着�

  • 从巴别鱼到技术突围:W4Pro以体验领先定义跨语言沟通新标杆

    时空壶W4Pro开放式AI同传耳机通过技术创新,将科幻构想变为现实产品。在跨语言沟通核心指标上实现双重突破:响应延迟仅0.2秒,较行业平均提速75%;翻译延迟控制在3秒内,实测平均2.8秒,较竞品提速38%-53%。搭载骨声纹识别+矢量降噪双技术方案,在85分贝嘈杂环境中语音识别准确率仍保持98%以上。支持43种语言及96种口音实时互译,覆盖全球98%主流区域,新增孟加拉语等小语种适配。单设备即可实现双向跨语言交流,打破多数竞品需配对使用的局限。单次充电支持6小时翻译使用,综合续航达18小时,开放式挂耳设计仅重12克。该产品精准解决了跨语言沟通中的延迟、降噪、场景适配等核心痛点,推动行业向"无感沟通"迈进。

  • 热搜第一!苹果推出新配件:1299元买“一块布”

    微博话题iPhone Pocket发布”冲上热搜榜第一名,引发关注。 今天下午,苹果官方宣布,ISSEY MIYAKE携手苹果正式推出iPhone Pocket,短款售价1299元,长款售价1899元。

今日大家都在搜的词: