首页 > 业界 > 关键词  > 正文

清华大学开发出新视觉语言模型 可更准确理解 GUI

2023-12-27 15:29 · 稿源:站长之家

站长之家(ChinaZ.com)12月27日 消息:清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。

CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容,这是有效 GUI 交互的关键要求。

CogAgent 的架构具有独特的高分辨率跨模块,这是其性能的关键。该模块使模型能够有效处理高分辨率输入(1120x1120像素),这对于识别小型 GUI 元素和文本至关重要。

QQ截图20231227153006.jpg

CogAgent 在各种任务中优于现有的基于 LLM 的方法,特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。

这项研究的结果表明,CogAgent 代表了 VLM 的重大飞跃,特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。

CogAgent 的潜在应用包括:

  • 自动化 GUI 操作,例如点击按钮、输入文本和选择菜单。
  • 提供 GUI 帮助和指导,例如解释功能和提供操作说明。
  • 开发新的 GUI 设计和交互方式。

CogAgent 仍处于早期开发阶段,但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

地址:https://github.com/THUDM/CogVLM

举报

  • 相关推荐
  • 清华大学一教师遇“百万保险”骗局:保卫处紧急提醒

    清华大学保卫处近日发布提醒,称近日接到公安机关通报,有多起冒充客服实施的网络诈骗案件,目标直指高校师生群体。诈骗手段:诈骗分子常采用电话或短信的方式,假冒淘宝、京东、抖音等平台客服,以退款、账户安全等事由为幌子,诱使受害者提供银行账户信息,或者引导其进行转账操作。6.强化账户安全:定期更新账户密码,且尽量使用复杂密码,以此提高账户的安全性。

  • 时空壶接入DeepSeek、豆包等大语言模型,翻译准确度再次跃升

    在全球跨语言沟通需求持续攀升的当下,时空壶再次以创新之举震撼行业。时空壶正式宣布接入DeepSeek、豆包等大语言模型,为其同传耳机产品带来了前所未有的体验升级,彻底改写了同传翻译的游戏规则,也让传统机翻模式成为历史。这一创新举措不仅满足了当下各行业对高质量跨语言沟通的迫切需求,更为未来跨语言交流的发展指明了方向,有望推动整个行业向更加智能、精准、自然的方向迈进,助力全球交流合作开启全新篇章。

  • 时空壶接入大语言模型,跨语言沟通已成翻译的艺术

    在当今全球化浪潮中,跨语言沟通的需求如潮水般汹涌。从商务领域的跨国谈判,到文化交流中的思想碰撞,高效、精准的语言翻译成为关键桥梁。随着技术的不断发展与迭代,时空壶有望持续引领行业变革,推动全球交流合作迈向新的高度,真正实现跨越语言障碍,让世界沟通无阻。

  • 理解海豚声音!谷歌开发全新AI模型DolphinGemma

    快科技4月15日消息,谷歌公布了一款名为DolphinGemma”的大型语言模型,旨在帮助科学家理解海豚的声音,并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry(CHAT)发声系统,以探索是否能够翻译并模仿海豚的声音,进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一,其社交互动极其复杂�

  • 百度研发出广告推荐新系统:大模型加持、转化率提升3.6%

    近日,百度团队在arXiv上发表论文,介绍了一种名为COBRA的新算法框架,被应用于提升生成式模型在广告推荐系统中的使用效果。根据论文介绍,工程师将COBRA框架应用于真实环境中的A/B测试,结果显示转化率提升了3.6%,平均每用户收入增加了4.15%。实测效果表明,COBRA框架在利用公开数据集和工业数据集进行离线和在线评估后,均优于目前业内最先进的方法。

  • 开源即支持!基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

    多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一,国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期,上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列,相比上一代InternVL2. 5 模型,该模型展现出卓越的多模态感知和推理能力,同时进一步扩展了其工具使用、GUI代理、工业图像分析等

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 国家天文台、阿里云联合发布全球首个太阳AI大模型:耀斑预报准确率超91%

    中科院国家天文台联合阿里云,发布了全球首个太阳AI大模型金乌”,基于阿里通义千问系列开源模型,目前在M5级太阳耀斑预报上准确率超91%,这也是该级别太阳耀斑预报的最高水平。太阳耀斑是太阳表面发生的剧烈能量释放事件,会辐射出大量带电高能粒子,影响地球电磁环境,严重时可造成大范围停电,威胁在轨卫星、空间站的安全。值得一提的是,中科院国家天文台的星语”大模型、中科院青藏高原研究所的全球首个水能粮大模型洛书”、中科院南海所的珊瑚礁多模态大模型瑶华”,都是基于阿里通义千问系列模型打造的。

  • 联发科天玑9400+拿下最强AI手机芯片:端侧推理准确率反超云端大模型

    今日,联发科举办天玑开发者大会2025,正式发布新一代旗舰芯片天玑9400。天玑9400定位旗舰5G智能体AI芯片,综合AI跑分是天玑9400的1.25倍,支持最高8B规模的DeepSeek-R1端测部署,推理准确率反超云端大模型。天玑9400采用台积电第二代3nm工艺,CPU架构延续创新全大核设计,包含1颗主频3.7GHz的Cortex-X925超大核、3颗3.3GHz的Cortex-X4大核与4颗2.4GHz的Cortex-A720大核。

  • 微软上线GPT-image-1模型 通过API向开发者开放使用

    OpenAI于4月24日发布全新图像生成模型GPT-image-1,通过API向全球开发者开放。该模型支持生成高质量图像,具备多级定制功能,包括控制敏感度、生成效率、背景、输出格式等参数,并推出"吉卜力模式"生成独特风格图像。Adobe、Figma等多家企业已将其集成到产品中。API定价按token计算,低质量图像生成成本约0.02美元/张。OpenAI CEO Sam Altman高度评价该模型,认为其为开发者带来更大创意空间。