谷歌AI推出ScreenAI：用于UI和信息图解读的视觉语言模型

2024-02-21 09:49 · 稿源：站长之家

划重点:

⭐️ Google AI 团队提出了 ScreenAI，这是一个视觉语言模型，可以全面理解 UI 和信息图。

⭐️ ScreenAI 在多个任务上表现出色，包括图形问答（QA），元素注释，摘要生成等。

⭐️ 该团队发布了三个新数据集，为未来研究提供更多资源。

站长之家（ChinaZ.com）2月21日消息:Google AI 最近提出了 ScreenAI，这是一个视觉语言模型，旨在全面理解用户界面（UI）和信息图。UI 和信息图在现代数字世界中共享设计概念和视觉语言，但由于每个领域的复杂性，创建一个统一的模型变得更加困难。为了解决这个问题，Google AI 团队提出了 ScreenAI 作为解决方案。

ScreenAI 具有处理图形问答（QA）等任务的能力，这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构，使其能够将视觉相关任务转化为文本或图像到文本问题。

团队进行了多项测试，展示了这些设计决策如何影响模型的功能。经评估，ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果，参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色，优于同等规模模型。

团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务，另外两个数据集则专注于问答，进一步扩展了可用资源，以推动该领域的发展。

ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计，ScreenAI 为理解数字内容提供了全面的方法。

论文地址:https://arxiv.org/abs/2402.04615

（举报）

相关推荐

关键词：

再获MSCI ESG行业最高评级！海尔智家为何总能位列行业ESG榜首

海尔智家在MSCI最新ESG评级中再获AA级，居国内行业最高。其成功源于战略、系统、全球等多维度实践：将ESG融入三层治理架构，构建覆盖研发-采购-制造-物流-回收的绿色闭环，通过全球多元团队推动创新。这种可持续发展模式不仅赢得权威认可，更开辟了以ESG为核心竞争力的增长路径，为行业提供创造环境、社会与治理多重价值的启示。

MSCI ESG评级海尔智家
MSCI评级出炉：有落榜，有持平，海尔智家依旧最高

MSCI最新ESG评级显示，家电行业表现分化：海尔智家再获AA级，维持国内最高评级；部分企业评级持平或落榜。A股白色家电板块ESG报告披露率达80%，显著高于市场平均水平。评级变化既检验企业阶段性成果，也为未来发展指明方向。在“双碳”背景下，将环境与社会责任转化为可持续竞争力，成为行业转型的关键。

MSCI ESG评级家电行业
苹果前CEO发声：OpenAI成苹果AI时代劲敌 Siri显得十分滞后

曾担任苹果首席执行官的约翰斯库利近日公开表示，OpenAI已成为苹果几十年来首个真正意义上的竞争对手，并直言人工智能并非苹果特别擅长的领域”。从实际情况看，苹果在人工智能竞赛中确实表现欠佳。与OpenAI、谷歌、亚马逊和Meta等公司持续推出的产品更新相比，苹果显得步伐迟缓。今年早些时候，其对AI助手Siri进行全面升级的计划被推迟，这无疑在产品推进方面遭遇�

苹果人工智能 OpenAI
MSCI：海尔智家ESG评级再获AA，国内行业最高

国际权威指数机构MSCI最新ESG评级结果显示，海尔智家再获AA级，为国内行业最高评级。这体现其环境、社会及治理综合表现达全球领先水平，也获国际资本市场对可持续发展能力的认可。海尔通过建立全球碳管理体系，形成覆盖研发、制造、物流等全链条的绿色管理模式，推出超节能产品，并关注员工权益与供应链责任。在双碳背景下，绿色转型既是挑战也是机遇，将持续推动企业长期发展。

MSCI ESG评级海尔智家
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
见所未见百微新生索尼发布首款G大师微距镜头FE 100mm F2.8 Macro GM OSS

索尼将于2025年10月发布首款1G大师系列微距镜头FE 100mm F2.8 Macro GM OSS。新品实现1.4倍放大率，搭配增距镜可达2.8倍，配备4个XD线性马达使自动对焦性能提升1.9倍。采用11片圆形光圈与第二代纳米AR镀膜技术，搭载专为微距设计的光学防抖系统。镜头重646克，具备防尘防潮设计，建议零售价9,299元。

索尼微单微距镜头 G大师系列
AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
外星人为啥还没来 NASA科学家：可能已停止尝试接触人类

美国科学家提出新假说解释费米悖论：外星文明可能因认为人类太无趣而停止接触。NASA专家科尔贝指出，外星技术可能仅略高于地球，尚未达到可探测水平。但英国学者加勒特持不同观点，认为其他文明可能发展过快，超出人类感知范围。两种理论均试图解释为何在观测能力提升的今天，仍未发现外星文明存在的确凿证据。

外星文明费米悖论射电望远镜
打破应用孤岛——个推AI SDK全面接入MCP全场景能力

大模型技术正推动产业从移动互联网向智能互联网跃迁，用户需求转向场景化、主动化、闭环化的智能体验。个推推出行业首个AI+SDK，集成自然语言交互、上下文理解、行业知识库等能力，帮助APP一键集成AI功能，降低开发成本。通过智能搜索、跨应用服务协同（MCP）等，实现从"字面匹配"到"意图识别"的升级，为用户提供精准服务。该方案已接入AI协同应用创新平台，支持多行业快速构建专业可信的智能应用生态。

AI技术产业革命智能互联网

今日大家都在搜的词：

热文

3 天
7天

谷歌AI推出ScreenAI：用于UI和信息图解读的视觉语言模型

再获MSCI ESG行业最高评级！海尔智家为何总能位列行业ESG榜首

MSCI评级出炉：有落榜，有持平，海尔智家依旧最高

苹果前CEO发声：OpenAI成苹果AI时代劲敌 Siri显得十分滞后

MSCI：海尔智家ESG评级再获AA，国内行业最高

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

见所未见百微新生索尼发布首款G大师微距镜头FE 100mm F2.8 Macro GM OSS

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

外星人为啥还没来 NASA科学家：可能已停止尝试接触人类

打破应用孤岛——个推AI SDK全面接入MCP全场景能力

今日大家都在搜的词：

热文

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

小米推出短剧App围观短剧：主打无广告免费看

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

王腾首次回应下一步计划：称在考虑些创业项目

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

站长商机