首页 > 业界 > 关键词  > ScreenAI最新资讯  > 正文

谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型

2024-02-21 09:49 · 稿源:站长之家

划重点:

⭐️ Google AI 团队提出了 ScreenAI,这是一个视觉语言模型,可以全面理解 UI 和信息图。

⭐️ ScreenAI 在多个任务上表现出色,包括图形问答(QA),元素注释,摘要生成等。

⭐️ 该团队发布了三个新数据集,为未来研究提供更多资源。

站长之家(ChinaZ.com)2月21日 消息:Google AI 最近提出了 ScreenAI,这是一个视觉语言模型,旨在全面理解用户界面(UI)和信息图。UI 和信息图在现代数字世界中共享设计概念和视觉语言,但由于每个领域的复杂性,创建一个统一的模型变得更加困难。为了解决这个问题,Google AI 团队提出了 ScreenAI 作为解决方案。

image.png

ScreenAI 具有处理图形问答(QA)等任务的能力,这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构,使其能够将视觉相关任务转化为文本或图像到文本问题。

团队进行了多项测试,展示了这些设计决策如何影响模型的功能。经评估,ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果,参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色,优于同等规模模型。

团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务,另外两个数据集则专注于问答,进一步扩展了可用资源,以推动该领域的发展。

ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计,ScreenAI 为理解数字内容提供了全面的方法。

论文地址:https://arxiv.org/abs/2402.04615

举报

  • 相关推荐
  • 再获MSCI ESG行业最高评级!海尔智家为何总能位列行业ESG榜首

    海尔智家在MSCI最新ESG评级中再获AA级,居国内行业最高。其成功源于战略、系统、全球等多维度实践:将ESG融入三层治理架构,构建覆盖研发-采购-制造-物流-回收的绿色闭环,通过全球多元团队推动创新。这种可持续发展模式不仅赢得权威认可,更开辟了以ESG为核心竞争力的增长路径,为行业提供创造环境、社会与治理多重价值的启示。

  • MSCI评级出炉:有落榜,有持平,海尔智家依旧最高

    MSCI最新ESG评级显示,家电行业表现分化:海尔智家再获AA级,维持国内最高评级;部分企业评级持平或落榜。A股白色家电板块ESG报告披露率达80%,显著高于市场平均水平。评级变化既检验企业阶段性成果,也为未来发展指明方向。在“双碳”背景下,将环境与社会责任转化为可持续竞争力,成为行业转型的关键。

  • 苹果前CEO发声:OpenAI成苹果AI时代劲敌 Siri显得十分滞后

    曾担任苹果首席执行官的约翰斯库利近日公开表示,OpenAI已成为苹果几十年来首个真正意义上的竞争对手,并直言人工智能并非苹果特别擅长的领域”。 从实际情况看,苹果在人工智能竞赛中确实表现欠佳。与OpenAI、谷歌、亚马逊和Meta等公司持续推出的产品更新相比,苹果显得步伐迟缓。今年早些时候,其对AI助手Siri进行全面升级的计划被推迟,这无疑在产品推进方面遭遇�

  • MSCI:海尔智家ESG评级再获AA,国内行业最高

    国际权威指数机构MSCI最新ESG评级结果显示,海尔智家再获AA级,为国内行业最高评级。这体现其环境、社会及治理综合表现达全球领先水平,也获国际资本市场对可持续发展能力的认可。海尔通过建立全球碳管理体系,形成覆盖研发、制造、物流等全链条的绿色管理模式,推出超节能产品,并关注员工权益与供应链责任。在双碳背景下,绿色转型既是挑战也是机遇,将持续推动企业长期发展。

  • AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

    谷歌Gemini 3.0 Pro开始小范围推送,强化推理与多模态能力;百度发布全球领先文档解析模型PaddleOCR-VL,重塑OCR技术格局;爱诗科技完成亿元B+轮融资,ARR突破4000万美元;Anthropic推出Claude“skills”功能,提升AI工作效率;Pinterest推出AI内容限制工具,用户可自定义减少生成式图像;开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL;OpenAI视频生成模型Sora 2上线微软Azure平台,进入公共预览阶段;旅行搜索引擎Kayak推出“AI模式”,简化旅行规划与预订流程。

  • 见所未见 百微新生 索尼发布首款G大师微距镜头FE 100mm F2.8 Macro GM OSS

    索尼将于2025年10月发布首款1G大师系列微距镜头FE 100mm F2.8 Macro GM OSS。新品实现1.4倍放大率,搭配增距镜可达2.8倍,配备4个XD线性马达使自动对焦性能提升1.9倍。采用11片圆形光圈与第二代纳米AR镀膜技术,搭载专为微距设计的光学防抖系统。镜头重646克,具备防尘防潮设计,建议零售价9,299元。

  • AI日报:微软发布首款自研图像生成模型 MAI-Image-1;百度世界大会时间公布;AI大牛开源nanochat教学工具

    微软发布首款自研图像生成模型MAI-Image-1,跻身LMArena前十,注重实用性与光影效果;百度世界2025大会将聚焦大模型与AI全球化战略;Meta新技术使RAG推理速度提升30倍;开源项目nanochat实现低成本构建聊天AI;谷歌NotebookLM新增动漫视频生成功能;中国农大发布神农大模型3.0助力智慧农业;腾讯启动"青云奖学金"培养AI人才;苹果FS-DFM模型长文本生成效率提升128倍;谷歌Lens整合AI图像编辑功能;港大与美团提出CodePlot-CoT方法,通过代码绘图解决数学难题,性能提升21%。

  • 全球首个!OpenAI将推“AI版抖音”:禁止上传实拍内容 视频100%由AI生成

    国庆假期前夕,OpenAI发布了Sora 2,一款旗舰视频和音频生成模型。 据介绍,Sora 2可以完成以前的视频生成模型难以完成的事情,比如运动员的奥林匹克体动作、桨板上的后空翻,准确模拟浮力和刚度的动态等等,并擅长现实主义、电影和动漫风格。 一则来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI影�

  • 外星人为啥还没来 NASA科学家:可能已停止尝试接触人类

    美国科学家提出新假说解释费米悖论:外星文明可能因认为人类太无趣而停止接触。NASA专家科尔贝指出,外星技术可能仅略高于地球,尚未达到可探测水平。但英国学者加勒特持不同观点,认为其他文明可能发展过快,超出人类感知范围。两种理论均试图解释为何在观测能力提升的今天,仍未发现外星文明存在的确凿证据。

  • 打破应用孤岛——个推AI SDK全面接入MCP全场景能力

    大模型技术正推动产业从移动互联网向智能互联网跃迁,用户需求转向场景化、主动化、闭环化的智能体验。个推推出行业首个AI+SDK,集成自然语言交互、上下文理解、行业知识库等能力,帮助APP一键集成AI功能,降低开发成本。通过智能搜索、跨应用服务协同(MCP)等,实现从"字面匹配"到"意图识别"的升级,为用户提供精准服务。该方案已接入AI协同应用创新平台,支持多行业快速构建专业可信的智能应用生态。

今日大家都在搜的词: