首页 > 业界 > 关键词  > ScreenAI最新资讯  > 正文

谷歌发布可读屏AI模型ScreenAI:可理解用户界面和信息图表

2024-03-05 08:57 · 稿源:站长之家

**划重点:**

1. 🌐 **ScreenAI引领AI界新趋势:** 谷歌研究推出ScreenAI,该AI模型能理解用户界面和信息图表,刷新各项任务的性能指标,包括根据信息图表回答问题、总结内容以及导航用户界面。

2. 🧠 **技术创新:** ScreenAI采用新颖的截图文本表示方法,通过识别UI元素的类型和位置,利用Google LLM PaLM2-S生成合成训练数据,使模型能够回答关于屏幕信息、屏幕导航和总结屏幕内容的问题。

3. 🚀 **未来展望与挑战:** 尽管ScreenAI在改善对数字内容理解方面取得了一定进展,但模型尚不能执行生成的操作。研究人员表示,尽管该专用模型在其类别中表现最佳,但在与更大型模型(如GPT-4和Gemini)的某些任务上仍需进一步研究,以推动其实际应用的发展。

站长之家(ChinaZ.com)3月5日 消息:谷歌研究最新发布的ScreenAI标志着语言和语音控制计算机界面的又一重要进展。这一AI模型不仅能理解用户界面和信息图表,而且在回答基于信息图表的问题、总结内容以及导航用户界面等多项任务上,创下了新的性能标杆。

ScreenAI的核心创新在于对截图的文本表示方法。该模型能够识别UI元素的类型和位置,这一方法使用了Google LLM PaLM2-S生成的合成训练数据,使其能够回答关于屏幕信息、屏幕导航和总结屏幕内容的问题。

为实现这一创新,ScreenAI将谷歌先前的技术进展,如PaLI架构和Pix2Struct的灵活修补机制,相结合。后者根据宽高比将图形分割为可变网格。ScreenAI通过图像编码器和多模态编码器处理图像和文本输入,然后使用自回归解码器生成文本输出。

image.png

研究人员进行的实验证明,模型性能随着模型大小的增加而提高。这表明通过扩大模型规模,可以进一步提升性能。与类似规模的模型相比,ScreenAI在各项基准测试中表现最佳,通常超过更大型模型。此外,使用光学字符识别(OCR)从截图中提取文本内容对模型性能有轻微积极影响。

然而,尽管ScreenAI在数字内容理解方面取得了一定里程碑,但模型尚不能执行生成的操作。研究人员指出,尽管目前有一些在智能手机上运行的语言模型,但缺乏更强大的多模态模型,这些模型可以结合文本、图像、音频和视频。他们预测,随着像ScreenAI这样的模型的发展,仅使用自然语言对智能手机和用户界面进行自动化处理将在不久的将来变得更加先进。

image.png

研究人员强调,虽然他们的专用模型在其类别中是最佳的,但在某些任务上仍需要进一步研究,以缩小与更大型模型(如GPT-4和Gemini)的差距。为鼓励更多的发展,谷歌研究计划发布ScreenAI的评估数据集,其中ScreenQA已经提供了包含36,000张截图的86,000个问答对;更复杂的变体和包含截图及其文本描述的集合将会推出。

image.png

举报

  • 相关推荐
  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • OpenAI 推出浏览器:“让位吧,Chrome”

    ​北京时间10月22日凌晨,没等来传闻中的Gemini3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。 简单来说,这是一个把ChatGPT"塞进"浏览器的产品,你在任何网页上都能随时唤出ChatGPT侧边栏,让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。 听起来有点像Chrome装了个ChatGPT插件?确实如此,但OpenAI的野心远不止于此。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • MSCI评级出炉:有落榜,有持平,海尔智家依旧最高

    MSCI最新ESG评级显示,家电行业表现分化:海尔智家再获AA级,维持国内最高评级;部分企业评级持平或落榜。A股白色家电板块ESG报告披露率达80%,显著高于市场平均水平。评级变化既检验企业阶段性成果,也为未来发展指明方向。在“双碳”背景下,将环境与社会责任转化为可持续竞争力,成为行业转型的关键。

  • 苹果前CEO发声:OpenAI成苹果AI时代劲敌 Siri显得十分滞后

    曾担任苹果首席执行官的约翰斯库利近日公开表示,OpenAI已成为苹果几十年来首个真正意义上的竞争对手,并直言人工智能并非苹果特别擅长的领域”。 从实际情况看,苹果在人工智能竞赛中确实表现欠佳。与OpenAI、谷歌、亚马逊和Meta等公司持续推出的产品更新相比,苹果显得步伐迟缓。今年早些时候,其对AI助手Siri进行全面升级的计划被推迟,这无疑在产品推进方面遭遇�

  • MSCI:海尔智家ESG评级再获AA,国内行业最高

    国际权威指数机构MSCI最新ESG评级结果显示,海尔智家再获AA级,为国内行业最高评级。这体现其环境、社会及治理综合表现达全球领先水平,也获国际资本市场对可持续发展能力的认可。海尔通过建立全球碳管理体系,形成覆盖研发、制造、物流等全链条的绿色管理模式,推出超节能产品,并关注员工权益与供应链责任。在双碳背景下,绿色转型既是挑战也是机遇,将持续推动企业长期发展。

  • 再获MSCI ESG行业最高评级!海尔智家为何总能位列行业ESG榜首

    海尔智家在MSCI最新ESG评级中再获AA级,居国内行业最高。其成功源于战略、系统、全球等多维度实践:将ESG融入三层治理架构,构建覆盖研发-采购-制造-物流-回收的绿色闭环,通过全球多元团队推动创新。这种可持续发展模式不仅赢得权威认可,更开辟了以ESG为核心竞争力的增长路径,为行业提供创造环境、社会与治理多重价值的启示。

  • 华为FreeClip 2耳夹耳机正式开售:售价1299元 搭载NPU AI处理器

    华为FreeClip 2耳夹耳机10月20日开售,售价1299元。预售1小时销量破8万台,市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器,算力提升10倍;配备超澎湃双引擎单元,响度与低频动力均翻倍。支持L2HC高清音频编码,音质清晰。新增鸿蒙AI耳边助手,支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构,单耳重5.1克,佩戴舒适且具备IP57防护。续航方面单次使用9小时,配合充电仓总续航达38小时,充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

  • AI日报:谷歌Gemini 3.0 Pro小范围推送;爱诗科技完成1亿元B+轮融资;百度发布文档解析模型 PaddleOCR-VL

    谷歌Gemini 3.0 Pro开始小范围推送,强化推理与多模态能力;百度发布全球领先文档解析模型PaddleOCR-VL,重塑OCR技术格局;爱诗科技完成亿元B+轮融资,ARR突破4000万美元;Anthropic推出Claude“skills”功能,提升AI工作效率;Pinterest推出AI内容限制工具,用户可自定义减少生成式图像;开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL;OpenAI视频生成模型Sora 2上线微软Azure平台,进入公共预览阶段;旅行搜索引擎Kayak推出“AI模式”,简化旅行规划与预订流程。

今日大家都在搜的词: