首页 > 业界 > 关键词  > 视觉语言模型最新资讯  > 正文

视觉语言模型BLIVA:让AI更擅长阅读图像中的文本 懂得看路牌和食品包装

2023-08-28 11:14 · 稿源:站长之家

文章概要:

1. BLIVA是一种视觉语言模型,擅长读取图像中的文本。

2. BLIVA结合了InstructBLIP的学习查询嵌入和LLaVA的编码修补嵌入。

3. BLIVA在多个数据集上表现优异,可用于识别路牌、食品包装等场景。

站长之家(ChinaZ.com)8月28日 消息:BLIVA 是一种视觉语言模型,擅长读取图像中的文本,使其在许多行业的现实场景和应用中发挥作用。

加州大学圣地亚哥分校的研究人员开发了 BLIVA,这是一种视觉语言模型,旨在更好地处理包含文本的图像。视觉语言模型 (VLM) 通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。

这种多模态模型在开放式视觉问答基准方面取得了令人印象深刻的进展。一个例子是 OpenAI 的GPT-4,它的多模式形式可以在用户提示时讨论图像内容,尽管此功能目前仅在“Be my Eyes”应用程序中可用。

然而,当前系统的一个主要限制是处理带有文本的图像的能力,这在现实场景中很常见。

BLIVA 结合了 InstructBLIP 和 LLaVA

视觉语言模型通过合并视觉理解功能来扩展大型语言模型,以回答有关图像的问题。

BLIVA结合了两种互补的视觉嵌入类型。一种是Salesforce InstructBLIP提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。

image.png

研究人员表示,这种双重方法允许BLIVA同时利用针对文本定制的精炼查询嵌入,以及捕捉更多视觉细节的更丰富的编码修补。

BLIVA 使用大约550,000个图像标题对进行了预训练,并使用150,000个视觉问答示例调整了指令,同时保持视觉编码器和语言模型冻结。

在多个数据集上,BLIVA的表现明显优于InstructBLIP等其他模型。例如,在OCR-VQA数据集上,BLIVA的准确率达到65.38%,而InstructBLIP只有47.62%。

image.png

研究人员认为这证明了多嵌入方法对广泛的视觉理解的益处。BLIVA还在YouTube视频缩略图数据集上取得了92%的准确率。BLIVA识读图像文本的能力可应用于许多行业,如识别路牌、食品包装等。BLIVA有望改善现实世界中的多种应用。

项目网址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA

举报

  • 相关推荐
  • vivo旗下OriginOS 5微信朋友圈Live图适配计划公布

    微信朋友圈向安卓用户开放Live图发布功能,vivo旗下X200系列和iQOO13机型率先支持。该功能源自苹果2015年推出的Live Photos技术,可同步记录3秒动态画面。用户拍摄的Live图可在朋友圈直接发布,好友点击即可播放动态画面和音频。vivo表示将通过OriginOS系统升级逐步适配更多机型。行业观察认为,安卓厂商对Live图的适配标志着动态影像社交功能在移动端的加速普及,未来或将催生更多跨平台内容创作场景。

  • 字节发布豆包1.5深度思考模型:“实拍级”图像生成

    快科技4月17日消息,据报道,今日,在火山引擎AI创新巡展杭州站的现场,字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,它能够精准高效地处理复杂问题;在创意写作等通用任务方面,同样表现出色。该模型采用MoE架构,总参数为200B,激�

  • OPPO Reno14系列官宣:将于本月发布 号称Live图神机

    Reno13系列还为Live图增添了更丰富的风格化选项,新增的柔光拍照模式提供朦胧、柔美、梦幻三种不同风格的柔光效果,方便用户根据不同拍摄场景和个人喜好,选择最合适的光线效果,为人物拍摄营造出梦幻般的氛围。此次OPPO Reno14系列将在Live图玩法上继续升级,令人期待。

  • OPPO/一加官宣支持微信朋友圈发布Live图:陆续覆盖70+机型

    快科技4月19日消息,OPPO官方正式宣布,ColorOS 15支持微信发朋友圈Live图了,安卓终于不用羡慕iPhone了。该功能将覆盖OPPO和一加阵营,支持70多款机型,将陆续升级覆盖,暂时没支持到的朋友可以稍微等待一下。实况照片是在2015年随iPhone 6S推出的一项功能,其核心在于用户拍摄一张照片时,同步录制一段长度约为3秒的视频。用户可以在相册中使用3D Touch激活实况照片,静态照片�

  • AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 首次实现图像思考 OpenAI重磅发布o3/o4-mini:史上最强、最智能模型

    快科技4月17日消息,今日,OpenAI新款AI模型o3、o4-mini重磅发布,这是OpenAI迄今最强、最智能的模型。据了解,OpenAI o3/o4-mini首次具备真正的视觉推理能力,看图识图已经是小菜一碟了,现在还会看图思考。OpenAI o3/o4-mini能同时处理文本、图像和音频,并且能作为Agent智能体自动调用网络搜索、图像生成、代码解析等工具以及深度思考模式。通过强化学习,OpenAI训练了o3/o4-mini如何�

  • 不用羡慕iPhone!vivo、荣耀、OPPO、一加官宣支持微信朋友圈发Live图

    快科技4月20日消息,早在去年9月,微信iOS版本就率先上线了朋友圈发布Live实况照片的功能,而微信安卓版却迟迟未上线。不过,这几天多家国产手机厂商陆续宣布,旗下部分机型将支持朋友圈发Live图,安卓用户终于不用再羡慕iPhone用户。据了解,目前已官宣的品牌包括vivo、荣耀、OPPO、一加。其中,OPPOFind X8系列、Find N5系列、Reno13系列等70款机型陆续升级覆盖,一加13T在内的�

  • OPPO Reno14全系标配3.5倍潜望长焦:支持高清长焦Live图

    据了解,OPPO Reno14 Pro首发天玑8450处理器,采用台积电4nm制程工艺,CPU为1 3 4架构设计,是联发科最强天玑8系芯片。

  • AI驱动食品供应链,食品科技独角兽GrubMarket再获5000万美元融资

    4 月 16 日消息,美国最 大的私营食品技术公司GrubMarket宣布获得 5000 万美元G轮融资。本轮融资由LibertyStreet Funds、3Spoke Capital、ROC Venture Group、Portfolia、Pegasus Tech Ventures、Joseph Stone Capital以及其他未具名的投资者参与。自成立以来,GrubMarket已完成多轮融资,融资金额达5. 5 亿美元,目前估值超过 35 亿美元。GrubMarket创始人兼首席执行官徐敏毅表示:"过去 12 个月公司实现了加速增长�