视觉语言模型BLIVA:让AI更擅长阅读图像中的文本懂得看路牌和食品包装

2023-08-28 11:14 · 稿源：站长之家

文章概要:
1. BLIVA是一种视觉语言模型，擅长读取图像中的文本。
2. BLIVA结合了InstructBLIP的学习查询嵌入和LLaVA的编码修补嵌入。
3. BLIVA在多个数据集上表现优异，可用于识别路牌、食品包装等场景。

站长之家（ChinaZ.com）8月28日消息:BLIVA 是一种视觉语言模型，擅长读取图像中的文本，使其在许多行业的现实场景和应用中发挥作用。

加州大学圣地亚哥分校的研究人员开发了 BLIVA，这是一种视觉语言模型，旨在更好地处理包含文本的图像。视觉语言模型（VLM）通过合并视觉理解功能来扩展大型语言模型 (LLM)，以回答有关图像的问题。

这种多模态模型在开放式视觉问答基准方面取得了令人印象深刻的进展。一个例子是 OpenAI 的GPT-4，它的多模式形式可以在用户提示时讨论图像内容，尽管此功能目前仅在“Be my Eyes”应用程序中可用。

然而，当前系统的一个主要限制是处理带有文本的图像的能力，这在现实场景中很常见。

BLIVA 结合了 InstructBLIP 和 LLaVA

视觉语言模型通过合并视觉理解功能来扩展大型语言模型，以回答有关图像的问题。

BLIVA结合了两种互补的视觉嵌入类型。一种是Salesforce InstructBLIP提取的学习查询嵌入，用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入，直接从完整图像的原始像素修补中获得。

研究人员表示，这种双重方法允许BLIVA同时利用针对文本定制的精炼查询嵌入，以及捕捉更多视觉细节的更丰富的编码修补。

BLIVA 使用大约550，000个图像标题对进行了预训练，并使用150，000个视觉问答示例调整了指令，同时保持视觉编码器和语言模型冻结。

在多个数据集上，BLIVA的表现明显优于InstructBLIP等其他模型。例如，在OCR-VQA数据集上，BLIVA的准确率达到65.38%，而InstructBLIP只有47.62%。

研究人员认为这证明了多嵌入方法对广泛的视觉理解的益处。BLIVA还在YouTube视频缩略图数据集上取得了92%的准确率。BLIVA识读图像文本的能力可应用于许多行业，如识别路牌、食品包装等。BLIVA有望改善现实世界中的多种应用。

项目网址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA

（举报）

相关推荐

关键词：

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
AI最新资讯在哪里看？AIbase：高效获取国内外AI新闻头条与行业动态

文章探讨了AI时代信息过载的困境：有价值的前沿动态、重磅模型发布和行业解读分散各处，筛选成本高、效率低下。AIbase资讯导航站应运而生，通过四大核心功能解决痛点：1)聚合主流信源，过滤低质噪音；2)结构化分类呈现大模型动态、行业应用等六大板块；3)提炼核心要点，拒绝标题党；4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达"，帮助用户节省70%信息搜集时间，将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

人工智能 AI资讯科技媒体
【点击报名】xMEMS Live - Asia 2025 | 技术研讨会

xMEMS将于2025年9月16日（台北）和18日（深圳）举办技术研讨会，聚焦高保真音频解决方案及PiezoMEMS平台在AI领域的应用。活动将展示Sycamore近场扬声器、Cypress主动降噪方案等创新产品，并探讨μCooling芯片风扇等散热技术。现场提供与行业专家交流机会，助力提升音频品质和释放AI潜能。

xMEMS技术研讨会高保真音频 PiezoMEMS平台
荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探
豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

文章探讨了企业选择AI大模型时面临的实际决策难题，指出单纯比较学术参数无法满足业务需求。AIBase模型对比平台（https://model.aibase.cn/compare）通过三大核心价值解决痛点：1）聚焦业务场景而非参数堆砌，突出价格、语言支持、上下文长度等实用维度；2）透明化成本计算，标注长文本溢价规则和多模态附加费；3）一键生成对比报告。平台特别强调中文场景的特殊性（如豆包1.5在中文处理成本的优势），并揭示厂商宣传中容易忽略的隐藏成本（如GPT-5-min超5000字符的30%溢价）。典型电商客服案例显示，需综合中文理解、多模态、性价比等维度决策，最终选择取决于具体业务需求而非绝对性能排名。

智能客服系统中文场景预算有限
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
B站要变成AI站

互联网平台都在跟AI结合，B站没有成为例外。从新一季度财报来看，B站的AI味儿也越来越浓了。 8月21日，B站公布第二季度业绩，总营收达73.4亿元人民币，同比增长20%。其中，游戏业务收入为16.1亿元，同比增长60%，广告业务收入为24.5亿元，同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%，调整后净利润达到5.6亿元，创下历史最好成绩。从整体来看，B站生态集聚

B站财报 AI结合二次元经济
百度第一！百度智能云一见领跑视觉大模型赛道

IDC最新报告显示，百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型，在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著，已服务餐饮、钢铁、电力等20多个行业，帮助数百家企业实现生产全环节的数字化管理。典型案例包括：为风电集团构建安全管控系统，巡检效率提升6-10倍；与中钢研合作金相分析模型，检测准确率达95%；助力连锁餐饮实现全国1000+门店服务质量量化管理，订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构，在保障精度的同时大幅降低应用成本，推动专业级视觉AI应用普及。

视觉大模型 IDC报告百度智能云
荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

本文介绍了AI领域最新动态：1)快手可灵2.1推出首尾帧功能，提升视频生成效果；2)昆仑万维发布Mureka V7.5音乐模型，优化人声表现；3)腾讯云推出AI开发工具CloudBase AI CLI，可减少80%编码量；4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验；5)Meta开源DINOv3视觉模型，无需标注即可实现卓越性能；6)宇树科技人形机器人H1获1500米赛跑金牌；7)谷歌Gemini新增记忆功能和隐私聊天模式；8)香港大学开源OpenCUA框架，打造个性化电脑助手；9)OpenAI考虑在ChatGPT引入广告；10)谷歌发布超小型开源模型Gemma 3 270M，支持手机端运行。

AI日报快手可灵视频生成
别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

开发者分享模型选择心路历程：从盲目试错到数据驱动。曾因追求低价模型导致成本飙升，后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3，基于价格、上下文长度和代码能力等数据，最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型，只有“最适合”的模型，建议开发者善用专业工具进行数据驱动决策，避免隐性成本。

今日大家都在搜的词：

热文

3 天
7天

视觉语言模型BLIVA:让AI更擅长阅读图像中的文本懂得看路牌和食品包装

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

AI最新资讯在哪里看？AIbase：高效获取国内外AI新闻头条与行业动态

【点击报名】xMEMS Live - Asia 2025 | 技术研讨会

荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

豆包1.5 Vision Lite 对比 GPT-5-min，谁更适合你？实测AI模型选型利器｜AIBase

OpenAI的开源模型现已在IBM watsonx.ai上提供

B站要变成AI站

百度第一！百度智能云一见领跑视觉大模型赛道

荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

今日大家都在搜的词：

热文

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

vivo Y500定档9月1日发布配备8200mAh巨无霸电池

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

美团回应网友质疑退款未到账：已修复信息滞后每笔退款可追溯

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

黑神话官号更名系列游戏将开启宏大篇章

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

华为nova 14系列宣布限时降价至高优惠500元

站长商机

视觉语言模型BLIVA:让AI更擅长阅读图像中的文本 懂得看路牌和食品包装

今日大家都在搜的词：

热文

站长商机

视觉语言模型BLIVA:让AI更擅长阅读图像中的文本懂得看路牌和食品包装