首页 > 业界 > 关键词  > 视觉语言模型最新资讯  > 正文

视觉语言模型BLIVA:让AI更擅长阅读图像中的文本 懂得看路牌和食品包装

2023-08-28 11:14 · 稿源:站长之家

文章概要:

1. BLIVA是一种视觉语言模型,擅长读取图像中的文本。

2. BLIVA结合了InstructBLIP的学习查询嵌入和LLaVA的编码修补嵌入。

3. BLIVA在多个数据集上表现优异,可用于识别路牌、食品包装等场景。

站长之家(ChinaZ.com)8月28日 消息:BLIVA 是一种视觉语言模型,擅长读取图像中的文本,使其在许多行业的现实场景和应用中发挥作用。

加州大学圣地亚哥分校的研究人员开发了 BLIVA,这是一种视觉语言模型,旨在更好地处理包含文本的图像。视觉语言模型 (VLM) 通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。

这种多模态模型在开放式视觉问答基准方面取得了令人印象深刻的进展。一个例子是 OpenAI 的GPT-4,它的多模式形式可以在用户提示时讨论图像内容,尽管此功能目前仅在“Be my Eyes”应用程序中可用。

然而,当前系统的一个主要限制是处理带有文本的图像的能力,这在现实场景中很常见。

BLIVA 结合了 InstructBLIP 和 LLaVA

视觉语言模型通过合并视觉理解功能来扩展大型语言模型,以回答有关图像的问题。

BLIVA结合了两种互补的视觉嵌入类型。一种是Salesforce InstructBLIP提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受Microsoft LLaVA启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。

image.png

研究人员表示,这种双重方法允许BLIVA同时利用针对文本定制的精炼查询嵌入,以及捕捉更多视觉细节的更丰富的编码修补。

BLIVA 使用大约550,000个图像标题对进行了预训练,并使用150,000个视觉问答示例调整了指令,同时保持视觉编码器和语言模型冻结。

在多个数据集上,BLIVA的表现明显优于InstructBLIP等其他模型。例如,在OCR-VQA数据集上,BLIVA的准确率达到65.38%,而InstructBLIP只有47.62%。

image.png

研究人员认为这证明了多嵌入方法对广泛的视觉理解的益处。BLIVA还在YouTube视频缩略图数据集上取得了92%的准确率。BLIVA识读图像文本的能力可应用于许多行业,如识别路牌、食品包装等。BLIVA有望改善现实世界中的多种应用。

项目网址:https://huggingface.co/datasets/mlpc-lab/YTTB-VQA

举报

  • 相关推荐
  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • Agent成了腾讯AI最大的牌面

    抓住DeepSeek带来的契机扭转AI领域的竞争态势之后,腾讯围绕AI应用的布局正在快速深化。 元宝、ima等原生AI应用是腾讯进行探索的最前线。腾讯元宝通过大规模市场投入获得用户增长后,继续拓展了更多能力,包括将元宝放入微信好友列表,打通与腾讯地图、腾讯文档的连接,以及上线Chrome浏览器插件。腾讯管理层目前还在观察用户对这些新增功能的反馈,判断哪些功能可以�

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • AI日报:即梦灰测图片3.1模型;ElevenLabs推出AI语音助理11ai;百度发布多智能体协同AI IDE

    本文介绍了AI领域多项最新进展:1)即梦灰测图片3.1模型增强电影感和艺术风格;2)ElevenLabs推出语音助手11ai;3)文心快码发布多模态AI开发工具Comate AI IDE;4)苹果采用"归一化流"技术开发新型AI生图模型;5)Grok将推出整合多类型文件管理功能;6)OmniGen2开源多模态模型重塑AI应用场景;7)ScholAI革新学术研究工具;8)豆包推出可视化AI编程功能;9)饿了么推出骑手AI助手"小饿";10)张雪峰认为AI可替代部分教育工作;11)微软发布3.3亿参数小模型Mu。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 会认路的AI模型!小鹏G7官宣搭载车端“VLA+VLM”

    小鹏G7官宣搭载车端VLA VLM”模型,该模型能够识别广告牌和地标等视觉信息,即使没有具体定位也能精准找到目的地。 这一技术的应用,使得小鹏G7在导航和定位方面有了显著提升。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 无麸质食品选购指南:科学决策与品质保障路径

    随着全民健康意识提升,无麸质食品市场正以年复合增长率12.7%快速扩张。文章指出,无麸质食品需满足麸质含量≤20mg/kg的国际标准,并详细解析了麸质来源(小麦、黑麦等谷物中的蛋白质)及选购要点。重点介绍了中国无麸质面条开创者"谷品新约®",其采用东北有机粳米粉为核心原料,通过独立生产线和全程防污染体系确保品质,获得包括中国FA食品真实品质认证在内的多项国际认证。企业通过技术创新推动行业规范化发展,为乳糜泻患者和麸质不耐受人群提供安全美味的面食解决方案。

  • 玄武云出席崔牛会AI活动,聊聊AI大模型如何掌握终端信息

    6月20日,崔牛会主办的AI发现者计划之AI+OPEN DAY在广州举办,玄武云与百度云等企业围绕AI大模型应用展开探讨。玄武云分享了快消行业数字化转型解决方案,推出SKU超级模型和价签识别模型,帮助品牌商提升终端管理效率。其中SKU模型覆盖6000+商品,识别准确率达90%;价签模型准确率85%,已应用于知名薯片品牌。通过AI技术实现商品陈列优化、价格监控和渠道布局分析,助力快消企业从经验驱动转向数据智能驱动,在存量市场中创造增量价值。