首页 > 业界 > 关键词  > Vary-toy最新资讯  > 正文

Vary-toy:具有视觉词汇视觉语音模型 适用于标准GPU

2024-01-31 11:25 · 稿源:站长之家

划重点:

📌 挑战与潜力:大型视觉语言模型(LVLMs)在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,但在图像感知能力方面仍有潜力待发。

📌 模型结构:目前的LVLMs通常采用图像标记作为前缀或交叉注意力进行特征融合。然而,模型的效率可能受到视觉词汇网络在编码视觉信号方面的限制。

📌 解决方案:MEGVII Technology的研究人员提出了Vary-toy,通过优化视觉词汇创建过程,旨在提高LVLMs的图像感知能力。

站长之家(ChinaZ.com)1月31日 消息:在过去的一年里,大型视觉语言模型(LVLMs)已经成为人工智能研究的一个突出焦点。当以不同方式启动时,这些模型在各种下游任务中表现出色。然而,LVLMs在图像感知能力方面仍有显著的提升潜力。

对于推动模型开发和实施,提高对视觉概念的感知能力至关重要。这一进展面临两个主要挑战:当前视觉词汇网络的不足和优化大量参数的高计算成本。

流行的LVLMs在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,如图像字幕、视觉问答(VQA)、模因理解和场景OCR,主要得益于出色的视觉词汇网络,如CLIP。这些LVLMs通常采用两种主要结构:将图像标记作为前缀或使用交叉注意力进行特征融合。然而,无论架构如何,模型的上限可能受制于其视觉词汇网络在编码视觉信号方面的效率。

image.png

为了解决这个问题,研究人员提出了一种简单而有效的方法,通过使用较小的自回归模型(如OPT-125M)训练新的视觉词汇网络,并将其与现有词汇合并,创建最终的LVLM。然而,该方法存在缺点,包括网络容量的浪费和使用7B LLM的Vary-base的高迭代成本。

MEGVII Technology的研究人员推出了Vary-toy,这是一个更小版本,旨在缓解这些问题。这一种具有高级视觉词汇的开创性紧凑型大型视觉语言模型,适用于标准GPU。

Vary-toy沿用了Vary相同的流程,但优化了视觉词汇创建过程。他们不将自然图像视为负样本,而是将目标检测任务纳入词汇网络,结合密集的文本数据(PDF)和自然对象位置数据。这种方法增强了Vary-toy的通用性。在创建和强化词汇之后,他们将其与CLIP合并,并集成到一个1.8B语言模型中。

在DocVQA、ChartQA、MMvet和RefCOCO等具有挑战性的基准测试上的实验结果展示了Vary-toy的能力。它在这些基准测试中取得了出色的性能,展示了其作为更小但强大的LVLM的潜力。

Vary-toy取得了令人瞩目的结果,包括DocVQA上的65.6% ANLS,ChartQA上的59.1%准确率,RefCOCO上的88.1%准确率,以及MMVet上的29%。

Vary-toy的小尺寸使其对于资源有限的研究人员来说成为进一步探索和改进LVLM研究的实用基准。研究人员计划公开发布代码,供研究社区进一步探索和采用。

Vary-toy可实现的场景案例展示:

image.png

image.png

image.png

image.png

项目入口:https://top.aibase.com/tool/vary-toy

论文:https://arxiv.org/abs/2401.12503

举报

  • 相关推荐
  • 大家在看
  • LoomFlows:收集高质量用户反馈

    LoomFlows是一个收集高质量用户反馈的平台。它帮助您简化高质量反馈的收集,识别有影响力的机会,并通过构建合适的功能来加速发展。LoomFlows提供收集用户反馈的渠道、反馈分析、注释截图、Loom视频反馈等功能。它适用于个人和团队,有不同的定价计划供选择。

  • EazyCaptions:创建吸引人的视频,无需编辑技能

    EazyCaptions是一个让用户能够创建吸引人的视频的工具,无需编辑技能。它提供了眼球吸引的字幕、音效和B Roll素材,帮助用户制作出专业水准的视频。使用EazyCaptions,您可以节省大量的编辑时间,通过自动AI字幕生成准确的字幕,并自动突出重点词汇和添加表情符号。此外,它还提供了库存素材和快速的调整功能,帮助用户制作更多样化的视频内容。EazyCaptions适用于各种类型的创作者和内容创造者,如博主、教育工作者、评论员、新闻媒体等。定价方案灵活,包括免费试用和付费选项。

  • Merlin AI Plugins:AI插件,提升工作流效率

    Merlin是一个强大的AI助手,通过GPT 4技术提供1点击访问多种AI插件,包括视频摘要、网页抓取、邮件回复、社交媒体增长等功能。免费下载使用。

  • Udio AI:创造独特的 MP3音乐,立即免费使用

    Udio AI音乐生成器是一个用于音乐创作和分享的应用程序,可以根据您的输入,在您喜欢的风格中生成令人惊叹的音乐。它经过大量的音乐数据训练,可以快速创建您自己的音乐。Udio AI适用于音乐爱好者、创作者以及需要创作灵感的人。免费试用3次。

  • Businessflow Recruit:招聘革命,AI 助力招聘流程优化

    通过 AI 助手,提高招聘效率,降低成本,为公司找到最佳适应的候选人。拥有简历分析、候选人排名、自动面试等功能。定价根据企业规模定制。

  • Wookeys AI:一站式AI助手,为您提供生成文本、图像、代码、视频、音频等的解决方案

    Ultimate AI Assistant是一款综合AI助手,可帮助您简化任务,提高工作效率。它提供了生成文本、图像、代码、视频、音频等多种功能,具有高度定制化的AI解决方案。无论您是需要生成创意文案、设计图像、编写代码、制作视频还是创作音乐,Ultimate AI Assistant都能满足您的需求。该产品定价根据功能和使用量而定,详情请访问官方网站。

  • Sakura FM:与AI角色聊天

    Sakura AI是一个能够与AI角色聊天的平台。通过与AI角色的对话,用户可以探索、发现和创造新的AI体验。开始聊天,释放你的想象力。

  • lensa.app:影像增强AI工具

    Lensakey是一款影像增强AI工具,可一键进行照片修饰、去除干扰、应用时尚滤镜和效果,并创建独特的AI头像。它可以提升您的社交媒体影响力,轻松提升照片质量。

  • StockTune:免费音乐,无限可能

    StockTune 是一个免费音乐库,提供商用和个人使用的免费音乐下载,无需署名。库中拥有丰富多样的高品质音乐曲目,能够满足不同需求。价格:免费。

  • heardeer:10分钟内收集1000+用户访谈反馈

    heardeer可以在10分钟内收集1000+用户访谈反馈,让AI处理繁琐的用户访谈,您可以专注于更重要的任务。heardeer提供全球用户访谈,无需雇佣翻译人员,让用户以自己的母语参与访谈。同时,heardeer提供详细的转录和深度分析,为您节省时间。快来试试heardeer,开始您的用户访谈吧!

  • OneAccord:实时AI翻译为教堂

    OneAccord是一个实时AI翻译平台,为教堂提供语言翻译和字幕服务。它通过AI模型和人工校对,帮助教堂克服语言障碍,使教堂服务对听障人士也能无障碍参与。平台支持多种语言翻译和字幕功能,并提供定制品牌和在线访问。用户可以根据自己的需求选择月度订阅或一次性使用,并可以根据使用时间、语言和听众数量等参数来估算费用。

  • Kursaha:AI驱动的客户获取和参与解决方案

    Kursaha是一种AI驱动的客户获取和参与解决方案,通过定向广告活动、营销策略和参与客户来推动业务增长。核心功能包括实时分析、集成、自动生成OTP和验证、AI驱动的聊天自动化、受众预测和行为队列等。Kursaha是营销数据和产品团队的完整解决方案,帮助他们增强客户参与和获取策略。

  • AI Singing:AI音乐生成器

    AI音乐生成器是一个能够免费生成音乐的AI音乐生成器。它可以自动生成歌曲和歌唱。

  • Blahget:您的智能AI语音驱动型预算助手

    Blahget是一款先进的AI预算助手,可简化财务管理。它利用GPT-4驱动的语音识别技术,实现无缝跟踪支出和收入。从今天开始您的智能预算之旅吧。它可以通过语音快速创建、编辑和删除记录,支持搜索、筛选和排序等操作,并可执行数学计算。迄今已记录超过10万条数据条目。

  • Tools4AI:100% Java实现的LLM代理和大型行动模型

    Tools4AI是100%用Java实现的大型行动模型(LAM),可作为企业Java应用程序的LLM代理。该项目演示了如何将AI与企业工具或外部工具集成,将自然语言提示转换为可执行行为。这些提示可以被称为"行动提示"或"可执行提示"。通过利用AI能力,它简化了用户与复杂系统的交互,提高了生产力和创新能力。

  • SlideAI:AI制作演示文稿

    Slides AI是一款AI制作演示文稿的工具。它利用先进的AI算法分析您的主题,生成相关内容,并创建专业的PowerPoint幻灯片。Slides AI可以为您节省时间和精力,让您轻松创建专业而引人注目的演示文稿。

  • Ping Parrot:AI聊天机器人,帮助您处理客户支持

    Ping Parrot是一个AI聊天机器人平台,可以帮助您快速构建自定义的聊天机器人,并将其嵌入到您的网站上,帮助您处理客户支持。无需编码即可使用。聊天机器人可以根据您的数据进行训练,学习并提供最佳答案。您可以定制聊天机器人的外观以匹配您的品牌,并在80种语言中提供帮助。

  • Inpaint-web:免费的去除水印和物体的工具

    Inpaint-web 是一款永久免费的在线工具,只需一点击即可去除照片中的不想要对象,同时提供修复瑕疵功能。其独特的照片去除和修复功能让用户轻松实现照片编辑需求。用户无需下载安装任何软件,直接在网页上使用。Inpaint-web 定位于为用户提供便捷、高效的照片编辑解决方案。

  • MA-LMM:面向长期视频理解的大规模多模态模型

    MA-LMM是一种基于大语言模型的大规模多模态模型,主要针对长期视频理解进行设计。它采用在线处理视频的方式,并使用记忆库存储过去的视频信息,从而可以在不超过语言模型上下文长度限制或GPU内存限制的情况下,参考历史视频内容进行长期分析。MA-LMM可以无缝集成到当前的多模态语言模型中,并在长视频理解、视频问答和视频字幕等任务上取得了领先的性能。

  • eezyCollab:AI驱动的高效、低成本的影响力营销工具

    eezyCollab是一款AI驱动的影响力营销工具,能快速匹配合适的KOL,进行批量化电子邮件营销,帮助中小企业以低廉的成本进行影响力营销。该产品无需营销专业知识即可上手使用,简单易用,大幅提高了影响力营销的效率和可及性。

今日大家都在搜的词: