首页 > 业界 > 关键词  > Vary-toy最新资讯  > 正文

Vary-toy:具有视觉词汇视觉语音模型 适用于标准GPU

2024-01-31 11:25 · 稿源:站长之家

划重点:

📌 挑战与潜力:大型视觉语言模型(LVLMs)在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,但在图像感知能力方面仍有潜力待发。

📌 模型结构:目前的LVLMs通常采用图像标记作为前缀或交叉注意力进行特征融合。然而,模型的效率可能受到视觉词汇网络在编码视觉信号方面的限制。

📌 解决方案:MEGVII Technology的研究人员提出了Vary-toy,通过优化视觉词汇创建过程,旨在提高LVLMs的图像感知能力。

站长之家(ChinaZ.com)1月31日 消息:在过去的一年里,大型视觉语言模型(LVLMs)已经成为人工智能研究的一个突出焦点。当以不同方式启动时,这些模型在各种下游任务中表现出色。然而,LVLMs在图像感知能力方面仍有显著的提升潜力。

对于推动模型开发和实施,提高对视觉概念的感知能力至关重要。这一进展面临两个主要挑战:当前视觉词汇网络的不足和优化大量参数的高计算成本。

流行的LVLMs在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色,如图像字幕、视觉问答(VQA)、模因理解和场景OCR,主要得益于出色的视觉词汇网络,如CLIP。这些LVLMs通常采用两种主要结构:将图像标记作为前缀或使用交叉注意力进行特征融合。然而,无论架构如何,模型的上限可能受制于其视觉词汇网络在编码视觉信号方面的效率。

image.png

为了解决这个问题,研究人员提出了一种简单而有效的方法,通过使用较小的自回归模型(如OPT-125M)训练新的视觉词汇网络,并将其与现有词汇合并,创建最终的LVLM。然而,该方法存在缺点,包括网络容量的浪费和使用7B LLM的Vary-base的高迭代成本。

MEGVII Technology的研究人员推出了Vary-toy,这是一个更小版本,旨在缓解这些问题。这一种具有高级视觉词汇的开创性紧凑型大型视觉语言模型,适用于标准GPU。

Vary-toy沿用了Vary相同的流程,但优化了视觉词汇创建过程。他们不将自然图像视为负样本,而是将目标检测任务纳入词汇网络,结合密集的文本数据(PDF)和自然对象位置数据。这种方法增强了Vary-toy的通用性。在创建和强化词汇之后,他们将其与CLIP合并,并集成到一个1.8B语言模型中。

在DocVQA、ChartQA、MMvet和RefCOCO等具有挑战性的基准测试上的实验结果展示了Vary-toy的能力。它在这些基准测试中取得了出色的性能,展示了其作为更小但强大的LVLM的潜力。

Vary-toy取得了令人瞩目的结果,包括DocVQA上的65.6% ANLS,ChartQA上的59.1%准确率,RefCOCO上的88.1%准确率,以及MMVet上的29%。

Vary-toy的小尺寸使其对于资源有限的研究人员来说成为进一步探索和改进LVLM研究的实用基准。研究人员计划公开发布代码,供研究社区进一步探索和采用。

Vary-toy可实现的场景案例展示:

image.png

image.png

image.png

image.png

项目入口:https://top.aibase.com/tool/vary-toy

论文:https://arxiv.org/abs/2401.12503

举报

  • 相关推荐
  • 京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体验

    京东在双11期间升级直播技术,推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示,用户无需额外设备即可旋转查看产品细节;JoyAI生成虚拟偶像Aura,与真人明星跨次元互动,提升趣味性。AI工具还简化直播运营,支持智能脚本和选品。这些技术打破传统直播边界,增强沉浸感和互动效率,引领电商直播创新方向。

  • 京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体验

    京东在11.11大促期间升级直播技术,推出“立体3D技术”和“JoyAI大模型”等创新,打破传统直播边界。立体3D技术实现裸眼360度商品展示,用户无需额外设备即可旋转查看产品细节;虚拟偶像Aura等跨次元互动增强趣味性。AI全链路工具简化主播运营,提升内容创作效率。这些举措为用户带来沉浸式购物体验,引领直播电商技术革新方向。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • AI日报:昆仑万维SkyReels V3模型上线;月之暗面推Kimi Linear模型;MiniMax Music 2.0 发布

    本期AI日报聚焦多领域创新:昆仑万维推出SkyReels V3模型,整合顶尖视频生成能力;月之暗面Kimi Linear模型处理长文本速度提升2.9倍;MiniMax Music 2.0实现专业级音乐创作;字节跳动启动豆包股权激励计划吸引AI人才;苹果iOS 27将迎AI重大升级,Siri更个性化;Dia浏览器融合Arc设计理念与AI技术;文心魔法漫画工具实现一键生成连载作品;谷歌Gemini Canvas新增PPT自动生成功能,由Gemini 2.5 Pro驱动,提升职场效率。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 升级版“蓝心小V”亮相,豆包大模型助力vivo打造AI原生体验

    vivo发布全新OriginOS 6系统,升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同,实现精准意图识别与多模态交互,支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合,提供低延迟、高情感语音响应。同时拓展无障碍服务,为视障用户提供实时视觉辅助。未来将持续深化AI生态建设,打造更智能便捷的原生体验。

  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

今日大家都在搜的词: