Vary-toy：具有视觉词汇视觉语音模型适用于标准GPU

2024-01-31 11:25 · 稿源：站长之家

划重点:
📌 挑战与潜力:大型视觉语言模型（LVLMs）在计算机视觉(CV)和自然语言处理(NLP)交叉任务中表现出色，但在图像感知能力方面仍有潜力待发。
📌 模型结构:目前的LVLMs通常采用图像标记作为前缀或交叉注意力进行特征融合。然而，模型的效率可能受到视觉词汇网络在编码视觉信号方面的限制。
📌 解决方案:MEGVII Technology的研究人员提出了Vary-toy，通过优化视觉词汇创建过程，旨在提高LVLMs的图像感知能力。

站长之家（ChinaZ.com）1月31日消息:在过去的一年里，大型视觉语言模型（LVLMs）已经成为人工智能研究的一个突出焦点。当以不同方式启动时，这些模型在各种下游任务中表现出色。然而，LVLMs在图像感知能力方面仍有显著的提升潜力。

对于推动模型开发和实施，提高对视觉概念的感知能力至关重要。这一进展面临两个主要挑战:当前视觉词汇网络的不足和优化大量参数的高计算成本。

流行的LVLMs在计算机视觉（CV）和自然语言处理(NLP)交叉任务中表现出色，如图像字幕、视觉问答(VQA)、模因理解和场景OCR，主要得益于出色的视觉词汇网络，如CLIP。这些LVLMs通常采用两种主要结构:将图像标记作为前缀或使用交叉注意力进行特征融合。然而，无论架构如何，模型的上限可能受制于其视觉词汇网络在编码视觉信号方面的效率。

为了解决这个问题，研究人员提出了一种简单而有效的方法，通过使用较小的自回归模型（如OPT-125M）训练新的视觉词汇网络，并将其与现有词汇合并，创建最终的LVLM。然而，该方法存在缺点，包括网络容量的浪费和使用7B LLM的Vary-base的高迭代成本。

MEGVII Technology的研究人员推出了Vary-toy，这是一个更小版本，旨在缓解这些问题。这一种具有高级视觉词汇的开创性紧凑型大型视觉语言模型，适用于标准GPU。

Vary-toy沿用了Vary相同的流程，但优化了视觉词汇创建过程。他们不将自然图像视为负样本，而是将目标检测任务纳入词汇网络，结合密集的文本数据（PDF）和自然对象位置数据。这种方法增强了Vary-toy的通用性。在创建和强化词汇之后，他们将其与CLIP合并，并集成到一个1.8B语言模型中。

在DocVQA、ChartQA、MMvet和RefCOCO等具有挑战性的基准测试上的实验结果展示了Vary-toy的能力。它在这些基准测试中取得了出色的性能，展示了其作为更小但强大的LVLM的潜力。

Vary-toy取得了令人瞩目的结果，包括DocVQA上的65.6% ANLS，ChartQA上的59.1%准确率，RefCOCO上的88.1%准确率，以及MMVet上的29%。

Vary-toy的小尺寸使其对于资源有限的研究人员来说成为进一步探索和改进LVLM研究的实用基准。研究人员计划公开发布代码，供研究社区进一步探索和采用。

Vary-toy可实现的场景案例展示:

项目入口:https://top.aibase.com/tool/vary-toy

论文:https://arxiv.org/abs/2401.12503

（举报）

相关推荐

关键词：

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在双11期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；JoyAI生成虚拟偶像Aura，与真人明星跨次元互动，提升趣味性。AI工具还简化直播运营，支持智能脚本和选品。这些技术打破传统直播边界，增强沉浸感和互动效率，引领电商直播创新方向。

京东11.11 立影3D技术 JoyAI大模型
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在11.11大促期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新，打破传统直播边界。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；虚拟偶像Aura等跨次元互动增强趣味性。AI全链路工具简化主播运营，提升内容创作效率。这些举措为用户带来沉浸式购物体验，引领直播电商技术革新方向。

京东11.11 立影3D技术 JoyAI大模型
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

vivo发布全新OriginOS 6系统，升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同，实现精准意图识别与多模态交互，支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合，提供低延迟、高情感语音响应。同时拓展无障碍服务，为视障用户提供实时视觉辅助。未来将持续深化AI生态建设，打造更智能便捷的原生体验。

originOS6 蓝心小V AI原生操作系统
快手进军AI Coding，开发工具、模型和Maas平台齐登场

10月23日，快手StreamLake发布全新AI编程产品矩阵，以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持，KAT-Coder在权威测试中性能超越GPT-5，平台保障99.95%服务可用性。该生态旨在通过技术普惠，为企业与开发者提供颠覆性研发体验，推动AI编程普及。

AI编程快手StreamLake CodeFlicker

今日大家都在搜的词：

热文

3 天
7天

Vary-toy：具有视觉词汇视觉语音模型适用于标准GPU

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

升级版“蓝心小V”亮相，豆包大模型助力vivo打造AI原生体验

快手进军AI Coding，开发工具、模型和Maas平台齐登场

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

文件传输工具奶牛快传宣布12月8日正式停止服务

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机

Vary-toy：具有视觉词汇视觉语音模型 适用于标准GPU

今日大家都在搜的词：

热文

站长商机

Vary-toy：具有视觉词汇视觉语音模型适用于标准GPU