中国团队推世界最大多模态数据集“Infinity-MM”和顶尖微型AI模型“Aquila-VL-2B”

2024-11-06 09:29 · 来源： AIbase基地

近日，来自多家中国机构的研究团队成功创建了 “Infinity-MM” 数据集，这是目前最大规模的公开多模态 AI 数据集之一，同时训练出了一款性能卓越的小型新模型 ——Aquila-VL-2B。

该数据集主要包含四大类数据:1000万条图像描述、2440万条一般视觉指令数据、600万条精选高质量指令数据，以及300万条由 GPT-4和其他 AI 模型生成的数据。

在生成方面，研究团队利用现有的开源 AI 模型。首先，RAM++ 模型分析图像并提取重要信息，随后生成相关问题和答案。此外，团队还构建了一种特殊的分类系统，确保生成数据的质量和多样性。

这一合成数据生成方法采用了多层次的处理方式，结合了 RAM++ 和 MiniCPM-V 模型，通过图像识别、指令分类和响应生成，为 AI 系统提供了精准的训练数据。

Aquila-VL-2B 模型基于 LLaVA-OneVision 架构，使用 Qwen-2.5作为语言模型，并采用 SigLIP 进行图像处理。模型的训练分为四个阶段，逐步提高复杂性。在第一阶段，模型学习了基本的图像 - 文本关联;后续阶段则包含一般视觉任务、具体指令的执行，以及最终整合合成生成的数据。的图像分辨率也在训练逐渐提升。

测试中，Aquila-VL-2B 凭借仅有20亿参数的体量，在多模态的 MMStar 基测试中以54.9% 的得分下最佳成绩。此外，在数学任务中，该模型表现尤为突出，在 MathVista 测试得分达59%，远超同类系统。

在通用图像理解的测试中，Aquila-VL-2B 同样表现优异，HallusionBench 得分为43%，MMBench 得分为75.2%。研究人员表示，合成生成数据的加入显著提升了模型的表现，若不使用这些额外数据，模型的平均表现将下降2.4%。

此次研究团队决定将数据集和模型向研究社区开放，训练过程主要使用 Nvidia A100GPU 及中国本土芯片。Aquila-VL-2B 的成功推出，标志着开放源代码模型在 AI 研究中逐渐迎头赶上传统闭源系统的趋势，尤其是在利用合成训练数据方面展现出良好的前景。

Infinity-MM论文入口:https://arxiv.org/abs/2410.18558

Aquila-VL-2B项目入口:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen

划重点:
🌐 数据集 “Infinity-MM” 包含1000万条图像描述和2440万条视觉指令数据。
💡 新模型 Aquila-VL-2B 在多个基准测试中表现优异，打破了同类模型的记录。
📈 合成数据的使用显著提升了模型性能，研究团队决定向社区开放数据集和模型。

相关推荐

寒武纪智能芯片赋能多模态大模型应用

大模型快速发展推动人工智能技术迈向新阶段，从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示，2024年中国大模型开发平台市场规模达16.9亿元，人工智能算力市场约190亿美元，预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发，推出多款处理器及加速卡产品，支持大模型训练推理及多模态任务，并与产业链合作共同推进人工智能产业发展。

大模型人工智能强人工智能
荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

开发者分享模型选择心路历程：从盲目试错到数据驱动。曾因追求低价模型导致成本飙升，后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3，基于价格、上下文长度和代码能力等数据，最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型，只有“最适合”的模型，建议开发者善用专业工具进行数据驱动决策，避免隐性成本。
重磅！标贝科技推出「十万音色·自然语音数据集」重构AI语音训练基础设施

标贝科技发布"十万音色·自然语音数据集"，覆盖中英双语，包含10万种音色样本（中文5万、英文5万），基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破，支持多情感表达和跨场景应用，涵盖基础情绪到特定风格，话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术，从海量数据中甄选出高质量样本，为语音识别、合成等AI模型训练提供坚实基础，助力实现更自然、真实的语音交互体验。

AI语音自然语音数据集情感识别
荐AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKBase V2.0多模态数据管理系统

《AI日报》精选AI领域最新动态：1)OpenAI发布GPT-5模型，具备强大多模态能力但推理任务仍有局限；2)知网推出AIKBase V2.0多模态数据管理系统；3)Ideogram新增"角色"功能实现图像风格统一；4)Cursor发布CLI版本支持终端AI编程；5)百度即将推出全新推理模型和文心5.0大模型；6)dots.ocr推出1.7B参数多语言文档解析工具；7)特斯拉解散Dojo超算团队转向英伟达合作；8)谷歌Pixel 10引入AI相�

GPT
AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

本文探讨大模型选型困境与解决方案。2025年全球可调用大模型超300个，但选型面临三大难题：单位混乱、定价波动快、87%团队无法量化模型价值。提出三层漏斗筛选法：1)场景刚需筛选80%选项；2)验证核心性能；3)评估边际效益。以Gemini和DeepSeek为例，前者适合常规FAQ场景年省$16,000，后者适用于金融计算场景可降低15%人工复核。建议建立动态评估体系，将3小时选型会议压缩至18分钟，错误率下降40%。核心观点：选型应从参数争论转向场景验证，通过自动化工具为工程师节省时间，聚焦提示词优化而非参数对比。

文章搜索核心标签模型适配
荐AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

AI日报栏目汇总近期AI领域重要进展：腾讯元宝接入DeepSeek V3.1提升智能助手能力；即梦AI推出多帧功能简化视频制作；可灵AI首尾帧功能升级效果提升235%；钉钉与通义实验室联合发布Fun-ASR语音识别大模型；腾讯CodeBuddy IDE国内版公测；Vercel发布AI Gateway简化模型调用；Anthropic整合Claude Code强化企业开发；阿里发布Mobile-Agent-v3突破GUI自动化；Qoder平台革新编程模式；清华团队GUAVA框架实现0.1秒3D化身生成；谷歌搜索新增AI Agent功能；VAST推出Tripo 3.0推动3D内容创作。

AI 腾讯元宝 DeepSeek
中国UP主成为不了MrBeast

影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”，无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间，全平台总观看量超过两亿，弹幕数以百万计，甚至带动了直播带货的即时转化。从数据到热搜，此次直播堪称完美演绎了“爆款”的逻辑。质疑声同样随之而来:这场直播与其说是“荒岛生存”，不如说是“带电度假”;也评论认为，它

影视飓风荒岛直播 B站直播
荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

本文介绍了AI领域最新动态：1)腾讯推出电影级音频生成工具AudioGenie，展现中国AI技术实力；2)阿里开源多模态智能体WebWatcher，突破现有系统局限；3)港大等高校联合推出3D建模技术OmniPart，实现模型组件独立性和清晰度；4)Meta发布无需标注数据的通用图像处理模型DINOv3；5)国内首个法律大模型"小包公"发布；6)ChatGPT移动端收入突破20亿美元；7)安卓厂商借鉴灵动岛设计，新芯片推动AI功能普及；8)欧洲AI公司推出仅94MB的超小模型；9)Claude Code新增编程教学模式；10)AI技术被滥用于电商恶意退款；11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

AI 腾讯AudioGenie 电影级音效
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai

今日大家都在搜的词：

热文

3 天
7天

中国团队推世界最大多模态数据集“Infinity-MM”和顶尖微型AI模型“Aquila-VL-2B”

寒武纪智能芯片赋能多模态大模型应用

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

重磅！标贝科技推出「十万音色·自然语音数据集」重构AI语音训练基础设施

荐AI日报：GPT-5正式发布；百度将推文心5.0大模型；知网发布AIKBase V2.0多模态数据管理系统

AI大模型选型决策指南：10分钟数据对比 Gemini 2.5 Flash-Lite 与 DeepSeek R1

荐AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

中国UP主成为不了MrBeast

荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

OpenAI的开源模型现已在IBM watsonx.ai上提供

今日大家都在搜的词：

热文

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

美团回应网友质疑退款未到账：已修复信息滞后每笔退款可追溯

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

vivo Y500定档9月1日发布配备8200mAh巨无霸电池

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

黑神话官号更名系列游戏将开启宏大篇章

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

华为nova 14系列宣布限时降价至高优惠500元

站长商机