InternVL:60亿参数视觉语言基础模型填补多模态AGI的差距

2023-12-28 17:44 · 稿源：站长之家

划重点:
多模态AGI的关键突破:InternVL模型填补了视觉和视觉语言基础模型在多模态AGI系统中的发展差距。
创新的规模和对齐策略:InternVL通过将视觉基础模型扩展到60亿参数，实现了对LLM的更全面、有效的整合。
性能卓越的多样性:在32个通用视觉语言基准测试中，InternVL在图像分类、文本检索、图像字幕等任务上优于现有方法，展现了其卓越的视觉能力。

站长之家（ChinaZ.com）12月28日消息:近期，人工智能领域一直将视觉和语言的无缝整合作为关注焦点，特别是在大型语言模型（LLMs）的出现下，该领域取得了显著进展。然而，对于多模态AGI系统而言，发展视觉和视觉语言基础模型仍有待迎头赶上。为填补这一差距，来自南京大学、OpenGVLab、上海人工智能实验室、香港大学、香港中文大学、清华大学、中国科技大学和SenseTime Research的研究人员提出了一种创新的模型——InternVL。该模型扩大了视觉基础模型的规模，并使其适应通用的视觉语言任务。

InternVL解决了人工智能领域一个关键问题:视觉基础模型和LLMs之间的发展速度差异。现有模型通常使用基本的“黏合层”来对齐视觉和语言特征，导致参数规模和表示一致性不匹配，这可能阻碍LLMs的充分潜力。

InternVL的方法独特而强大。该模型采用了大规模视觉编码器InternViT-6B和具有80亿参数的语言中间件QLLaMA。该结构具有双重作用:作为感知任务的独立视觉编码器，它与语言中间件协同工作，用于复杂的视觉语言任务和多模态对话系统。模型的训练采用了渐进对齐策略，从对大量嘈杂的图像文本数据进行对比学习开始，然后转向对更精细数据进行生成学习。这一渐进的方法在各种任务中始终提高了模型的性能。

InternVL通过在32个通用视觉语言基准测试中超越现有方法，展示了其在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等各种任务中的卓越能力。这种多样性的能力归功于与LLMs对齐的特征空间，使得该模型能够以出色的效率和准确性处理复杂任务。

InternVL的关键性能方面包括:

该模型可作为独立的视觉编码器或与语言中间件结合，适用于各种任务。
InternVL通过将视觉基础模型扩展到60亿参数，创新性地解决了参数规模不匹配的问题，从而更全面、有效地与LLMs整合。
在32个通用视觉语言基准测试中取得的最先进性能突显了其先进的视觉能力。
在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等任务中表现出色。
与LLMs对齐的特征空间增强了其与现有语言模型的无缝整合能力，进一步拓宽了应用范围。

这项研究在以下几个方面取得了突破:

InternVL是多模态AGI系统中的一大飞跃，填补了发展视觉和视觉语言基础模型的关键差距。
其创新的规模和对齐策略赋予了它多样性和强大的能力，使其在各种视觉语言任务中表现卓越。
该研究有助于推动多模态大型模型的发展，潜在地重塑人工智能和机器学习的未来格局。
项目体验网址:https://top.aibase.com/tool/internvl
论文网址:https://arxiv.org/abs/2312.14238

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条
多模态语言模型Reka Core：可分析图片、视频、音频评测得分与GPT-4接近

RekaAI近日宣布推出其最新力作——RekaCore，这是一款前沿的多模态语言模型，拥有强大的性能和灵活的部署方式。该模型像Gemini一样可以直接分析图片、视频、音频，评测得分与GPT-4和Gemini-Ultra接近。通过Edge、Flash和Core等系列模型的全面支持，Reka已经准备好迎接更广泛的挑战，展望未来，我们期待着与更多愿意加入我们的伙伴共同探索多模态世界的无限可能。

RekaCore AI头条
多模态大模型Reka Core发布性能与GPT-4相媲美

RekaCore是一款最新发布的多模态大型语言模型，其性能可与GPT-4相媲美，甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑，特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用，我们有理由相信，它将在多个领域产生深远的影响，推动人工智能技术的进步和社会的发展。

多模态大模型 AI头条
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

MetaAI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。

MA-LMM AI头条
李未可科技正式推出WAKE-AI多模态AI大模型

4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹视觉语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加持，能实现所见即所问、所问即所得的精准服务。李未可科技合伙人&AI负责人古鉴表示WAKE-AI将逐步开放平台能力，便于更多企业及开发者调用WAKE-AI能力，共建AI硬件生态。
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
元象开源首个多模态大模型XVERSE-V 支持任意宽高比图像输入

元象公司发布了首个多模态大型模型XVERSE-V，并将其开源。这一模型支持任意宽高比的图像输入，并在多个权威评测中取得了优异的成绩。除了图像识别，XVERSE-V还在多个实际应用场景中表现突出，包括信息图理解、视障场景处理、文本生成、教育解题等。
李未可WAKE-AI大模型：让多类终端能快速低成本的定制多模态AI

36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》，文中基于AIGC产业生态现状和技术发展路径，深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中，发现杭州李未可科技与字节跳动的豆包、腾讯云混元及华为云盘古等大模型等一起出现在闭源模型层，甚至在跨模态生成应用层也占据一地。李未可科技这类结合自身业务垂类场景，提前布局中间层及终端应用层的自研大模型或许能给市场带来不小的惊喜。

AIGC 商业化应用产业发展
代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

Mini-Gemini AI头条
马斯克XAI发布Grok-1.5 Vision 多模态模型可处理文本和图片信息

在人工智能领域，多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision，这一模型不仅能够处理文本信息能够理解和分析各种视觉数据，如文档、图表、截图和照片，标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用，我们有理由相信，它将在多个领域发挥重要作用，推动人工智能技术向前发展。

Grok-1.5Vision AI头条

今日大家都在搜的词：

热文

3 天
7天

InternVL:60亿参数视觉语言基础模型填补多模态AGI的差距

今日大家都在搜的词：

热文

站长商机