首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

华中科技大学开源多模态大模型Monkey

2023-12-09 09:30 · 稿源:站长之家

要点:

1、Monkey 是一种高性能多模态大模型,可在复杂场景和视觉细节处理方面提供出色的性能。

2、Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,将大模型的输入分辨率能力提高到896x1344像素。

3、Monkey 采用多级描述生成方法,可以为模型提供丰富的上下文信息,以指导模型学习场景和对象之间的关联。

站长之家(ChinaZ.com)12月9日 消息:Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。

Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息,指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试,Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力,具有广泛的应用空间。

image.png

开源地址:https://github.com/Yuliang-Liu/Monkey

论文地址:https://arxiv.org/abs/2311.06607v1

Monkey 的训练数据集质量是其能力提升的关键,研究人员生成了数十万条高质量的图像描述数据,并利用多个模型自动生成文字描述,并将不同模型的输出融合起来,提升了大模型对图像细节的理解能力。

在模型选择方面,Monkey 采用了开源模型 Qwen-VL 作为语言解码器,以及20亿参数的 ViT-BigHuge 作为视觉编码器,避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率,以及生成更丰富的图像描述和对复杂场景的理解能力,采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。

Monkey 在16个不同的数据集上进行了全面验证,包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上,Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上,Monkey 在 TextCaps 数据集上也表现出色,证明了其对图片中文本元素的多模态理解能力。

在文档导向问答任务上,Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示,Monkey 在医学影像、卫星图像等领域具有广泛的应用空间,并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。

综上所述,Monkey 是一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,具有高效率和广泛的应用空间。通过在多个数据集上进行测试,Monkey 在多模态任务上取得了出色的成绩,展现了超强的视觉信息感知和场景理解能力。未来,Monkey 将继续优化模型的感知、联想、推理和泛化能力,进一步提升其在各领域的应用价值。

举报

  • 相关推荐
  • 字节狂飙、阿里亮剑……大模型混战春节档,没人敢躺

    除夕的烟花尚未绽放,AI战场早已硝烟弥漫。2026年马年春节,表面上是百度5亿、腾讯元宝10亿红包、阿里30亿免单的混战,实则是国产大模型阵营一次史无前例的“集体亮剑”。我投给那些让对手感到脊背发凉的玩家。

  • 阿里千问上线全新一代大模型Qwen3.5-Plus

    据千问微信号消息,阿里正式发布全新一代大模型千问Qwen3.5-Plus。用户可通过千问APP及PC端切换模型进行体验。基于强大的多模态与推理能力,千问3.5还能自主操作手机与电脑,显著提升跨应用任务处理与自动化流程执行的效率。

  • AI日报:字节发布Seedream5.0Lite;小红书不标AI将限流;美图开拍首批接入Seedance 2.0大模型

    本期AI日报涵盖多项重要动态:字节跳动发布具备视觉推理与实时联网能力的图像创作模型Seedream5.0Lite;小红书要求AI生成内容须显著标识;美图工具“开拍”接入Seedance 2.0大模型以提升视频创作效率;OpenAI在ChatGPT中上线广告业务以应对成本压力;OpenAI与Cerebras合作推出专为实时编程优化的GPT-5.3-Codex-Spark;蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T;Google发布在编程与科研领域实现突破的Gemini 3 Deep Think;同程旅行全面接入腾讯元宝,通过AI实现秒级行程规划与预订。

  • 提升7倍 DeepSeek官宣测试全新大模型:或为V4 Lite

    前几天国产AI来了一波爆发,智谱GLM-5、Minimax2.5及DeepSeek在11日同一天都发布了新的大模型,其中DeepSeek的自然最受关注。此前我们已经报道过了,这次更新主要是提升了上下文能力,达到了1M之前的DeepSeeV3系列也就是128K,这方面相对前代V3系列大模型提升了7倍。传闻中的DeepSeekV4满血版是1.5万亿参数,比V3系列翻倍还多会使用之前DeepSeek研究的Engram、mHC等新技术,性能全面提升的同时成本还低,这个期待值还是很高的。

  • AI日报:蚂蚁开源大模型Ming-flash-omni 2.0;智谱GLM-5意外泄露;京东正式入局AI支付

    本文汇总了AI领域最新动态:蚂蚁集团开源全模态大模型Ming-flash-omni 2.0,在多模态理解与生成方面表现优异;智谱AI的GLM-5模型引发关注,股价飙升;科大讯飞发布星火X2大模型,基于国产算力深耕专业场景;京东推出“AI付”语音支付产品,提升便捷与安全;DuckDuckGo上线注重隐私的免费AI语音聊天功能;阿维塔车载系统升级,融合大模型与华为智驾;ChatGPT上线保险比价应用,冲击传统中介;OpenAI升级研究工具,引入GPT-5.2驱动并新增全屏报告交互体验。

  • AI日报:可灵3.0发布;阿里大模型品牌正式更名为千问;Mistral AI 发布 Voxtral Transcribe 2 语音模型

    本期AI日报聚焦多领域进展:可灵AI 3.0发布,开启15秒视频AI导演时代;阿里AI品牌统一为“千问”,战略升级;Mistral AI推出低延迟语音转文字模型;上海AI实验室发布全球最大开源科学多模态模型“书生Intern-S1-Pro”;谷歌Gemini月活用户突破7.5亿,并推出低价订阅方案;华为Mate 80系列新增AI消除屏幕摩尔纹功能;米兰冬奥会将启用阿里“千问”大模型;我国生成式AI用户规模破6亿,普及率超四成,算力水平全球领先。

  • AI日报:豆包2.0将于情人节发布;MiniMax M2.5 正式发布;小米开源首代机器人 VLA 大模型

    本期AI日报聚焦多项技术进展:字节跳动火山引擎发布“豆包”系列2.0版本,旨在降低专业内容生产门槛;MiniMAX M2.5模型开启海外内测,加速全球化布局;小米开源首款机器人VLA大模型,突破物理智能延迟瓶颈;百度千帆推出集成主流大模型的AI编码订阅服务Coding Plan;智谱发布GLM-5,迈向工程构建的Agentic Ready时代;DeepSeek上下文长度跃升至1M,处理能力大幅提升;Rokid眼镜新增�

  • 世界顶尖水平!字节跳动豆包大模型2.0正式上线:用户选择“专家”模式即可体验

    继Seedance2.0视频模型、Seedream5.0Lite图像模型之后,今日字节跳正式发布豆包大模型2.0系列。豆包2.0针对大规模生产环境的使用需求进行系统性优化,以更好地完成真实世界的复杂任务。豆包2.0Lite更具性价比,综合性能超越两个月前发布的上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元。

  • ​积分限免!字节跳动视频生成大模型Seedance 2.0接入剪映App

    字节跳动旗下视频生成大模型Seedance2.0已接入剪映App,用户更新至18.8.0版本后即可体验。该模型在视频编辑维度实现重大革新,支持像素级元素增删,官方称“让视频精修如P图般简单”。春节期间剪映推出积分限免活动,但明确暂不支持真人面孔生成功能,以规避伦理争议。模型上线后引发全球关注,马斯克转发演示视频并评论“进化速度惊人”。海外创作者实测显示,其生成的15秒视频在运镜、光影和角色一致性上达专业水准,部分作品被赞“媲美好莱坞特效”。面对外界赞誉,字节跳动保持谨慎态度,指出当前版本在细节稳定性、多人口型同步等方面仍存不足,需持续优化。研发团队透露,正构建更精细的物理世界模拟引擎,以解决流体流动、布料褶皱等动态效果难题。

  • 字节跳动旗下火山引擎发布视频生成大模型Seedance2.0

    字节跳动旗下火山引擎近日发布的视频生成大模型Seedance2.0,凭借“导演级”创作能力引发全球AI圈震动。这款在1.5Pro版本基础上迭代升级的模型,不仅攻克了人物一致性、视听同步等长期困扰行业的难题,更通过自动生成专业镜头切换功能,被业内人士评价为“可能抢走专业导演饭碗”的突破性产品。

今日大家都在搜的词: