首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

华中科技大学开源多模态大模型Monkey

2023-12-09 09:30 · 稿源:站长之家

要点:

1、Monkey 是一种高性能多模态大模型,可在复杂场景和视觉细节处理方面提供出色的性能。

2、Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,将大模型的输入分辨率能力提高到896x1344像素。

3、Monkey 采用多级描述生成方法,可以为模型提供丰富的上下文信息,以指导模型学习场景和对象之间的关联。

站长之家(ChinaZ.com)12月9日 消息:Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。

Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息,指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试,Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力,具有广泛的应用空间。

image.png

开源地址:https://github.com/Yuliang-Liu/Monkey

论文地址:https://arxiv.org/abs/2311.06607v1

Monkey 的训练数据集质量是其能力提升的关键,研究人员生成了数十万条高质量的图像描述数据,并利用多个模型自动生成文字描述,并将不同模型的输出融合起来,提升了大模型对图像细节的理解能力。

在模型选择方面,Monkey 采用了开源模型 Qwen-VL 作为语言解码器,以及20亿参数的 ViT-BigHuge 作为视觉编码器,避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率,以及生成更丰富的图像描述和对复杂场景的理解能力,采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。

Monkey 在16个不同的数据集上进行了全面验证,包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上,Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上,Monkey 在 TextCaps 数据集上也表现出色,证明了其对图片中文本元素的多模态理解能力。

在文档导向问答任务上,Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示,Monkey 在医学影像、卫星图像等领域具有广泛的应用空间,并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。

综上所述,Monkey 是一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,具有高效率和广泛的应用空间。通过在多个数据集上进行测试,Monkey 在多模态任务上取得了出色的成绩,展现了超强的视觉信息感知和场景理解能力。未来,Monkey 将继续优化模型的感知、联想、推理和泛化能力,进一步提升其在各领域的应用价值。

举报

  • 相关推荐
  • 智象多模态生成大模型3.0发布 离幻觉更远与离落地更近

    12月28日,智象未来科技有限公司在安徽人工智能产业先导区启动仪式中,正式发布智象多模态生成大模型3.0版。启动仪式上,智象未来创始人兼首席执行官梅涛总结了2024年人工领域技术发展的五个标志性事件,分别是以Sora为代表的视觉生成物理世界模拟器、以ChatGPT4o为代表的多模态模型、以GPT-o1为代表的从预训练到后训练推理优化、多模态大模型赋能具身智能实现软硬件结合,以及人工智能学者荣获诺贝尔化学奖表明AI赋能科研范式变革。本次活动现场,智象未来与人民网、上海电影集团、彩讯科技、捷成华视网聚、安徽联通、中国移动咪咕音乐等12家生态伙伴企业代表签约,共同打造集技术研发、产业化应用、市场推广于一体的生态体系。

  • AI日报:阿里通义开源多模态推理模型QVQ-72B;OpenAI考虑自研人形机器人;QQ音乐上线首个AI大模型音效

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。尽管o1-preview在某些方面表现优秀,但在实际应用中仍面临高成本和不切实际的测试建议等问题。

  • AI日报:赶超o1!国产大模型DeepSeek R1开源;Kimi多模态思考模型k1.5登场;清影2.0上线智谱清言

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国产大模型再突破!DeepSeekR1开源,性能直逼OpenAI,开启AI平权新时代DeepSeek最近发布并开源了其最新研发的大型语言模型R1,标志着国产AI技术的一次重大突破。预计2024年第四季度出货量同比增长3.7%,企业IT系统升级需求增加,AI笔记本电脑将改变用户体验,推动市场发展。

  • 中科金财多模态应用拓展新领域,AI大剧1月24日起快手独播

    北京中科金财科技股份有限公司与北京快手科技有限公司、北京北斗映画传媒有限公司、南京造火文化传媒有限公司联合出品的微短剧《浮梦吟》,将于2025年1月24日起在快手平台全网独播。这是快手首部将实景拍摄与AIGC制作结合的精品古风微短剧,在奇幻叙事中融入现实意义主题,借助AI技术呈现东方美学,打造现象级精品之作。中科金财将继续深化AI技术在多模态领域的研究与应用,定期评测国内外领先的多模态大模型,向客户提供优质AIGC技术服务,搭建全球多模态创作与应用生态,降低创作门槛,为行业带来更多优质内容供给,并继续拓展多模态应用服务领域,低成本解决长尾企业宣传片生产、投放视频制作等需求,利用AI技术创造业务价值,推动产业的智能化升级。

  • AI日报:Kimi发布多模态图片理解模型API;周鸿祎参演AI短剧开拍;MiniMax-01系列模型开源;星火同传语音大模型发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、月之暗面Kimi多模态图片理解模型API发布2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。

  • 多模态卷王阶跃震撼6连发,春节档最强AI家族来袭!

    【新智元导读】开年放大招!阶跃星辰重磅升级Step系基座模型全家桶,一口气连更上新6款模型。作为业内公认的「多模态卷王」,这家AI明星公司目前已拥有业内最全模型矩阵。在通过AGI的征程上,只有那些能够持续积累的玩家,才有可能走到最后。

  • 多模态交互+健康新突破,歌尔发布新一代智能指环参考设计

    传感器技术、大数据、云计算、物联网以及人工智能技术的蓬勃发展,为智能穿戴设备集成更多健康监测功能提供技术支持。智能指环作为新型可穿戴终端,可将最新技术与生活方式结合,凭借其便携和实时性在健康监测、交互领域展现出独特优势。歌尔自2013年进入智能穿戴领域,可根据客户需求提供不同产品形态的智能穿戴整体技术制造方案,未来,歌尔将继续推动技术革新,不断探索智能穿戴设备的新可能,助力用户实现便捷、智能、健康的生活方式。

  • AI医疗新纪元:复旦王烁研究员引领多模态医学人工智能技术革新

    在人工智能与医疗健康深度融合的今天,AI技术正以前所未有的速度推动着医疗行业的革新与进步。AI医疗不仅提高了医疗服务的精准性和效率,更为患者带来了更加便捷、高效的诊疗体验。松果基金将继续发挥其独特作用,为青年学者提供更多元化的支持和帮助,助力他们在AI领域取得更大的科研成果。

  • 三星Galaxy S25系列多模态感知 树立人机交互新范式

    2025年1月23日,三星在AI手机领域再次迈出重要一步,推出了其最新一代旗舰手机——GalaxyS25系列。借助前沿的GalaxyAI技术、多模态AI助理,三星GalaxyS25系列可实现更加自然、直观、易用的人机交互体验,树立了移动交互新范式。随着AI技术的不断进步,我们有理由相信,未来的智能手机将更加智能与人性化三星GalaxyS25系列正是这一愿景下的先行者。

  • 搭载多模态AI助理 三星Galaxy S25系列重塑移动AI新格局

    正文不久前,市场研究机构CounterpointResearch发布了一份报告,预计到2028年,全球生成式AI智能手机的出货量将达到7.3亿台,其市场份额占比将攀升至54%,这一数字是2024年预期水平的三倍以上。到2028年,在售价超过250美元的智能手机中,预计每10部中就有9部将具备生成式AI功能。这一切成就,都是三星GalaxyS系列坚持长期主义创新理念、不懈追求技术突破与用户体验优化的璀璨结晶。