首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

多模态大模型MMICL霸榜 支持文本图像视频输入

2023-09-19 16:16 · 稿源:站长之家

要点:

1、MMICL在多模态能力评测中表现突出,支持文本图像视频三种模态输入。

2、采用两阶段训练,可实现“现学现卖”,有效缓解视觉语言模型中的语言偏见。

3、已开源可商用的Flan版和仅科研用的Vicuna版,都发布在GitHub。

站长之家(ChinaZ.com)9月19日 消息:最近,北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。

MMICL在MMBench和MME两项多模态测评中均获得不俗的成绩。它采用Flan-T5XXL作为基础模型,通过两阶段训练完成。第一阶段是预训练,使用大规模数据集;第二阶段是多模态上下文微调,使用自建包含丰富多模态样本的MIC数据集。这种训练方式让MMICL既具备强大的语义理解能力,又特别适合处理复杂的多模态输入。

image.png

项目地址:https://github.com/HaozheZhao/MIC

MMICL使用了VCR、VQAv2、GQA、COCO、NLVR2等多种数据源。研究人员将这些数据转换成了少样本式数据,存储在jsonl文件中,形成了带有0到少样本的多指令式数据。研究使用python数据预处理脚本,将数据转换为后续训练的原始化数据。数据格式支持交错的图像文字输入,相关图像输入以及语境示范输入。

MMICL最大的特色在于同时接受文本和图像的交错输入,就像微信聊天一样自然。它可以分析两张图像的关系,也可以从视频中提取时空信息。如果给它一些示例,MMICL还能进行“现学现卖”,对未知知识进行类比和推理。研究团队表示,MMICL成功缓解了视觉语言模型中的语言偏见问题,避免在大量文本输入时忽视视觉信息。

MMICL的核心功能包括:

1)理解并推理多幅图像之间的关系;

2)人工构建的语境训练数据,支持语境学习;

3)状态最先进的多模态建模能力。

目前,MMICL已开源两个版本,分别基于FlanT5XL和Vicuna模型,可满足商用和科研需求。该模型支持多种互动方式,开发者可以通过GitHub获取代码和模型进行试用。诸如图像分类、视频理解等多模态任务,都可以基于MMICL得到进一步提升。

总体来说,MMICL是新兴的多模态预训练模型中的佼佼者。它具备处理复杂多模态输入的能力,支持各种多模态任务精调。MMICL的开源发布为多模态AI的研究和应用提供了新的选择。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。

举报

  • 相关推荐
  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • AI触控云台浩瀚V3 Ultra发布,首发AI多模态追踪模块,定义手机云台轻旗舰标准!

    6月6日,浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品,它搭载行业首创AI多模态万物原生跟拍技术,支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统,折叠后体积小巧便携。配备22英寸触控彩屏,支持5米手势控制和隔空补光功能。售价999元起,同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年,产�

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • 预测大模型的工业生存法则,华为博士告诉你什么才是B端最需要的大模型!

    华为开发者大会2025期间,AI专家李良基与华为团队围绕预测大模型展开深度对话。华为提出"数据原子级表征体系"理念,旨在通过统一数据编码解决跨场景迁移难题。预测大模型已在钢铁行业成功应用,温度预测准确率远超传统方案。专家指出,AGI发展的核心在于构建知识迁移能力,未来将聚焦To B场景落地,通过统一架构实现跨领域泛化应用。华为云首创Triplet Transformer

  • 智能体时代,还得看豆包大模型

    火山引擎,又有大动作了。 2025年6月11日,火山引擎Force原动力大会发布豆包大模型1.6、视频生成模型Seedance1.0pro等重磅新模型,以及迭代了一站式AI云原生全栈服务。 对此,字节跳动CEO梁汝波表示:“做好火山引擎对字节跳动成为一家优秀的科技公司、保持技术竞争力很重要。未来,字节跳动会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新�

  • 从618霸榜到全球登顶,TCL Mini LED强势领跑上半年

    TCL凭借Mini LED技术在全球电视市场持续领先。2025年上半年,TCL电视全球出货量达651万台,同比增长11.4%,其中Mini LED电视出货量激增194.5%,市占率28.8%超越三星。TCL通过自主研发的蝶翼星曜屏和万象分区控光系统,实现1.8%超低反射率和7000:1原生对比度,解决传统电视反光和光晕问题。618期间T7L Pro等产品热销,印证了技术优势。随着家电市场向价值驱动转型,TCL依托垂直产业链优势,构建了完整Mini LED产品矩阵,覆盖中高端市场。未来将持续在控光系统、画质芯片等领域突破,推动Mini LED电视向更高画质演进。