首页 > AI头条  > 正文

小米多模态大模型Xiaomi MiMo-VL开源

2025-05-30 09:41 · 来源: AIbase基地

近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。

微信截图_20250530093852.png

MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。在内部大模型竞技场评估真实用户体验时,MiMo-VL-7B超越GPT-4o,成为开源模型中的佼佼者。在实际应用场景中,该模型在复杂图片推理和问答上表现卓越,在长达10多步的GUI操作上也展现出不错的潜力,甚至能够帮助用户将小米SU7加购至心愿单。

MiMo-VL-7B全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法(MORL)。在多阶段预训练过程中,小米收集、清洗、合成了涵盖图片-文本对、视频-文本对、GUI操作序列等多种数据类型的高质量预训练多模态数据,总计2.4T tokens,并通过分阶段调整不同类型数据的比例,强化了长程多模态推理的能力。混合在线强化学习则融合了文本推理、多模态感知+推理、RLHF等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升了模型的推理、感知性能和用户体验。

相关链接:https://huggingface.co/XiaomiMiMo。

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 美团也开源了大模型,但我觉得他们的野心是通用生活Agent。

    也有线上体验地址:https://longcat.ai 我自己去体验了一下,整体模型能力,中规中矩,但是快,是真的快,能把560B的模型,在推理的时候搞得这么快,是真的有点牛逼的。 我直接录了个屏给大家看一下。 这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度,他俩都是MoE架构,而且总参数量差不太多。 为了更公平的竞争,用了同一个问题,并关闭了联网搜索来避免搜索干扰�

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • Kimi K2模型更新至0905版本:更强代码能力 更快API性能

    月之暗面科技有限公司宣布其Kimi K2模型更新至0905版本,带来更强的代码能力和更快的API性能。此次更新进一步提升了Kimi K2在真实编程任务中的表现,特别是在公开基准测试和实际编程任务中展现出更好的性能。 Kimi K2模型的Agentic Coding能力得到显著提升,这使得它在处理复杂的编程任务时更加高效。同时,前端编程体验也得到了升级,生成的代码不仅更加美观,而且更具实用

  • 小米手机全球销量最高系列!REDMI 15C正式发布:百元良心神机

    小米在海外多个市场发布了REDMI 15C,起售价是119美元(约合人民币849元)。 该系列是小米集团最便宜的入门手机,此前几代都被誉为百元良心神机。 REDMI 15C采用直屏直边的设计,正面是一块LCD水滴屏,分辨率为HD (7201640),支持120Hz高刷新率和最高810尼特的峰值亮度。 提供月光蓝、暮光橙、午夜黑、薄荷绿四种颜色,支持侧边指纹,与电源键二合一。 背部相机模组有些类

  • 比iPad mini更胜一筹!华为MatePad Mini包装盒曝光:8.8寸屏的手机 或卖4K起

    明天除了Mate XTs亮相外,还有MatePad Mini,而它到底算是平板还是手机呢? 现在有博主晒出了MatePad Mini外包装盒,从产品名称上看,华为给它定位是手机(数字移动电话机)。 对于这款新机,今天我们也报道了相关内容,比如曝光的价格是:12GB 256GB售价为3999元;12GB 512GB售价为4499元;12GB 512GB柔光版售价为4999元。

  • 34Q9 垂直整合重塑 Mini LED 格局

    2025年9月1日,雷鸟推出34Q9 Mini LED电竞显示器,定价3999元。该产品采用2304分区Mini LED背光和HVA面板,实现1ms响应速度和4000:1对比度,精准切入3000-4000元市场空档。凭借华星光电供应链优势,产品在画质、色域(97% DCI-P3)及多设备兼容性(90W Type-C)上表现突出,覆盖电竞玩家、内容创作者和多设备用户三大群体。业界认为该产品可能重塑中高端显示器市场格局,加速Mini LED技术普及。

  • REDMI最强旗舰:曝REDMI K90全系标配2K窄边框直屏

    博主数码闲聊站暗示,REDMI K90标准版和Pro版都标配2K直屏,全系采用旗舰级发光材料,全系支持3D超声波屏幕指纹,全系采用LTPS屏幕。 该博主还爆料,REDMI K90系列的2K屏幕功耗明显下降,还有对称式双扬声器,屏幕比例为19.5:9。

  • iPad mini对比完败!华为MatePad Mini明天发布 价格曝光 或3999元起

    明天华为要举行新品发布会,除了新的三折叠屏手机外,还有MatePad Mini。 现在,有博主曝光了华为MatePad Mini不同内存版本的价格,具体来说:12GB 256GB售价为3999元;12GB 512GB售价为4499元;12GB 512GB柔光版售价为4999元。 汇总之前曝光的消息,华为MatePad Mini将推出多个版本,包括标准版、柔光版(配备防眩光屏幕,适合手写笔创作)、插卡版(支持5G网络和通话功能)、read版”(�

  • 百川开源最新医疗大模型,中国力量领跑医疗AI赛道

    专注医疗后,百川智能交出第一份答卷! 8月11日,百川智能发布第二款开源医疗增强推理大模型Baichuan-M2,其以32B的参数量,在OpenAI的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。

今日大家都在搜的词: