首页 > 业界 > 关键词  > AI行业最新资讯  > 正文

MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。

2025-06-17 09:56 · 稿源: 数字生命卡兹克公众号

声明:本文来自于微信公众号 数字生命卡兹克,作者:数字生命卡兹克,授权站长之家转载发布。

不知道还有多少人记得,AI行业的六小虎。

行业内都在说,他们已经寂静好久了。

上一次相关的项目发布,还是前一段时间我写的MiniMax声音模型的更新,Speech-02。

而昨晚凌晨将近12点的时候,又是MiniMax,居然在X上,预告了他们一整周的发布计划。

给我整不会了,不是,为什么总是选择这么阴间的时间点发布啊。。。

第一天(也就是昨天),发布了他们MiniMax Week的第一个项目:开源MiniMax首个推理模型M1。

图片

出手就开源,还是秀的,看看跑分。

图片

我先说结论:“MiniMax M1的上下文能力,就现在全球最屌、最牛逼的、足以媲美Gemini2.5Pro的开源模型。”

我愿敬称为新一代源神。

在AIME2024逻辑数学题目上(偏奥数思维)和LiveCodeBench编程题上、还有SWE-bench Verified(真实世界代码补全+修改),MiniMax M1的表现只能说中规中矩,有弱的、有强的。

而TAU-bench(需要理解任务目标、推理动机的场景),M1准确率62.8%,开始媲美开源模型。

但是,最离谱的来了,最后一个,MRCR(4-needle)。

这个直接,屠榜了,真的就一瞬间,一柱擎天,直接跟Gemini2.5Pro肩并肩,我相信用过Gemini2.5pro的伙伴,都知道,这玩意的上下文有多离谱,而现在,MiniMax M1作为一个开源的大模型,首次,在这个评测集上,能跟Gemini2.5Pro并驾齐驱了。

我特么。。。

很多人不知道MRCR(4-needle)是个啥,我简单解释一下。

AI圈之前一直有一个测上下文能力的测试,叫做“大海捞针”。

我23年的这个测试刚出来的时候我就写过:花7000块实测Claude2.1-200K Token的超大杯效果究竟怎么样?

X上一个大佬Greg Kamradt,为了弄明白当年Claude2.1的200K Token,究竟实测效果怎么样,就调用Claude 的API做了个压力测试,从一段不同长度的文本中,捞出特定的信息,而这个测试,花了他1000美金。

这图我现在还有。

图片

Claude-2.1当时红了一片,200K几乎没有蛋用,巨水无比。

而那一次,Kimi在我的文章下留言,说自己内部测了一下,全绿。

后面的故事,大家也就都知道了。

后来呢,Gemini觉得这个大海捞针测试太初级了,于是自己搓了一个新的测试方法,叫做Michelangelo。

图片

在这个论文里,他们提出了Michelangelo的几个评估任务,有Latent List、IDK,而第三个,就是MRCR。

全称叫Multi-Round Co-reference Resolution,翻译成中文叫多轮共指消解,反正非常拗口。

它主要考察一个模型在处理较长的、多轮对话时,能否准确地理解和区分用户要求中具体指的是哪一次对话、哪一个内容。

比如用户和AI进行了一系列对话,用户要求AI写一些东西,比如诗、谜语、文章。在这些对话中,会刻意插入多个看起来类似的话题(比如多首关于企鹅的诗)。

然后再让AI回头去重新找到某一次特定的话,比如用户要求“再重复一遍第二首写企鹅的诗”,此时模型必须精准识别这个“第二首”指的具体是哪一次回答的内容。

这个事其实不简单,因为对话很长,涉及多个话题和文体,非常考验模型的上下文理解力。

已上传的图片

有些内容在主题和格式上极其相似,比如“关于企鹅的第一首诗”和“关于企鹅的第二首诗”。模型必须能清晰区分、精准回溯。

后面OpenAI在发GPT-4.1的时候,也在blog里面提到,自己魔改了一个难度更高的MRCR的评测集,用来评估模型的上下文性能。

图片

而“4-needle” 指的是,在同一段超长上下文里同时埋下4个“针”(关键信息片段),然后在后续对话里以交错的方式把这4根针全部翻出来。

在这个任务下,MiniMax-M1,吊打了一切,只跟Gemini2.5pro,差了那一点点的距离。

我翻了下技术报告,M1之所以在上下文有这个性能,核心点还是在于他们之前开源的基座模型MiniMax-01。

得益于MiniMax-01Lightning Attention线性注意力机制的应用,M1的时间和空间复杂度随序列长度增加近似线性增长,不像传统Transformer那样呈平方级膨胀。

图片

因为Lightning Attention机制,在推理生成长度64K token时,FLOPs消耗不到DeepSeek R1的一半。

当生成长度达到100K token时,M1仅消耗其约25%的FLOPs。

非常的离谱。

而这个MiniMax-M1,跟之前开源的基座模型MiniMax-01一样,也是456B参数,MoE架构,实际激活45.9B。

最长上下文长度为100万字,也就是1M,是DeepSeek-R1的8倍。

这次开源了两个上下文长度的推理模型,40K和80K。

图片

80K版本是在40K版本基础上进一步训练得到的增强版本。

这里注意一下,80K和40K指的不是上下文长度,上下文长度是1M,80K和40K指的是Extended Thinking的上限。

GitHub:https://github.com/MiniMax-AI/MiniMax-M1

Hugging Face:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1

目前在MiniMax的官网上也上线了。

图片

网址在此,可以直接用。

https://chat.minimaxi.com/

我也第一时间,上去测了一下。

我的第一个任务,就让我开了眼,因为我只是,小小的尝试一下,没想到效果,比我预期的还要好,我直接把MiniMax-M1的技术报告扔了进去,让它,给我逐字翻译。

图片

现在看着还比较正常对吧。

但是,马上,离谱的事情来了。

他居然把图,也给我...带出来了。。。

图片

甚至不仅有图,还有,公式。

图片

还把表格,直接拎出来翻译了。

图片

这效果,这体验,真的无敌

虽然中间,有部分的图表丢失,还没有达到100%的完整度,但是这个效果,也已经非常非常好了,关键的是文字,一个不落,全部都整整齐齐的给我翻译出来了。

最搞笑的是,他还自作主张,在最后,可能觉得参考文献翻译出来没什么用,直接自己给省略了。

图片

我说实话,这个参考文献,占了5页,对我来说,确实没啥用。。。

在翻译上,我又试了一个更有趣的场景,我扔了一个文档过去,然后说:

“翻译成中文,在括号里标注一些符合我英语水平的原文英文词汇或短语。我英语水平是大学六级。”

图片

太有意思了,这个上下文准确性,是真的牛逼。

然后我又做了一个测试,把我群里这一周的聊天记录,导出出去也扔给了MiniMax-M1,让他把绛烨的聊天记录都找出来。

图片

他准确的识别除了绛烨的微信ID,然后找到了他的微信号,扒出了他的所有聊天记录。。。

图片

这些链接,是真的能点的,我惊了,他还做了样式重构。。。

因为超长超准的上下文,你还可以,跟大模型玩一局,真正的文字冒险游戏,因为他不会忘记你的出身,他会记得,一切。

图片

图片

推理模型+超长且精准上下文的扩充,确实会带来,很多不一样的花活玩法。

比如我还有一个特别狠的测试。

就是我手上有一个34个刘慈欣老师的小说的合集,因为大刘除了世人皆知的三体之外,他其实还写过特别多的科幻中短篇小说,也特别好看。

图片

比如我最爱的《山》。

我现在,想把这些故事,安利给我的朋友们,我想,让AI根据这34个故事,每一个故事都写一段故事总结+推荐语。

这个任务,你要是扔给DeepSeek。

你就会得到一个非常离谱的提示,DeepSeek只阅读了8%。。。

图片

而MiniMax-M1,出色的完成了任务。

超长上下文的魅力,此时体现的淋漓尽致。

不过我有一个更变态的任务,还是给MiniMax-M1干宕机了。

就是...我让它数本草纲目里一共有多少药材= =

数了8分钟,最后跟我说,有400中种,但其实答案是1892种= =

图片

不过我也能理解,这个任务,确实实在是太变态了。。。

除了上下文之外,我也测了些写作、编程、数学。

写作和数学就不详细提了,写作这块中规中矩,数学的高考题实在没空完整做了,我觉得我需要抽空写一个脚本。

不过测了两道大题,目前是都对的。

最后稍微吐槽一下编程这块,就是前端审美,感觉还是有一些进步空间的。

就...有一点,不好看啊。

比如我昨天下午去参加了飞书多维表格的闭门会,会议特别有价值,我想做个可视化网页。

这是Gemini生成的。

图片

这是M1生成的。

图片

咱就是说,可以不这么直男审美的= =

总体来说,M1模型,还是让我有一点惊喜的,他们自己的新研究,确实卷出了一些很有意思的特性,也把开源领域的模型水平,又拔高了一个层级。

还有4天时间,我现在有点期待MiniMax会继续掏出什么有意思的大货了。

以我对MiniMax的了解,视频模型总归要来一个的吧,已经有一段时间没更新了,Video01-Director已经是几个月前的事了。

你Hailuo02(0616)都去打榜了,那你这5天里,得掏一下吧。

图片

海螺的人物情绪表演、动作表演,至今依然是我心中的白月光。

极度期待Hailuo02,在人物表演上,会带给我什么样的震撼。

声音模型估计不发新的了,因为一个月前Speech-02才发。

图片和3DMiniMax不做,那在掏个音乐模型?这个符合MiniMax的气质。

这一周,希望MiniMax尽情撒货吧。

让AI的这一把火。

烧的更热烈些。

举报

  • 相关推荐
  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • 华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

    要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的专家网络,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以“雨露均沾”的方式去分配——专家网络们的负�

  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

    本次AI高考数学测试评估了7个大模型的表现,包括Doubao、DeepSeek、Qwen3等。测试包含14道客观题和5道解答题,总分150分。结果显示:1)客观题各模型差距不大,最大分差仅3分;2)解答题成为主要失分区,仅Gemini2.5Pro获得满分;3)图像识别题(第6题)难倒所有多模态模型,暴露AI图文理解短板。最终Gemini2.5Pro以145分居首,Doubao和DeepSeek R1以144分并列第二。测试表明大模型在数学推理能力上有进步,但在复杂论证和多步骤计算方面仍需提升。

  • 如何用 DeepSeek 生成备课教案

    本教程介绍如何利用AI工具DeepSeek快速生成七年级中国古代史教案。操作流程包括:1.登录DeepSeek官网;2.进入文本生成界面;3.输入详细指令,包含教学目标、重难点、教学过程等要素;4.等待AI生成教案;5.检查并调整内容。该工具能帮助教师高效完成系统化的教案设计,但生成后仍需根据实际教学需求进行适当修改和完善,最后保存为所需格式使用。

  • 如何用 DeepSeek 进行论文降重

    本文介绍了如何利用DeepSeek AI工具降低学术论文重复率。该工具能对重复率超标的段落进行学术化改写,在保证专业术语准确性的同时降低查重率。使用方法是:1)在DeepSeek网站输入降重指令和段落;2)可指定改写风格(如某期刊格式)或具体方向(如主动改被动句);3)审查改写结果,确保语义准确、术语恰当、逻辑连贯。若发现问题可再次优化。该工具适用于毕业论文、期刊�

  • 如何用 DeepSeek 进行合同审核

    本文介绍如何利用DeepSeek AI工具高效审核合同法律风险。合同是商业活动的重要保障,但隐藏的法律风险可能带来巨大损失。DeepSeek能快速识别合同条款中的合法性存疑、违约责任模糊、交付条款不清等问题,并提供专业修改建议。操作流程包括:1.登录DeepSeek平台;2.上传合同文件;3.输入审核指令;4.查看详细审核结果。该工具适用于企业法务、律师及商务人员,能有效规避合同风险,提高审核效率。

  • 利用DeepSeek和豆包生成工作总结

    本文介绍如何利用AI工具快速撰写高质量工作总结。通过DeepSeek生成内容框架,再使用豆包填充具体内容,可大幅提升写作效率。操作步骤:1)在DeepSeek输入需求获取大纲;2)将大纲粘贴至豆包生成详细内容;3)根据需要进行调整优化。该方法适用于教师学期总结、员工季度报告、项目总结等多种场景,能有效节省时间精力,提升工作效率。

  • 如何用 DeepSeek 生成爆款标题

    本文介绍如何利用DeepSeek工具快速生成15个爆款标题,提升内容吸引力。操作步骤:1.访问DeepSeek官网;2.输入指令,如"为夏日低卡甜品生成15个小红书标题",要求包含emoji、数字或关键词;3.根据不同平台特性调整风格:小红书需活泼多用emoji,知乎要理性干货,抖音则简短有力突出冲突。该工具能帮助创作者在海量信息中脱颖而出,解决标题创作难题。

  • 如何用 DeepSeek 制定项目管理计划

    本文介绍了如何利用DeepSeek AI工具快速完成电商双十二促销网页开发项目。关键点包括:1.通过DeepSeek平台输入详细需求指令,系统会生成项目管理计划和甘特图代码;2.将代码复制到Mermaid等在线渲染工具中可视化查看项目进度安排;3.根据可视化结果优化调整计划,确保任务时间节点和依赖关系合理。该方法能帮助团队在一个月内高效完成女鞋促销页面的开发上线,特别适合电商节日促销等时效性强的项目。

  • 如何用deepseek生成短视频脚本

    本文介绍如何利用DeepSeek工具快速生成30秒短视频脚本。该工具可根据用户需求,自动生成包含开场悬念、核心干货、反转情节和结尾互动的优质脚本。操作流程包括:1.登录DeepSeek官网;2.输入具体指令(如"生成洗发水广告脚本,需包含开场悬念+3个核心干货+结尾互动");3.检查并优化脚本内容;4.补充画面风格、背景音乐等细节。通过多次指令调整可获得更理想的脚本