大家好,我是 Ai 学习的老章

今天大模型开源世界又迎来 1 个重量级选手 MiniMax- M1

我们一起看看

MiniMax-M1 简介

MiniMax-M1 采用了创新的混合专家模型(MoE)架构结合闪电注意力机制(Lightning Attention),优势有三:

  • 高效计算:闪电注意力机制显著提升推理效率
  • 参数激活优化:虽然总参数量巨大,但每次只激活必要的专家模块
  • 线性扩展:时间和空间复杂度随序列长度近似线性增长

模型总参数 4560 亿(456B),比 Qwen3 还庞大,每 token 激活参数:459 亿(45.9B),基础模型:MiniMax-Text-01.MiniMax-M1 中的闪电注意力机制能够高效扩展测试时计算,与 DeepSeek R1 相比,M1 在 10 万 token 生成长度下仅消耗 25% 的 FLOPs。

最大亮点是超长上下文支持

  • 输入上下文:原生支持 100 万 token,是 DeepSeek R1 的 8 倍
  • 输出长度:支持最多 8 万 token 输出
  • 处理效率:在单台机器上就能处理超过 100 万 token

MiniMax-M1 原生支持 100 万 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。

最大输入与 Gemini 2.5 Pro 并列第一

最大输出仅次于 OpenAI o3

综合妥妥第一

它还支持:

  • 深度思考:支持复杂逻辑推理和深度分析
  • 长文档处理:能够高效处理和分析超长文本
  • 多轮对话:支持复杂的多轮对话场景
  • 工具调用:具备强大的工具调用能力

MiniMax-M1 测评

官方数据来看:

MiniMax-M1在复杂推理和长上下文处理方面表现突出,其核心优势在于高思考预算和原生百万 token 支持。80K 版本的思考预算达到行业顶级水平,在数学推理任务中接近 DeepSeek-R1 和 OpenAI-o3 等顶级模型,MATH-500 测试成绩达 96.8%。

在编码任务中,其 FullStackBench 68.3% 的表现与 Claude 4 Opus 差距不足 2 个百分点。特别值得注意的是其长上下文能力,在百万 token 级任务中与 Gemini 2.5 Pro 持平,OpenAI-MRCR 测试中 40K 版本甚至以 58.6% 略超 80K 版本。

工具调用方面,零售场景的 TAU-bench 测试显示 40K 版本反超 80K 版本达 67.8%,展现出色的任务适配性。

不过在软件工程和事实性任务方面,与行业顶尖模型仍存在约 15-20% 的差距。

MiniMax-M1 部署

模型文件 910GB+,比 R1 还大

官方推荐本地部署设备:单台配备 8 个 H800 或 8 个 H20 GPU 的服务器

搭载 8 个 H800 GPU 的服务器可处理长达 200 万 token 的上下文输入

配备 8 个 H20 GPU 的服务器则能够支持高达 500 万 token 的超长上下文处理能力。

vllm 部署代码:

#https:///MiniMaxAI/MiniMax-M1-80k/blob/main/docs/vllm_deployment_guide_cn.md

export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
python3 -m vllm.entrypoints.openai.api_server
--model <模型存放路径>
--tensor-parallel-size 8
--trust-remote-code
开源大模型, 重量级选手+1
--quantization experts_int8  
--max_model_len 4096
--dtype bfloat16

MiniMax-M1 实测

部署成本太高了,我没这个实力

想要测试的话可以去官方网站:https://chat./

这里面有两个模式:

智能搜索:就是联网搜索,官方建议当需要 MiniMax AI 进行创意写作时关闭此功能 Think 模式:就是深度思考

我让他生成黑客帝国数字雨 html,效果非常一般

DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型,双 4090本地部署,深得我心

DeepSeek-R1-0528-Qwen3-8B 强,比 Qwen3:32B 弱,更是完全比不上 DeepSeek-R1-0528

不过其Agent模式还是很OK的

然后让其设计知识卡片

Qwen3 果真拉垮了吗?实测【实测】ChatGPT 4.1 很好,但没那么好批量生成小红书风格知识卡片,附Python代码!

提示词:阅读全文,文中共几次父亲的背影?分别有何深意,输出 SVG 格式,3:4,小红书风格:——省略 1328 字

它刚开始也是没有找到第四次的背影,不过在漫长的思考中,它发现并修复了

最终效果还行吧,比 Qwen3-235b、Qwen3:32、GPT4.1 都要强很多

我发现 minimax 也新出了一个 Agent 模式:https://agent./

它是类似 manus 的通用智能体工具,可以生成网页、游戏代码,可以做 Research,写报告,可以做 PPT,可以做多模态任务。

初看确实蛮惊艳的

比如这个复刻 minimax 官网

比如可以极简 prompt 输入

创作一本 20 页的儿童图画书,主角是一只善良的狐狸。用你生成图像的能力,以温暖明亮的风格创作 20 幅插图,将它们与故事文本结合,并以网页形式完整呈现给我。

生成一个故事网页

费用方面:

免费用户有 1,000 免费积分,这一点不如 manus 诚意,后者除了 1000 免费积分,每天还会刷新赠送 300.

总结,我个人可能只会偶尔在网页端用用它

公司本地化部署的话,铁定还是首选DeepSeek-R1-05-28

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)图解机器学习 – 中文版(72 张 PNG)ChatGPT、大模型系列研究报告(50 个 PDF)108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数 史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等