开源大模型, 重量级选手+1

大家好，我是 Ai 学习的老章

今天大模型开源世界又迎来 1 个重量级选手 MiniMax- M1

我们一起看看

MiniMax-M1 简介

MiniMax-M1 采用了创新的混合专家模型（MoE）架构结合闪电注意力机制（Lightning Attention），优势有三：

高效计算：闪电注意力机制显著提升推理效率
参数激活优化：虽然总参数量巨大，但每次只激活必要的专家模块
线性扩展：时间和空间复杂度随序列长度近似线性增长

模型总参数 4560 亿（456B）,比 Qwen3 还庞大，每 token 激活参数：459 亿（45.9B）,基础模型：MiniMax-Text-01.MiniMax-M1 中的闪电注意力机制能够高效扩展测试时计算，与 DeepSeek R1 相比，M1 在 10 万 token 生成长度下仅消耗 25% 的 FLOPs。

最大亮点是超长上下文支持：

输入上下文：原生支持 100 万 token，是 DeepSeek R1 的 8 倍
输出长度：支持最多 8 万 token 输出
处理效率：在单台机器上就能处理超过 100 万 token

MiniMax-M1 原生支持 100 万 token 的上下文长度，是 DeepSeek R1 上下文大小的 8 倍。

最大输入与 Gemini 2.5 Pro 并列第一

最大输出仅次于 OpenAI o3

综合妥妥第一

它还支持：

深度思考：支持复杂逻辑推理和深度分析
长文档处理：能够高效处理和分析超长文本
多轮对话：支持复杂的多轮对话场景
工具调用：具备强大的工具调用能力

MiniMax-M1 测评

官方数据来看:

MiniMax-M1在复杂推理和长上下文处理方面表现突出，其核心优势在于高思考预算和原生百万 token 支持。80K 版本的思考预算达到行业顶级水平，在数学推理任务中接近 DeepSeek-R1 和 OpenAI-o3 等顶级模型，MATH-500 测试成绩达 96.8%。

在编码任务中，其 FullStackBench 68.3% 的表现与 Claude 4 Opus 差距不足 2 个百分点。特别值得注意的是其长上下文能力，在百万 token 级任务中与 Gemini 2.5 Pro 持平，OpenAI-MRCR 测试中 40K 版本甚至以 58.6% 略超 80K 版本。

工具调用方面，零售场景的 TAU-bench 测试显示 40K 版本反超 80K 版本达 67.8%，展现出色的任务适配性。

不过在软件工程和事实性任务方面，与行业顶尖模型仍存在约 15-20% 的差距。

MiniMax-M1 部署

模型文件 910GB+,比 R1 还大

官方推荐本地部署设备：单台配备 8 个 H800 或 8 个 H20 GPU 的服务器

搭载 8 个 H800 GPU 的服务器可处理长达 200 万 token 的上下文输入

配备 8 个 H20 GPU 的服务器则能够支持高达 500 万 token 的超长上下文处理能力。

vllm 部署代码：

#https:///MiniMaxAI/MiniMax-M1-80k/blob/main/docs/vllm_deployment_guide_cn.md

export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
python3 -m vllm.entrypoints.openai.api_server 
--model <模型存放路径> 
--tensor-parallel-size 8 
--trust-remote-code 
--quantization experts_int8  
--max_model_len 4096 
--dtype bfloat16

MiniMax-M1 实测

部署成本太高了，我没这个实力

想要测试的话可以去官方网站：https://chat./

这里面有两个模式：

智能搜索：就是联网搜索，官方建议当需要 MiniMax AI 进行创意写作时关闭此功能 Think 模式：就是深度思考

我让他生成黑客帝国数字雨 html，效果非常一般

DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型，双 4090本地部署，深得我心

比DeepSeek-R1-0528-Qwen3-8B 强，比 Qwen3:32B 弱，更是完全比不上 DeepSeek-R1-0528

不过其Agent模式还是很OK的

然后让其设计知识卡片

Qwen3 果真拉垮了吗？实测、【实测】ChatGPT 4.1 很好，但没那么好、批量生成小红书风格知识卡片，附Python代码！

提示词：阅读全文，文中共几次父亲的背影？分别有何深意，输出 SVG 格式，3:4，小红书风格：——省略 1328 字

它刚开始也是没有找到第四次的背影，不过在漫长的思考中，它发现并修复了

最终效果还行吧，比 Qwen3-235b、Qwen3:32、GPT4.1 都要强很多

我发现 minimax 也新出了一个 Agent 模式：https://agent./

它是类似 manus 的通用智能体工具，可以生成网页、游戏代码，可以做 Research，写报告，可以做 PPT，可以做多模态任务。

初看确实蛮惊艳的

比如这个复刻 minimax 官网

比如可以极简 prompt 输入

创作一本 20 页的儿童图画书，主角是一只善良的狐狸。用你生成图像的能力，以温暖明亮的风格创作 20 幅插图，将它们与故事文本结合，并以网页形式完整呈现给我。

生成一个故事网页

费用方面：

免费用户有 1,000 免费积分，这一点不如 manus 诚意，后者除了 1000 免费积分，每天还会刷新赠送 300.

总结,我个人可能只会偶尔在网页端用用它

公司本地化部署的话,铁定还是首选DeepSeek-R1-05-28

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！

搭建完美的写作环境：工具篇（12 章）图解机器学习 – 中文版（72 张 PNG）ChatGPT、大模型系列研究报告（50 个 PDF）108 页 PDF 小册子：搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子：机器学习中的概率论、统计学、线性代数史上最全！371 张速查表，涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

微精选