大家好,我是 Ai 学习的老章
今天大模型开源世界又迎来 1 个重量级选手 MiniMax- M1
我们一起看看
MiniMax-M1 简介
MiniMax-M1 采用了创新的混合专家模型(MoE)架构结合闪电注意力机制(Lightning Attention),优势有三:
-
高效计算:闪电注意力机制显著提升推理效率 -
参数激活优化:虽然总参数量巨大,但每次只激活必要的专家模块 -
线性扩展:时间和空间复杂度随序列长度近似线性增长
模型总参数 4560 亿(456B),比 Qwen3 还庞大,每 token 激活参数:459 亿(45.9B),基础模型:MiniMax-Text-01.MiniMax-M1 中的闪电注意力机制能够高效扩展测试时计算,与 DeepSeek R1 相比,M1 在 10 万 token 生成长度下仅消耗 25% 的 FLOPs。
最大亮点是超长上下文支持:
-
输入上下文:原生支持 100 万 token,是 DeepSeek R1 的 8 倍 -
输出长度:支持最多 8 万 token 输出 -
处理效率:在单台机器上就能处理超过 100 万 token
MiniMax-M1 原生支持 100 万 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。
最大输入与 Gemini 2.5 Pro 并列第一
最大输出仅次于 OpenAI o3
综合妥妥第一
它还支持:
-
深度思考:支持复杂逻辑推理和深度分析 -
长文档处理:能够高效处理和分析超长文本 -
多轮对话:支持复杂的多轮对话场景 -
工具调用:具备强大的工具调用能力
MiniMax-M1 测评
官方数据来看:
MiniMax-M1在复杂推理和长上下文处理方面表现突出,其核心优势在于高思考预算和原生百万 token 支持。80K 版本的思考预算达到行业顶级水平,在数学推理任务中接近 DeepSeek-R1 和 OpenAI-o3 等顶级模型,MATH-500 测试成绩达 96.8%。
在编码任务中,其 FullStackBench 68.3% 的表现与 Claude 4 Opus 差距不足 2 个百分点。特别值得注意的是其长上下文能力,在百万 token 级任务中与 Gemini 2.5 Pro 持平,OpenAI-MRCR 测试中 40K 版本甚至以 58.6% 略超 80K 版本。
工具调用方面,零售场景的 TAU-bench 测试显示 40K 版本反超 80K 版本达 67.8%,展现出色的任务适配性。
不过在软件工程和事实性任务方面,与行业顶尖模型仍存在约 15-20% 的差距。
MiniMax-M1 部署
模型文件 910GB+,比 R1 还大
官方推荐本地部署设备:单台配备 8 个 H800 或 8 个 H20 GPU 的服务器
搭载 8 个 H800 GPU 的服务器可处理长达 200 万 token 的上下文输入
配备 8 个 H20 GPU 的服务器则能够支持高达 500 万 token 的超长上下文处理能力。
vllm 部署代码:
#https:///MiniMaxAI/MiniMax-M1-80k/blob/main/docs/vllm_deployment_guide_cn.md
export SAFETENSORS_FAST_GPU=1
export VLLM_USE_V1=0
python3 -m vllm.entrypoints.openai.api_server
--model <模型存放路径>
--tensor-parallel-size 8
--trust-remote-code

--quantization experts_int8
--max_model_len 4096
--dtype bfloat16
MiniMax-M1 实测
部署成本太高了,我没这个实力
想要测试的话可以去官方网站:https://chat./
这里面有两个模式:
智能搜索:就是联网搜索,官方建议当需要 MiniMax AI 进行创意写作时关闭此功能 Think 模式:就是深度思考
我让他生成黑客帝国数字雨 html,效果非常一般
DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型,双 4090本地部署,深得我心
比DeepSeek-R1-0528-Qwen3-8B 强,比 Qwen3:32B 弱,更是完全比不上 DeepSeek-R1-0528
不过其Agent模式还是很OK的
然后让其设计知识卡片
Qwen3 果真拉垮了吗?实测、【实测】ChatGPT 4.1 很好,但没那么好、批量生成小红书风格知识卡片,附Python代码!
提示词:阅读全文,文中共几次父亲的背影?分别有何深意,输出 SVG 格式,3:4,小红书风格:——省略 1328 字
它刚开始也是没有找到第四次的背影,不过在漫长的思考中,它发现并修复了
最终效果还行吧,比 Qwen3-235b、Qwen3:32、GPT4.1 都要强很多
我发现 minimax 也新出了一个 Agent 模式:https://agent./
它是类似 manus 的通用智能体工具,可以生成网页、游戏代码,可以做 Research,写报告,可以做 PPT,可以做多模态任务。
初看确实蛮惊艳的
比如这个复刻 minimax 官网
比如可以极简 prompt 输入
创作一本 20 页的儿童图画书,主角是一只善良的狐狸。用你生成图像的能力,以温暖明亮的风格创作 20 幅插图,将它们与故事文本结合,并以网页形式完整呈现给我。
生成一个故事网页
费用方面:
免费用户有 1,000 免费积分,这一点不如 manus 诚意,后者除了 1000 免费积分,每天还会刷新赠送 300.
总结,我个人可能只会偶尔在网页端用用它
公司本地化部署的话,铁定还是首选DeepSeek-R1-05-28
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12 章)图解机器学习 – 中文版(72 张 PNG)ChatGPT、大模型系列研究报告(50 个 PDF)108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数 史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等