大家好,我是 Ai 学习的老章
好久没有看到令人心动的大模型了
现在它来了——Qwen3-Next
ℹ️简介
阿里放出了两个模型 Qwen3-Next-80B-A3B-Instruct与 Qwen3-Next-80B-A3B-Thinking: 🔹 80B 参数,但每 token 仅激活 3B → 训练成本降低 10 倍,推理速度提升 10 倍,超越 Qwen3-32B(尤其在 32K+ 上下文时!)
🔹 混合架构:Gated DeltaNet + Gated Attention → 兼顾速度与召回的最佳方案
🔹 超稀疏 MoE:512 位专家,10 位路由 + 1 位共享
🔹 多 Token 预测 → 涡轮增压的投机解码
🔹 性能超越 Qwen3-32B,推理与长上下文能力媲美 Qwen3-235B
🧠 Qwen3-Next-80B-A3B-Instruct 逼近 235B 旗舰模型。
🧠 Qwen3-Next-80B-A3B-Thinking 超越 Gemini-2.5-Flash-Thinking。
这两个模型均基于Qwen3-Next-80B-A3B-Base模型训练而来,Base 模型拥有 800 亿参数,30 亿激活参数。实现了与 Qwen3-32B dense 模型相近甚至略好的性能,而它的训练成本(GPU hours) 仅为 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上,实现了极致的训练和推理性价比。
立即体验:https://chat.
模型下载:https:///collections/Qwen3-Next-c314f23bd0264a
🐎性能
Qwen3-Next 在训练上,仅需 9.3% 的 GPU 计算资源,就能实现更优性能,极大提升训练效率与性价比。
预填充阶段:在 4K 上下文长度下,吞吐量几乎是 Qwen3-32B 的 7 倍;超过 32K 时,速度提升超过 10 倍。
解码阶段:在 4K 上下文下,吞吐量提升近 4 倍;即使超过 32K,仍保持 10 倍以上的速度优势。
基础模型性能
思维模型性能:优于预训练成本更高的 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-thinking,超过了闭源的模型 Gemini-2.5-Flash-Thinking,并在部分指标上接近旗舰模型 Qwen3-235B-A22B-Thinking-2507。
指令模型性能:显著优于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking,几乎与 Qwen3-235B-A22B-Instruct-2507 相近。
🪤部署
SGLang 框架
pip install 'sglang[all] @ git+https://github.com/sgl-project/sglang.git@main#subdirectory=python'
以下命令可用于在 http://localhost:30000/v1 上创建一个 API 端点,最大上下文长度为 256K 个令牌,并在 4 个 GPU 上使用张量并行。

SGLANG_USE_MODELSCOPE=true SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Instruct --port 30000 --tp-size 4 --context-length 262144 --mem-fraction-static 0.8
对于 MTP,建议使用以下命令,其余设置与上述相同:
SGLANG_USE_MODELSCOPE=true SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Instruct --port 30000 --tp-size 4 --context-length 262144 --mem-fraction-static 0.8 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4
❝
[! 注意] 目前需要环境变量
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1。
❝
[! 注意] 默认上下文长度为 256K。如果服务器无法启动,请考虑将上下文长度减少到较小的值,例如
32768。
vLLM
pip install vllm --pre --extra-index-url https://wheels./nightly
以下命令可用于在 http://localhost:8000/v1 上创建一个 API 端点,最大上下文长度为 256K 个令牌,并在 4 个 GPU 上使用张量并行。
VLLM_USE_MODELSCOPE=true VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 262144
对于 MTP,建议使用以下命令,其余设置与上述相同:
VLLM_USE_MODELSCOPE=true VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
❝
[! 注意] 目前需要环境变量
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1。
❝
[! 注意] 默认上下文长度为 256K。如果服务器无法启动,请考虑将上下文长度减少到较小的值,例如
32768。
为了达到最佳性能,推荐以下设置:
-
采样参数:
-
Temperature=0.7、TopP=0.8、TopK=20和MinP=0。 -
对于支持的框架,可以在 0 到 2 之间调整 presence_penalty参数以减少无尽的重复。然而,使用更高的值可能会偶尔导致语言混合并略微降低模型性能。
-
数学问题:在提示中包含“请逐步推理,并将最终答案放在boxed{}内。” -
选择题:在提示中添加以下 JSON 结构以标准化响应:“请在 answer字段中显示您的选择,只用选择字母,例如,"answer": "C"。”
🔧工具
Cherry Studio
Cherry Studio 实现了对 Qwen3 Next 80B A3B 系列模型的 0day 适配!
anycoder
可以在 anycoder 里使用 Qwen3-Next 进行 vibe coding
Nvidia
Nvidia 提供了 Qwen3-Next 试用
😯我的选择
最近各种模型都太过擅长思考,关起来很费劲,业务上使用时也很慢。
Qwen3-Next-80B-A3B-Instruct 仅支持指令(非思考)模式,并且在其输出中不会生成 <think></think> 块。专注于在超长输入和多轮对话中实现更高吞吐量和稳定性,非常适合作为通用助手、代码助手和长上下文任务求解器,用于生产环境中需要确定性、遵循指令输出的场景。
模型已经下载成功,模型文件 160GB 的样子
下文再实际部署,实际体验,性能测试