Qwen3-Next，性价比最高的非思考大模型get

大家好，我是 Ai 学习的老章

好久没有看到令人心动的大模型了

现在它来了——Qwen3-Next

ℹ️简介

阿里放出了两个模型 Qwen3-Next-80B-A3B-Instruct与 Qwen3-Next-80B-A3B-Thinking： 🔹 80B 参数，但每 token 仅激活 3B → 训练成本降低 10 倍，推理速度提升 10 倍，超越 Qwen3-32B（尤其在 32K+ 上下文时！）
🔹 混合架构：Gated DeltaNet + Gated Attention → 兼顾速度与召回的最佳方案
🔹 超稀疏 MoE：512 位专家，10 位路由 + 1 位共享
🔹 多 Token 预测 → 涡轮增压的投机解码
🔹 性能超越 Qwen3-32B，推理与长上下文能力媲美 Qwen3-235B
🧠 Qwen3-Next-80B-A3B-Instruct 逼近 235B 旗舰模型。
🧠 Qwen3-Next-80B-A3B-Thinking 超越 Gemini-2.5-Flash-Thinking。

这两个模型均基于Qwen3-Next-80B-A3B-Base模型训练而来，Base 模型拥有 800 亿参数，30 亿激活参数。实现了与 Qwen3-32B dense 模型相近甚至略好的性能，而它的训练成本（GPU hours) 仅为 Qwen3-32B 的十分之一不到，在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上，实现了极致的训练和推理性价比。

立即体验：https://chat.

模型下载：https:///collections/Qwen3-Next-c314f23bd0264a

🐎性能

Qwen3-Next 在训练上，仅需 9.3% 的 GPU 计算资源，就能实现更优性能，极大提升训练效率与性价比。

预填充阶段：在 4K 上下文长度下，吞吐量几乎是 Qwen3-32B 的 7 倍；超过 32K 时，速度提升超过 10 倍。

解码阶段：在 4K 上下文下，吞吐量提升近 4 倍；即使超过 32K，仍保持 10 倍以上的速度优势。

基础模型性能

思维模型性能：优于预训练成本更高的 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-thinking，超过了闭源的模型 Gemini-2.5-Flash-Thinking，并在部分指标上接近旗舰模型 Qwen3-235B-A22B-Thinking-2507。

指令模型性能：显著优于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking，几乎与 Qwen3-235B-A22B-Instruct-2507 相近。

🪤部署

SGLang 框架

pip install 'sglang[all] @ git+https://github.com/sgl-project/sglang.git@main#subdirectory=python'

以下命令可用于在 http://localhost:30000/v1 上创建一个 API 端点，最大上下文长度为 256K 个令牌，并在 4 个 GPU 上使用张量并行。

对于 MTP，建议使用以下命令，其余设置与上述相同：

SGLANG_USE_MODELSCOPE=true SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Instruct --port 30000 --tp-size 4 --context-length 262144 --mem-fraction-static 0.8 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

❝

[! 注意] 目前需要环境变量 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1。

❝

[! 注意] 默认上下文长度为 256K。如果服务器无法启动，请考虑将上下文长度减少到较小的值，例如 32768。

vLLM

pip install vllm --pre --extra-index-url https://wheels./nightly

以下命令可用于在 http://localhost:8000/v1 上创建一个 API 端点，最大上下文长度为 256K 个令牌，并在 4 个 GPU 上使用张量并行。

VLLM_USE_MODELSCOPE=true VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 262144

对于 MTP，建议使用以下命令，其余设置与上述相同：

VLLM_USE_MODELSCOPE=true VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

❝

[! 注意] 目前需要环境变量 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1。

❝

[! 注意] 默认上下文长度为 256K。如果服务器无法启动，请考虑将上下文长度减少到较小的值，例如 32768。

为了达到最佳性能，推荐以下设置：

采样参数：

Temperature=0.7、TopP=0.8、TopK=20和MinP=0。
对于支持的框架，可以在 0 到 2 之间调整presence_penalty参数以减少无尽的重复。然而，使用更高的值可能会偶尔导致语言混合并略微降低模型性能。

足够的输出长度：对于大多数查询，建议使用 16,384 个 token 的输出长度，这对于指令模型来说是足够的。

标准化输出格式：建议在基准测试时使用提示来标准化模型输出。

数学问题：在提示中包含“请逐步推理，并将最终答案放在boxed{}内。”
选择题：在提示中添加以下 JSON 结构以标准化响应：“请在answer字段中显示您的选择，只用选择字母，例如，"answer": "C"。”

🔧工具

Cherry Studio

Cherry Studio 实现了对 Qwen3 Next 80B A3B 系列模型的 0day 适配！

anycoder

可以在 anycoder 里使用 Qwen3-Next 进行 vibe coding

https:///spaces/akhaliq/anycoder

Nvidia

Nvidia 提供了 Qwen3-Next 试用

😯我的选择

最近各种模型都太过擅长思考，关起来很费劲，业务上使用时也很慢。

Qwen3-Next-80B-A3B-Instruct 仅支持指令（非思考）模式，并且在其输出中不会生成 <think></think> 块。专注于在超长输入和多轮对话中实现更高吞吐量和稳定性，非常适合作为通用助手、代码助手和长上下文任务求解器，用于生产环境中需要确定性、遵循指令输出的场景。

模型已经下载成功，模型文件 160GB 的样子

下文再实际部署，实际体验，性能测试

微精选