大家好,我是 Ai 学习的老章

好久没有看到令人心动的大模型了

现在它来了——Qwen3-Next

ℹ️简介

阿里放出了两个模型 Qwen3-Next-80B-A3B-Instruct与 Qwen3-Next-80B-A3B-Thinking: 🔹  80B 参数,但每 token 仅激活 3B → 训练成本降低 10 倍,推理速度提升 10 倍,超越 Qwen3-32B(尤其在 32K+ 上下文时!)
🔹  混合架构:Gated DeltaNet + Gated Attention → 兼顾速度与召回的最佳方案
🔹  超稀疏 MoE:512 位专家,10 位路由 + 1 位共享
🔹  多 Token 预测 → 涡轮增压的投机解码
🔹  性能超越 Qwen3-32B,推理与长上下文能力媲美 Qwen3-235B
🧠  Qwen3-Next-80B-A3B-Instruct 逼近 235B 旗舰模型。
🧠  Qwen3-Next-80B-A3B-Thinking 超越 Gemini-2.5-Flash-Thinking。

这两个模型均基于Qwen3-Next-80B-A3B-Base模型训练而来,Base 模型拥有 800 亿参数,30 亿激活参数。实现了与 Qwen3-32B dense 模型相近甚至略好的性能,而它的训练成本(GPU hours) 仅为 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐则是 Qwen3-32B 的十倍以上,实现了极致的训练和推理性价比

立即体验:https://chat.

模型下载:https:///collections/Qwen3-Next-c314f23bd0264a

🐎性能

Qwen3-Next 在训练上,仅需 9.3% 的 GPU 计算资源,就能实现更优性能,极大提升训练效率与性价比。

预填充阶段:在 4K 上下文长度下,吞吐量几乎是 Qwen3-32B 的 7 倍;超过 32K 时,速度提升超过 10 倍。

解码阶段:在 4K 上下文下,吞吐量提升近 4 倍;即使超过 32K,仍保持 10 倍以上的速度优势。

基础模型性能

思维模型性能:优于预训练成本更高的 Qwen3-30B-A3B-Thinking-2507 和 Qwen3-32B-thinking,超过了闭源的模型 Gemini-2.5-Flash-Thinking,并在部分指标上接近旗舰模型 Qwen3-235B-A22B-Thinking-2507。

指令模型性能:显著优于 Qwen3-30B-A3B-Instruct-2507 和 Qwen3-32B-Non-thinking,几乎与 Qwen3-235B-A22B-Instruct-2507 相近。

🪤部署

SGLang 框架

pip install 'sglang[all] @ git+https://github.com/sgl-project/sglang.git@main#subdirectory=python'

以下命令可用于在 http://localhost:30000/v1 上创建一个 API 端点,最大上下文长度为 256K 个令牌,并在 4 个 GPU 上使用张量并行。

Qwen3-Next,性价比最高的非思考大模型get

SGLANG_USE_MODELSCOPE=true SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Instruct --port 30000 --tp-size 4 --context-length 262144 --mem-fraction-static 0.8

对于 MTP,建议使用以下命令,其余设置与上述相同:

SGLANG_USE_MODELSCOPE=true SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Instruct --port 30000 --tp-size 4 --context-length 262144 --mem-fraction-static 0.8 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4

[! 注意] 目前需要环境变量 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1

[! 注意] 默认上下文长度为 256K。如果服务器无法启动,请考虑将上下文长度减少到较小的值,例如 32768

vLLM

pip install vllm --pre --extra-index-url https://wheels./nightly

以下命令可用于在 http://localhost:8000/v1 上创建一个 API 端点,最大上下文长度为 256K 个令牌,并在 4 个 GPU 上使用张量并行。

VLLM_USE_MODELSCOPE=true VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 262144

对于 MTP,建议使用以下命令,其余设置与上述相同:

VLLM_USE_MODELSCOPE=true VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

[! 注意] 目前需要环境变量 VLLM_ALLOW_LONG_MAX_MODEL_LEN=1

[! 注意] 默认上下文长度为 256K。如果服务器无法启动,请考虑将上下文长度减少到较小的值,例如 32768

为了达到最佳性能,推荐以下设置:

  1. 采样参数
  • Temperature=0.7TopP=0.8TopK=20MinP=0
  • 对于支持的框架,可以在 0 到 2 之间调整presence_penalty参数以减少无尽的重复。然而,使用更高的值可能会偶尔导致语言混合并略微降低模型性能。
  • 足够的输出长度:对于大多数查询,建议使用 16,384 个 token 的输出长度,这对于指令模型来说是足够的。
  • 标准化输出格式:建议在基准测试时使用提示来标准化模型输出。
    • 数学问题:在提示中包含“请逐步推理,并将最终答案放在boxed{}内。”
    • 选择题:在提示中添加以下 JSON 结构以标准化响应:“请在answer字段中显示您的选择,只用选择字母,例如,"answer": "C"。”

    🔧工具

    Cherry Studio

    Cherry Studio 实现了对 Qwen3 Next 80B A3B 系列模型的 0day 适配!

    anycoder

    可以在 anycoder 里使用 Qwen3-Next 进行 vibe coding

    https:///spaces/akhaliq/anycoder

    Nvidia

    Nvidia 提供了 Qwen3-Next 试用

    😯我的选择

    最近各种模型都太过擅长思考,关起来很费劲,业务上使用时也很慢。

    Qwen3-Next-80B-A3B-Instruct 仅支持指令(非思考)模式,并且在其输出中不会生成 <think></think> 块。专注于在超长输入和多轮对话中实现更高吞吐量和稳定性,非常适合作为通用助手、代码助手和长上下文任务求解器,用于生产环境中需要确定性、遵循指令输出的场景。

    模型已经下载成功,模型文件 160GB 的样子

    下文再实际部署,实际体验,性能测试