迄今为止最强大的开源模型：Kimi K2 Thinking ，比肩闭源模型

➤ Kimi K2 Thinking 在 𝜏²-Bench Telecom 代理工具使用基准测试中获得了 93% 的成绩，这是一个 agentic tool 基准测试，模型作为客户服务代理进行操作。在长期代理上下文中的工具使用是 Kimi K2 Instruct 的强项，而新的 Thinking 变体在此方面取得了显著进步。

K2 Thinking 本地部署

K2 Thinking 的模型文件只有 594GB

https:///moonshotai/Kimi-K2-Thinking

K2 Instruct 和 K2 Instruct 0905 的大小则超过 1TB，为何 Thinking 之后 594GB 呢？

这是因为 K2 Thinking 使用 INT4 精度而非 FP8，Moonshot 在后训练阶段使用量化感知训练来实现这一点，这意味着推理和训练的效率提升。使用 INT4 的一个潜在原因是，Blackwell 的 NVIDIA GPU 不支持 FP4，因此 INT4 更适合在较陈旧的硬件上实现效率提升。

vLLM Day 0 支持 K2 Thinking 的部署，命令如下

# 安装
uv venv
source .venv/bin/activate
uv pip install -U vllm --pre --extra-index-url https://wheels./nightly --extra-index-url https://download.pytorch.org/whl/cu129 --index-strategy unsafe-best-match # for xformers

# 部署
vllm serve moonshotai/Kimi-K2-Thinking 
  --trust-remote-code 
  --tensor-parallel-size 8 
  --enable-auto-tool-choice 
  --tool-call-parser kimi_k2 
  --reasoning-parser kimi_k2  

## `--reasoning-parser` 标志指定用于从模型输出中提取推理内容的推理解析器。

要启动 Kimi-K2-Thinking 需要 8 个 141GB 的 H200/H20，成本还是蛮高的，不过即便再量化，估计向下空间也不大了吧？已经 int4 了，还能怎样。

推荐使用解码上下文（DCP）并行部署，添加 –decode-context-parallel-size number 来启用解码上下文并行：

vllm serve moonshotai/Kimi-K2-Thinking 
  --trust-remote-code 
  --tensor-parallel-size 8 
  --decode-context-parallel-size 8 
  --enable-auto-tool-choice 
  --tool-call-parser kimi_k2 
  --reasoning-parser kimi_k2

配合 DCP 后，优势显著（43% 更快的 Token 生成，26% 更高的吞吐量），同时几乎没有缺点（中位数延迟改善微乎其微）

指标	TP8	TP8+DCP8	变更	改进 (%)
请求吞吐量 (req/s)	1.25	1.57	+0.32	+25.6%
输出标记吞吐量 (tok/s)	485.78	695.13	+209.35	+43.1%
平均 TTFT(秒)	271.2	227.8	-43.4	+16.0%
中位数 TTFT(秒)	227.4	227.1	-0.3	+0.1%

后面我会拿之前的用例详细测试一下，同时也把 Claude code 后台模型改成 K2 Thinking 多用一用

如有能再量化同时保障效果不打大折扣，把部署成本控制在 4 卡就好了，我也可以本地部署试试了。

微精选

迄今为止最强大的开源模型：Kimi K2 Thinking ，比肩闭源模型

K2 Thinking 实测

K2 Thinking 简介

K2 Thinking 本地部署

最近文章