如何运行Kimi K2 这个庞然大物（API & 本地部署）

大家好，我是 Ai 学习的老章

前文Kimi 这模型，真大，我介绍了 Kimi K2 这个最近火爆全网的大模型，也做了简单测试，它在代码生成、数学、工具调用三大硬核场景很能打，妥妥开源第一梯队，部分指标打平甚至超越 GPT-4.1 / Claude Sonnet 4。

我让喜爱的是其工具调用能力，Kimi K2 对智能体任务做过优化，它可以自主推理、使用工具并解决复杂问题。

Kimi K2 本质上是 DeepSeek V3 的变体，但采用了更少的注意力头数和更多的专家模块。Source: @rasbt on X

但是它实在是太大了，模型文件 1TB（BF16 2TB），想要本地化运行，门槛三层楼那么高。

我看了外面的讨论，评价很高。

不但数学、代码、工具调用，外面测试其创意写作能力也很强

大家都在翘首以盼稍低成本的本地部署方案

讨论本地部署，稍后再说

对于普通用户，还是老老实实用 API 吧

先介绍几个 API 调用途径

额外说一句，我看有网友说Kimi K2 是不是浪得虚名

连宣传中的一模一样的 prompt，都搞不出来

这一点，我前文也说过，不要在网页端测试官方用例，网页端和调用API是天然之别的：官方推荐是VS Code 使用Cline插件调用API

官方途径

Kimi 平台提供了与 OpenAI/Anthropic 兼容的 API 接口，方便开发者将现有应用无缝迁移到 Kimi K2。

官方鼓励开发者探索其强大的工具调用（Tool Calling）API 来构建智能体应用。访问开放平台 https://platform./console/api-keys(opens in a new tab) 创建获取 API Key，选择 default 默认项目。

定价：

模型	计费单位	输入价格（缓存命中）	输入价格（缓存未命中）	输出价格	模型上下文长度
kimi-k2-0711-preview	1M tokens	￥1.00	￥4.00	￥16.00	131,072 tokens

工具名称	计费单位	价格	说明
联网搜索	1 次	￥0.03	触发 $web_search 工具调用，计费一次

不同充值金额有不同的兵法，RPM、TPM、TPD 限制

用户等级	累计充值金额	并发	RPM	TPM	TPD
Free	¥ 0	1	3	32,000	1,500,000
Tier1	¥ 50	50	200	128,000	10,000,000
Tier2	¥ 100	100	500	128,000	20,000,000
Tier3	¥ 500	200	5,000	384,000	Unlimited
Tier4	¥ 5,000	400	5,000	768,000	Unlimited
Tier5	¥ 20,000	1,000	10,000	2,000,000	Unlimited

Kimi 也不抠门，免费赠送 15 元试用额度

另外，再说一个很好的官方 Playgroud，非常适合试用时的调试

https://platform./playground

siliconflow

我是用的 siliconflow，注册就是有免费 2000 万 Tokens：https://cloud./i/YefhGWlT

主要是它不但支持最新大模型，还有大量模型可以调用

api 获取地址：https://cloud./account/ak

K2 也已上线，价格与官方一致

试用的时候也很简单，把 api 地址和模型名称修改一下就行了

https://api./v1

比如在官方推荐的VSCode插件Cline中的配置

亲测，使用正常

为何我不得不用 siliconflow，因为这上面我还有大量额度。。。怎么用都用不完

openrouter.ai

还有一个我偶尔使用的是 openrouter

它的优势是还可以调用 GPT、Gemini、Claude 等国外大模型，这是 siliconflow 不具备的

缺点：价格贵啊，比如 Kimi K2 输出要 2.3 美元！

另外这个平台还能看到大家都在哪里调用了 API

比如前文Kimi 这模型，真大我介绍过的官方推荐 VS Code 插件 Cline

本地部署

终于说会本地部署，看官方部署教程需要 16 块 H200 显卡作为基础配置来运行。

16 * 141 = 2256GB！

https://github.com/MoonshotAI/Kimi-K2/blob/main/docs/deploy_guidance.md

有网友测算

全精度（假设采用 FP16）处理 1 万亿 token 需要 2TB 空间。他们上传的 safetensors 文件总计仅 1TB，所以我推测是以半精度上传的。为保留足够智能水平，按 2.5bpw 计算，模型大小约为 320GB。

KV 缓存每 token 需要惊人的 1708KB，因此在 131072 最大上下文长度下，全精度还需额外 213.5GB 空间。考虑到多数开源模型每 token 内存占用仅为该值的 1/10，即使精度减半影响应该不大，预计运行内存需求约为 427GB。

（KV 计算公式：隐藏层数[61] × 隐藏维度[7168] × KV 头数[64] ÷ 注意力头数[64] ÷ 256，其中 256 来源于每个查询 – 键值对 2 个元素 × FP16 精度 2 字节 ÷ 每 KB1024 字节）

使用 AWQ 量化技术后，应该可以在常见的 8x H100/8x A100 配置上运行。而且生成这些量化模型的算力成本应该不到 1000 美元，大约 700 美元左右

量化之光 Unsloth 这次有点慢，尚无量化版本出炉

目前可以用FP4版，使用 A100/A800/H100/H800/H20/H200 (80G x 8) 即可运行：

# Step-1: Download 1TB Model
huggingface-cli download moonshotai/Kimi-K2-Instruct --local-dir ./moonshotai/Kimi-K2-Instruct

# Step-2: Run with A100/H100 (80G x 8):
docker run -it --rm --ipc=host --net=host --shm-size=8g --ulimit memlock=-1 
      --ulimit stack=67108864 --gpus=all -v /:/host -w /host$(pwd) 
      tutelgroup/deepseek-671b:a100x8-chat-20250712 
        --try_path ./moonshotai/Kimi-K2-Instruct 
        --serve --listen_port 8000 
        --prompt "Calculate the indefinite integral of 1/sin(x) + x"

KTransformers

倒是 KTransformers 已经出了 Q4_K_M GGUF：

在配备单路 CPU 和一块消费级 GPU，比如 4090 的设备上，运行 Q4_K_M 模型可达到约 10 TPS 的处理速度，并需要约 600 GB 的 DRAM 内存。
在配备双路 CPU 和充足系统内存的情况下，启用 NUMA 优化可将性能提升至约 14 TPS。

部署教程：https:///KVCache-ai/Kimi-K2-Instruct-GGUF/tree/main

python ktransformers/server/main.py 
  --port 10002 
  --model_path <path_to_safetensor_config> 
  --gguf_path <path_to_gguf_files> 
  --optimize_config_path ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-serve.yaml 
  --max_new_tokens 1024 
  --cache_lens 32768 
  --chunk_size 256 
  --max_batch_size 4 
  --backend_type balance_serve

mlx-community

苹果用户也有版本了

https:///mlx-community/Kimi-K2-Instruct-4bit/tree/main

好消息：仅需 578GB 内存即可运行

坏消息：花 10 万块买顶配 Mac Studio 也不够

运行教程：

pip install mlx-lm

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Kimi-K2-Instruct-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:
    messages = [{"role": "user", "content": prompt}]
    prompt = tokenizer.apply_chat_template(
        messages, add_generation_prompt=True
    )

response = generate(model, tokenizer, prompt=prompt, verbose=True)

最后，我们还是再等等大模型量化界翘楚：unsloth 会放出什么惊喜吧，比如 1.X bit 版的 Kimi K2？

其经典战例就是 DeepSeek-R1 爆火的时候，unsloth 就发布过最小 1.58 位量化版本的 R1，把 DeepSeek-R1 这个非常大的模型（它有 6710 亿个参数，也就是 671B）通过“量化”把原本 720GB 的模型压缩到只有 131GB 的大小。

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！

搭建完美的写作环境：工具篇（12 章）图解机器学习 – 中文版（72 张 PNG）ChatGPT、大模型系列研究报告（50 个 PDF）108 页 PDF 小册子：搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子：机器学习中的概率论、统计学、线性代数史上最全！371 张速查表，涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

微精选