大家好,我是 Ai 学习的老章

前文Kimi 这模型,真大,我介绍了 Kimi K2 这个最近火爆全网的大模型,也做了简单测试,它在代码生成、数学、工具调用三大硬核场景很能打,妥妥开源第一梯队,部分指标打平甚至超越 GPT-4.1 / Claude Sonnet 4。

我让喜爱的是其工具调用能力,Kimi K2 对智能体任务做过优化,它可以自主推理、使用工具并解决复杂问题。

Kimi K2 本质上是 DeepSeek V3 的变体,但采用了更少的注意力头数和更多的专家模块。Source: @rasbt on X

但是它实在是太大了,模型文件 1TB(BF16 2TB),想要本地化运行,门槛三层楼那么高。

我看了外面的讨论,评价很高。

不但数学、代码、工具调用,外面测试其创意写作能力也很强

大家都在翘首以盼稍低成本的本地部署方案

讨论本地部署,稍后再说

对于普通用户,还是老老实实用 API 吧

先介绍几个 API 调用途径

额外说一句,我看有网友说Kimi K2 是不是浪得虚名

连宣传中的一模一样的 prompt,都搞不出来

这一点,我前文也说过,不要在网页端测试官方用例,网页端和调用API是天然之别的:官方推荐是VS Code 使用Cline插件 调用API

官方途径

Kimi 平台提供了与 OpenAI/Anthropic 兼容的 API 接口,方便开发者将现有应用无缝迁移到 Kimi K2。

官方鼓励开发者探索其强大的工具调用(Tool Calling)API 来构建智能体应用。访问开放平台 https://platform./console/api-keys(opens in a new tab) 创建获取 API Key,选择 default 默认项目。

定价:

模型
计费单位
输入价格  
(缓存命中)
输入价格  
(缓存未命中)
输出价格
模型上下文长度
kimi-k2-0711-preview
1M tokens
¥1.00
¥4.00
¥16.00
131,072 tokens
工具名称
计费单位
价格
说明
联网搜索
1 次
¥0.03
触发 $web_search 工具调用,计费一次

不同充值金额有不同的兵法,RPM、TPM、TPD 限制

用户等级
累计充值金额
并发
RPM
TPM
TPD
Free
¥ 0
1
3
32,000
1,500,000
Tier1
¥ 50
50
200
128,000
10,000,000
Tier2
¥ 100
100
500
128,000
20,000,000
Tier3
¥ 500
200
5,000
384,000
Unlimited
Tier4
¥ 5,000
400
5,000
768,000
Unlimited
Tier5
¥ 20,000
1,000
10,000
2,000,000
Unlimited

Kimi 也不抠门,免费赠送 15 元试用额度

另外,再说一个很好的官方 Playgroud,非常适合试用时的调试

https://platform./playground

siliconflow

我是用的 siliconflow,注册就是有免费 2000 万 Tokens:https://cloud./i/YefhGWlT

主要是它不但支持最新大模型,还有大量模型可以调用

api 获取地址:https://cloud./account/ak

K2 也已上线,价格与官方一致

试用的时候也很简单,把 api 地址和模型名称修改一下就行了

https://api./v1

比如在官方推荐的VSCode插件Cline中的配置

亲测,使用正常

为何我不得不用 siliconflow,因为这上面我还有大量额度。。。怎么用都用不完

openrouter.ai

还有一个我偶尔使用的是 openrouter

它的优势是还可以调用 GPT、Gemini、Claude 等国外大模型,这是 siliconflow 不具备的

缺点:价格贵啊,比如 Kimi K2 输出要 2.3 美元!

另外这个平台还能看到大家都在哪里调用了 API

比如前文Kimi 这模型,真大我介绍过的官方推荐 VS Code 插件 Cline

本地部署

终于说会本地部署,看官方部署教程需要 16 块 H200 显卡作为基础配置来运行。

16 * 141 = 2256GB!

https://github.com/MoonshotAI/Kimi-K2/blob/main/docs/deploy_guidance.md

有网友测算

全精度(假设采用 FP16)处理 1 万亿 token 需要 2TB 空间。他们上传的 safetensors 文件总计仅 1TB,所以我推测是以半精度上传的。为保留足够智能水平,按 2.5bpw 计算,模型大小约为 320GB。

KV 缓存每 token 需要惊人的 1708KB,因此在 131072 最大上下文长度下,全精度还需额外 213.5GB 空间。考虑到多数开源模型每 token 内存占用仅为该值的 1/10,即使精度减半影响应该不大,预计运行内存需求约为 427GB。

(KV 计算公式:隐藏层数[61] × 隐藏维度[7168] × KV 头数[64] ÷ 注意力头数[64] ÷ 256,其中 256 来源于每个查询 – 键值对 2 个元素 × FP16 精度 2 字节 ÷ 每 KB1024 字节)

使用 AWQ 量化技术后,应该可以在常见的 8x H100/8x A100 配置上运行。而且生成这些量化模型的算力成本应该不到 1000 美元,大约 700 美元左右

量化之光 Unsloth 这次有点慢,尚无量化版本出炉

目前可以用FP4版,使用 A100/A800/H100/H800/H20/H200 (80G x 8) 即可运行:

如何运行Kimi K2 这个庞然大物(API & 本地部署)
# Step-1: Download 1TB Model
huggingface-cli download moonshotai/Kimi-K2-Instruct --local-dir ./moonshotai/Kimi-K2-Instruct

# Step-2: Run with A100/H100 (80G x 8):
docker run -it --rm --ipc=host --net=host --shm-size=8g --ulimit memlock=-1
      --ulimit stack=67108864 --gpus=all -v /:/host -w /host$(pwd)
      tutelgroup/deepseek-671b:a100x8-chat-20250712
        --try_path ./moonshotai/Kimi-K2-Instruct
        --serve --listen_port 8000
        --prompt "Calculate the indefinite integral of 1/sin(x) + x"

KTransformers

倒是 KTransformers 已经出了 Q4_K_M GGUF:

  • 在配备单路 CPU 和一块消费级 GPU,比如 4090 的设备上,运行 Q4_K_M 模型可达到约 10 TPS 的处理速度,并需要约 600 GB 的 DRAM 内存。
  • 在配备双路 CPU 和充足系统内存的情况下,启用 NUMA 优化可将性能提升至约 14 TPS。
部署教程:https:///KVCache-ai/Kimi-K2-Instruct-GGUF/tree/main
python ktransformers/server/main.py 
  --port 10002
  --model_path <path_to_safetensor_config>
  --gguf_path <path_to_gguf_files>
  --optimize_config_path ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-serve.yaml
  --max_new_tokens 1024
  --cache_lens 32768
  --chunk_size 256
  --max_batch_size 4
  --backend_type balance_serve

mlx-community

苹果用户也有版本了

https:///mlx-community/Kimi-K2-Instruct-4bit/tree/main

好消息:仅需 578GB 内存即可运行

坏消息:花 10 万块买顶配 Mac Studio 也不够

运行教程:

pip install mlx-lm
from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Kimi-K2-Instruct-4bit")

prompt = "hello"

if tokenizer.chat_template is not None:
    messages = [{"role""user""content": prompt}]
    prompt = tokenizer.apply_chat_template(
        messages, add_generation_prompt=True
    )

response = generate(model, tokenizer, prompt=prompt, verbose=True)

最后,我们还是再等等大模型量化界翘楚:unsloth 会放出什么惊喜吧,比如 1.X bit 版的 Kimi K2?

其经典战例就是 DeepSeek-R1 爆火的时候,unsloth 就发布过最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常大的模型(它有 6710 亿个参数,也就是 671B)通过“量化”把原本 720GB 的模型压缩到只有 131GB 的大小。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)图解机器学习 – 中文版(72 张 PNG)ChatGPT、大模型系列研究报告(50 个 PDF)108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数 史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等