大家好,我是 Ai 学习的老章
前文Kimi 这模型,真大,我介绍了 Kimi K2 这个最近火爆全网的大模型,也做了简单测试,它在代码生成、数学、工具调用三大硬核场景很能打,妥妥开源第一梯队,部分指标打平甚至超越 GPT-4.1 / Claude Sonnet 4。
我让喜爱的是其工具调用能力,Kimi K2 对智能体任务做过优化,它可以自主推理、使用工具并解决复杂问题。
但是它实在是太大了,模型文件 1TB(BF16 2TB),想要本地化运行,门槛三层楼那么高。
我看了外面的讨论,评价很高。
不但数学、代码、工具调用,外面测试其创意写作能力也很强
大家都在翘首以盼稍低成本的本地部署方案
讨论本地部署,稍后再说
对于普通用户,还是老老实实用 API 吧
先介绍几个 API 调用途径
额外说一句,我看有网友说Kimi K2 是不是浪得虚名
连宣传中的一模一样的 prompt,都搞不出来
这一点,我前文也说过,不要在网页端测试官方用例,网页端和调用API是天然之别的:官方推荐是VS Code 使用Cline插件 调用API
官方途径
Kimi 平台提供了与 OpenAI/Anthropic 兼容的 API 接口,方便开发者将现有应用无缝迁移到 Kimi K2。
官方鼓励开发者探索其强大的工具调用(Tool Calling)API 来构建智能体应用。访问开放平台 https://platform./console/api-keys(opens in a new tab) 创建获取 API Key,选择 default 默认项目。
定价:
|
|
|
(缓存命中) |
(缓存未命中) |
|
|
|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
不同充值金额有不同的兵法,RPM、TPM、TPD 限制
|
|
|
|
|
|
|
|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Kimi 也不抠门,免费赠送 15 元试用额度
另外,再说一个很好的官方 Playgroud,非常适合试用时的调试
siliconflow
我是用的 siliconflow,注册就是有免费 2000 万 Tokens:https://cloud./i/YefhGWlT
主要是它不但支持最新大模型,还有大量模型可以调用
api 获取地址:https://cloud./account/ak
K2 也已上线,价格与官方一致
试用的时候也很简单,把 api 地址和模型名称修改一下就行了
https://api./v1
比如在官方推荐的VSCode插件Cline中的配置
亲测,使用正常
openrouter.ai
还有一个我偶尔使用的是 openrouter
它的优势是还可以调用 GPT、Gemini、Claude 等国外大模型,这是 siliconflow 不具备的
缺点:价格贵啊,比如 Kimi K2 输出要 2.3 美元!
另外这个平台还能看到大家都在哪里调用了 API
比如前文Kimi 这模型,真大我介绍过的官方推荐 VS Code 插件 Cline
本地部署
终于说会本地部署,看官方部署教程需要 16 块 H200 显卡作为基础配置来运行。
16 * 141 = 2256GB!
有网友测算
全精度(假设采用 FP16)处理 1 万亿 token 需要 2TB 空间。他们上传的 safetensors 文件总计仅 1TB,所以我推测是以半精度上传的。为保留足够智能水平,按 2.5bpw 计算,模型大小约为 320GB。
KV 缓存每 token 需要惊人的 1708KB,因此在 131072 最大上下文长度下,全精度还需额外 213.5GB 空间。考虑到多数开源模型每 token 内存占用仅为该值的 1/10,即使精度减半影响应该不大,预计运行内存需求约为 427GB。
(KV 计算公式:隐藏层数[61] × 隐藏维度[7168] × KV 头数[64] ÷ 注意力头数[64] ÷ 256,其中 256 来源于每个查询 – 键值对 2 个元素 × FP16 精度 2 字节 ÷ 每 KB1024 字节)
使用 AWQ 量化技术后,应该可以在常见的 8x H100/8x A100 配置上运行。而且生成这些量化模型的算力成本应该不到 1000 美元,大约 700 美元左右
量化之光 Unsloth 这次有点慢,尚无量化版本出炉
目前可以用FP4版,使用 A100/A800/H100/H800/H20/H200 (80G x 8) 即可运行:

# Step-1: Download 1TB Model
huggingface-cli download moonshotai/Kimi-K2-Instruct --local-dir ./moonshotai/Kimi-K2-Instruct
# Step-2: Run with A100/H100 (80G x 8):
docker run -it --rm --ipc=host --net=host --shm-size=8g --ulimit memlock=-1
--ulimit stack=67108864 --gpus=all -v /:/host -w /host$(pwd)
tutelgroup/deepseek-671b:a100x8-chat-20250712
--try_path ./moonshotai/Kimi-K2-Instruct
--serve --listen_port 8000
--prompt "Calculate the indefinite integral of 1/sin(x) + x"
KTransformers
倒是 KTransformers 已经出了 Q4_K_M GGUF:
-
在配备单路 CPU 和一块消费级 GPU,比如 4090 的设备上,运行 Q4_K_M 模型可达到约 10 TPS 的处理速度,并需要约 600 GB 的 DRAM 内存。 -
在配备双路 CPU 和充足系统内存的情况下,启用 NUMA 优化可将性能提升至约 14 TPS。
python ktransformers/server/main.py
--port 10002
--model_path <path_to_safetensor_config>
--gguf_path <path_to_gguf_files>
--optimize_config_path ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-serve.yaml
--max_new_tokens 1024
--cache_lens 32768
--chunk_size 256
--max_batch_size 4
--backend_type balance_serve
mlx-community
苹果用户也有版本了
好消息:仅需 578GB 内存即可运行
坏消息:花 10 万块买顶配 Mac Studio 也不够
运行教程:
pip install mlx-lm
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/Kimi-K2-Instruct-4bit")
prompt = "hello"
if tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True
)
response = generate(model, tokenizer, prompt=prompt, verbose=True)
最后,我们还是再等等大模型量化界翘楚:unsloth 会放出什么惊喜吧,比如 1.X bit 版的 Kimi K2?
其经典战例就是 DeepSeek-R1 爆火的时候,unsloth 就发布过最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常大的模型(它有 6710 亿个参数,也就是 671B)通过“量化”把原本 720GB 的模型压缩到只有 131GB 的大小。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12 章)图解机器学习 – 中文版(72 张 PNG)ChatGPT、大模型系列研究报告(50 个 PDF)108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数 史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等