K2 Thinking 前情回顾

大家好,我是 Ai 学习的老章

Kimi K2 Thinking 我已经介绍过很多

Kimi K2 Thinking 实测,碾压 Qwen3-Max
迄今为止最强大的开源模型:Kimi K2 Thinking ,比肩闭源模型
Kimi K2 Thinking 量化之后再量化,模型文件缩水 60%,准确率 85%,部署教程来了

K2 Thinking 是迄今最大的开放权重模型之一,也是 K2 模型家族的首个推理模型,总参数量 1T,激活 32B。

最近看了一些市面上比较权威的测评结果,可以更全面的看看 K2 Thinking 的水平,看是否真就到了开源新王👑水平。

联合创始人兼首席执行官 @HuggingFace🤗

Artificial Analysis——智能水平逼近闭源大模型

Artificial Analysis  用官方 API 做了一系列测试

结论:开源大模型在智能水平已逼近闭源模型

Kimi K2 Thinking 在 Artificial Analysis Intelligence Index 中得分 67,创下开放权重模型最高分。这使其明显领先于所有其他开源权重模型,包括近期发布的 MiniMax-M2 和 DeepSeek-V3.2-Exp,在专有模型中也仅次于 GPT-5。

人工智能分析指数 v3.0 包含 10 项评估:MMLU-Pro、GPQA Diamond、人类终极考试、LiveCodeBench、SciCode、2025 年美国数学邀请赛、IFBench、AA-LCR、Terminal-Bench Hard、𝜏²-Bench Telecom

具体得分如下:

➤ 开源权重代码模型第一,但仍落后闭源模型:K2 Thinking 在任何代码评测中均未夺冠——Terminal-Bench Hard 第 6、SciCode 第 7、LiveCodeBench 第 2。若仅对比开源权重模型,它在三项评测中均排名第一或并列第一,因此在 Artificial Analysis Coding Index 中超越此前的开源权重榜首 DeepSeek V3.2

➤ 开放权重在 Humanity’s Last Exam 上的最大飞跃:K2 Thinking 的最强成绩之一是在 Humanity’s Last Exam 上取得 22.3% 的得分(无工具),创下开放权重模型历史新高,仅次于 GPT-5 与 Grok 4

➤ 强劲的代理性能:Kimi K2 Thinking 在代理场景中表现尤为突出,在 Artificial Analysis Agentic Index 中位列第 2,仅次于 GPT-5。这主要得益于 K2 Thinking 在 𝜏²-Bench Telecom(一个让模型充当客服代理的代理工具使用基准)中取得 93% 的成绩,这是 Artificial Analysis 独立测得的最高分。在需要长期规划的代理场景下,Kimi K2 Instruct 的工具使用能力本就出色,而新的 Thinking 版本显然又实现了显著提升

但是 Kimi K2 Thinking 缺点也很明显——太耗 Token 了,它在 Artificial Analysis Intelligence Index 评估中使用了史无前例的 1.4 亿 token,约为 DeepSeek V3.2 的 2.5 倍、GPT-5 的 2 倍。

Kimi-K2-Thinking 开源大模型新王,权威测试结果公布

好在定价比闭源模型便宜不少,但 Turbo 模式很贵

按 MoonShot 官方 API 定价,整体运行Intelligence Index 的成本低于主流前沿模型。Moonshot 还提供更快的 turbo API,此模式下运行Intelligence Index 的成本仅次于 Grok 4,成为第二昂贵的模型。

第二个缺点就是它的上下文窗口了,最大 256K,一众大佬面前还排不上号。。。

最后就是生成速度了,与平均水平相比,Kimi K2 Thinking 的速度较慢,每秒 80 Tokens 的样子。好在延迟还行,接收第一个 Token(TTFT)仅需 0.75 秒。

IUMB——领先所有开、闭源模型

IUMB(Introductory Undergraduate Mathematics Benchmark)是一个用于评估模型在解决本科数学问题上的表现的基准。它旨在较为全面地体现普通本科院校数学专业大一和大二水平的数学能力。

目前 K2 Thinking 在这个榜当上都可以碾压开、闭源所有模型了

https://pellaml./iumb/#benchmark

即便如此,得分也仅 54,大模型搞本科数学通通不及格

PMPP-Eval ——最优开源模型

PMPP-Eval 是一个以编码为重点的评估基准,用于评估大型语言模型的性能。它专门在“编码子集”上对模型进行评估,并根据模型在编程任务(如与 CUDA 相关的任务)中的表现对其进行排名。

根据 cuda 任务的结果,K2-Thinking 现在是可用的最优开源模型。

个人用户的测评——褒贬不一

BinduReddy 测评:Kimi-K2 在代理编码方面非常出色,但整体上仍落后于 DeepSeek Kimi-K2 是不断增长的优秀开源模型列表中的又一个优秀模型。 – 与 GLM 4.6 一样,在代理编码方面表现最佳 – DeepSeek 3.2 是世界上最好的开源模型

但是他使用的非官方 API,其实其他网友也对他的测试结果表示过质疑

Kimi 回应

Kimi 官方也注意到,不同提供商的基准结果存在差异——部分第三方端点出现显著准确率下降(例如超过 20 个百分点),这对 LiveBench 等重推理任务的得分产生负面影响。

然后 Kimi 官方给出了建议 👉

  • 使用我们的官方 API 端点 kimi-k2-thinking-turbo
  • 启用 stream = True
  • 设置 temperature = 1.0
  • 建议的 max_token:推理 128k | 编码 256k | 其他 ≥64k
  • 在脚本中添加重试逻辑

Kimi 也给出完整的基准测试设置指南, 👉   https://platform./docs/guide/benchmark-best-practice

最后总结:Kimi K2 Thinking 综合实力很强,在多个权威测评中展现了逼近甚至超越闭源模型的潜力,暂居开源新王的宝座。但诸多基准测试、上下文窗口和生成速度与业界顶级大模型相比,还有差距。