大家好,我是 AI 学习的老章

大模型量化界翘楚:unsloth 本公众号介绍过多次:

大模型微调,实战,附代码DeepSeek 更新了,我更期待量化版
纯离线安装大模型推理引擎,部署量化大模型_
Kimi K2  Thinking 量化之后再量化,模型文件_缩水_60%,准确率 85%,部署教程

Unsloth 出圈是 DeepSeek-R1 爆火的时候,它发布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常大的模型(它有 6710 亿个参数,也就是 671B)通过“量化”把原本 720GB 的模型压缩到只有 131GB 的大小。

Unsloth 秘密武器是动态量化,核心思路是:对模型的少数关键层进行高质量的 4-6bit 量化,而对大部分相对没那么关键的混合专家层(MoE)进行大刀阔斧的 1-2bit 量化。

动态 GGUF 量化技术

通过动态 GGUF 量化技术,像 DeepSeek-V3.1 (671B) 这样的巨型语言模型(LLMs)可以被量化到仅 1-bit 或 3-bit,但在 Aider Polyglot 等高难度基准测试中,其性能甚至能击败像 Claude-4-Opus 这样的顶尖(SOTA)模型。

这标志着模型量化技术的一个重要突破:极低的比特数不再意味着性能的大幅牺牲

Aider Polyglot Benchmarks

Aider Polyglot 是一个衡量 LLMs 在无需人工干预的情况下,进行写作、编码、遵循指令和应用变更能力的综合性指标。它被认为是现实世界应用中最具挑战性和价值的基准之一,因为它评估的是模型在复杂任务中的自主能力。

关键成果速览

Unsloth 团队在对 DeepSeek-V3.1 进行动态量化后,得出了以下令人振奋的结果:

  • 1-bit Unsloth 动态 GGUF:

    • 体积: 将 DeepSeek-V3.1 从 671GB 压缩至 192GB(**体积减少 75%**)。
    • 性能: 在无思考模式下,性能超越了 GPT-4.1(2025 年 4 月版)、GPT-4.5 和 DeepSeek-V3-0324。
  • 3-bit Unsloth 动态 GGUF:

    • 性能: 在“思考模式”下,性能超越了 Claude-4-Opus。
  • 5-bit Unsloth 动态 GGUF:

    量化大模型,本地部署,效果不打折
    • 性能: 与 Claude-4-Opus(非思考模式)的性能相当。
  • 普遍优势: Unsloth 的动态 GGUF 在所有测试中,其表现始终优于其他非 Unsloth 的 imatrix GGUF 模型。

值得注意的是,其他非 Unsloth 的 1-bit 和 2-bit 量化版本要么无法加载,要么产生乱码,这凸显了 Unsloth 动态量化方法的稳定性和有效性。

Aider 基准测试图表

思考模式 (Thinking Mode)

非思考模式 (Non-Thinking Mode)

🦥 Unsloth 动态量化技术揭秘

Unsloth 动态量化的核心思想是 “选择性量化”

将重要的层保留为 8 或 16-bit,非重要层则压缩至 1、2、3、4、5 或 6-bit。

这种方法并非对模型的所有层“一视同仁”地进行压缩。通过研究,Unsloth 发现模型中的某些张量(如 attn_k_b)对量化操作极为敏感。将这些关键层保持在较高精度,同时将其他非关键层压缩到极低位,可以在最小化性能损失的同时,最大化压缩率。

例如,在 Qwen2-VL-2B-Instruct 案例中,简单将所有层量化为 4 位会导致模型将下图的火车误认为海岸场景:

这种策略尤其对 MoE(Mixture of Experts)模型有效,现已成为 MoE 量化的事实标准。

结论

Unsloth 的动态量化技术证明,通过智能的、非均匀的量化策略,我们可以在大幅压缩模型体积的同时,保持甚至超越 SOTA 模型的性能。这使得在本地消费级硬件上运行高性能的巨型模型成为可能,为 AI 社区和开发者带来了巨大的价值。对于追求本地化、低成本部署高性能模型的用户来说,Unsloth 的动态量化模型无疑是当前最值得关注的方案之一。

更多图表

Gemma 3 & Llama 4 动态基准测试

与其他量化方法的对比

动态量化消融实验

Pass Rate 1 (非思考模式)

参考:https://docs./basics/unsloth-dynamic-2.0-ggufs/unsloth-dynamic-ggufs-on-aider-polyglot

文末老章荐书