北航&;北大:把特征做FFT后再蒸馏,精度暴涨
北航&北大:把特征做FFT后再蒸馏,精度暴涨
展开全文传统知识蒸馏在单模态表现优秀,但一到跨模态(如 Vision→Audio / Image→Text)就失灵,核心原因是不同模态的特征存在巨大“表征鸿沟”。这篇论文提出 频率解耦跨模态蒸馏(FD-CMKD),首次用频域分析揭示: 低频=跨模态共享语义,高频=模态特有细节。 基于此,作者设计差异化蒸馏策略,让跨模态蒸馏更稳定、更有效。
核心亮点(亮点全来自论文内容)
1. 提出“频域解耦”理论:跨模态只有低频一致,高频差异巨大
论文通过实验表明:
在 CREMA-D / AVE 数据集上,低频特征跨模态余弦相似度远高于原始特征和高频成分(表1,页2)。
高频特征的跨模态相似度甚至接近 0,说明其高度模态特定。
2. 分别蒸馏低频与高频:强一致 vs 弱一致
低频 → MSE(强对齐)
高频 → LogMSE(弱对齐,抑制噪声) 图3(页5)展示 LogMSE 在大误差下梯度更平滑,非常适合高频噪声特征。
3. 提出“尺度一致性”解决模态特征数值分布完全不同的问题
页3图1显示:Audio 特征均值整体远高于 Visual(特征尺度差异巨大)。 作者用 DC Filter L2 标准化 做跨模态尺度对齐,显著提升蒸馏效果。
4. 共享分类器实现特征空间对齐
共享分类头让 teacher / student 的高频 & 低频特征在同一决策边界学习(公式10,页5)。
5. 跨4个数据集 多模态任务全面 SOTA
表2(页6)显示: 在 CREMA-D / AVE / VGGSound / CrisisMMD 上,FD-CMKD 在所有模态方向都超过现有 KD / CMKD 方法,最高可提升 9% 。
6. 语义分割任务也稳定提升
NYU-Depth V2(表3,页6)显示: RGB 和 Depth 方向均优于 DIST / DKD / C2KD。
7. 可视化证明方法真正避免“模态混乱”问题
图4(页7)显示:
传统 KD 让 Student 贴着 Teacher 的分布跑,破坏原生模态结构
本方法让两个模态形成清晰分离的 cluster(既共享语义又保持模态特性)。

Github仓库路径
Johumliu/FD-CMKD
arXiv:2511.19887

#多模态AI#知识蒸馏#北京航空航天大学#计算机视觉#机器学习#跨模态#深度学习#模型压缩#统一模型#北京大学