先说一点生活常识吧:
1.给你一万张金城武的照片,你也不认识蒋老师。给你一万个猕猴桃的样本,你也研究不出来一个猴儿。
啥意思呢?你会发现,我们在做推断的时候,重要的不是大量的信息,而是“有用的信息”。冗余的信息,再多也无助,只会消耗我们的脑细胞。如果你赞同这个生活常识呢,那么你就能理解,香农那听起来很高深的“信息熵”(entropy)的基本原理了“信息与词汇出现的频率成反比”。也能慢慢会理解,数据分析里面那些关于“共线性”、“正交”、“主成分”想表达的本质。
2.有限制才有自由。谈论自由之前,需要明白是什么限制了我们。而有目标才有限制,离开目标谈限制,也是不成立的。
我小时候的梦想,就是开个小卖店,实现零食自由。目标就是想吃什么就吃什么:小淘气啊,葫芦娃啊,牛皮豆啊,果丹皮啊,想吃啥就吃啥。而那时候的限制,就是没钱。你可以想想,一个80年代的小男孩,手里拿着5分钱,犹豫着买一颗小淘气还是3颗牛皮豆的样子。哈哈。
回味了上面两个生活常识,我们再来看统计学中深奥的“自由度(Degree of Freedom)”吧。第一次在统计学中接触“自由度”,应该是求样本方差的时候:
总体方差公式为: ,分母是 。
而样本方差公式为: ,分母用 而非 。
好多同学到这里,就开始崩溃了,都是求方差,为嘛一个除以n,一个非得除以n-1呢。好一点的教科书,会跟着解释一句,因为 本身由样本计算得到,消耗了 1 个自由度,所以应该除以n-1。一般的教科书就啥也不说了,好像本身就应该是这样。
的确,如果学习只是为了考试,我们记住公式就行了。毕竟,就一个选拔机制嘛,他给你个“鸡蛋比石头硬”的答案,你也得就这么记,因为他会就这么考。但大学,有的时候不太一样,不是为了选拔,而是为了追求真理,探索世界。如果我们仅仅为了分数而不去理解,那就和初中高中没啥区别了。大学之道在明明德,而不是在要求学生记住明明德。
我们还是回到总体方差和样本方差的讨论。
首先,我们再回顾一下,统计学是干什么的:如我一直所言,统计推断的目的就是“以样本统计量推断总体参数”。总体方差是参数,是最终目标;样本方差是统计量,是通向最终目标的中间过程。我们拿到一些数据,如果这些数据是总体数据的话,那么数据处理流程应该是:数据->总体方差;如果这些数据是样本数据的话,那么数据处理流程应该是:数据->样本方差->总体方差。
好的,理解了这个逻辑,我们再来看总体方差和样本方差的公式。 :我们已知总体中的所有数据。在计算总体方差时,每一个数据都可以独立地,直接地对总体方差的计算产生影响,也就是说,每一个数据都提供了有用的信息。除以,表明了个数据与均值的平均离差平方和。
接下来,我们看样本方差的公式。:分母变成了。直观解释起来,有点困难,我们结合公式的推导,一步一步来说:
我们的目的是总体方差,但是我们没有总体的数据,只能通过样本方差计算样本统计量,进而推导总体方差。那么我们把样本统计量加入到这个公式中:。
可以看出,简单地处理,使得公式分成了两部分,一部分是和代表的样本数据和样本统计量有关,也就是我们上面流程表达的“数据->样本方差”部分;另一部分是和代表的样本统计量和总体参数有关,也就是我们上面流程表达的“样本方差->总体方差”。接下来,我们用一系列不超过高中程度的加减乘除运算对公式进行处理:

进一步化简:已知样本均值,则,所以。 分析。由于与无关,所以。
于是,公式可以写成
两边同时乘以个,这下,你看前面那一项,是不是有点像“样本方差”。而后一项,咦,是均值样本统计量和总体参数的关系耶。
我们现在引入“无偏性”原则【人间的统计学】参数估计,评价估计量的标准:无偏性、有效性、一致性,也就是。上式左边就是方差的总体参数了,我们命个名。右边。后一项,诶,不就是样本均值的方差么,根据中心极限定理,它等于。
这下子一下子清晰了:
再稍微处理一下:
最后就得到了
于是,我们为了保持方差的样本统计量对方差的总体参数的无偏估计,只好定义这个除以了的式子为样本方差:。而这个,就是样本方差的自由度。
推导过程,我们搞明白了。我们来回看,是什么原因导致了而不是。可以看出,在第一步,
这个分解时,就埋下了的种子:数据->样本方差->总体方差,样本方差只是我们从数据通向总体的过程,我们不仅要考虑数据到样本方差的计算性(n),而且要考虑样本方差对总体方差的无偏近似性(-1)。
好,我们继续来探讨:如果数据是总体,本来在数据->总体方差的过程中,我们可以直接除以n的,因为所有数据都独立地提供了信息。但由于数据是样本,我们不得不走这条路,数据->样本方差->总体方差。在这过程中,我们发现,我们引入了额外且必要的变量:样本均值。这导致了一个问题,就是我们的数据,在推断总体方差之前,还得先使用一次,计算。于是,在数据推断总体方差的过程中,我们就没有n个独立的信息,只剩下n-1个独立的信息。
至于啥是独立的信息,我们简单地用一个例子解释一下(有点懒了,直接拿我上课的课件吧):
好了,这就是我对“自由度”的解释。再回到文章最开头的两个生活常识。为什么我们经常要考虑自由度呢?因为自由的数据才可以给我们提供有用的信息。领导们讲话总是“同志们,我今天讲3个方面:第一个方面,蒋老师思想端正品德好。第二方面,他艰苦朴素作风高。第三方面,蒋新宇老师是位好同志”,其实,大家都能看出来,领导也就讲了两个独立的方面,第三个方面是前两个方面是的总和,不用说也罢。用前点就能估计蒋老师是个好人了,第三点冗余了。这篇讲话,用来推断蒋老师是好人的论据自由度是2。哈哈哈,一个道理。
另外,“谈论自由之前,需要明白是什么限制了我们。而有目标才有限制,离开目标谈限制,也是不成立的”。在数据科学中,我们的目标是用样本推断总体。看到自由度,就去想样本约束,看到样本约束,就去想总体目标,准没错。比如,你看到一个表达“”, 那么统计量在构建的过程中,肯定有消耗一个自由度的样本统计量存在,比如。
好了,就写到这里吧。剩下的,你们自己去探索吧。