接着1.最全! 我国适合”断点回归”的政策都整理出来了, 让你有做不完的RDD断点
2.最全! 我国适合”合成控制法”的政策都整理出来了, 让你有做不完的SCM政策
3.最全106页! 我国适合DID双重差分的政策都整理出来了, 让你有做不完的DID
5.最全! 我国适合DDD三重差分的政策都整理出来了, 让你有做不完的DDD
这种操作在经济学实证研究中其实相当常见,尤其是在使用历史类、地区面板数据(historical panel data)或存在空间依赖(spatial dependence)的研究中。
核心思想就是,担心面板回归中的标准误被时间序列相关性或空间相关性低估,因此先压缩面板数据(去趋势→取前后差→得到省级增长率),再在横截面上进行稳健估计。
本文的数据为面板数据,包含多个省份在不同年份的观测值(省份×年份)。在这种数据结构中,同一省份不同年份的误差项可能存在时间相关性,即一年的冲击可能影响该省后续年份的结果。
为处理时间相关性,本文首先在每个省份内部对误差项进行聚类(panel clustering),以控制省内自相关(autocorrelation),从而解决时间相关性对标准误的影响。
然而,面板聚类并不能解决空间相关性问题。由于农奴占比在地理上具有空间相关性,相邻省份的结果变量可能相互影响,如果不加以处理,标准误仍可能被低估。
为此,文章进一步将面板数据压缩为省级横截面数据。
具体做法包括首先去趋势化,剔除时间趋势及省份或地区特定的线性趋势;然后计算解放前后去趋势化结果变量的均值差,得到省级横截面数据;接着以省级净变化为因变量,农奴占比为主要解释变量,并加入控制变量进行回归;最后采用 Conley(1999, 2008)方法修正空间相关误差,允许误差在900公里范围内相关。
通过这一系列处理,本文同时解决了时间相关性和空间相关性问题,从而得到稳健的标准误,保证估计结果的可靠性。
既然这样,为什么不搞一个双向聚类,标准误聚类到个体和时间上呢?
下面就告诉你为什么双向聚类(两维聚类,个体 × 时间)在这里不是最佳选择,以及研究者为什么选择横截面 + Conley修正的策略。
双向聚类(cluster by individual and time)是什么?
个体聚类(cluster by province)允许同一省份不同年份的误差项相关(处理省内时间序列自相关)。时间聚类(cluster by year)允许同一年份不同省份的误差项相关(处理全国性冲击,如年度天气、政策变化等)。双向聚类同时控制这两类相关性。
在很多面板DID文献中,双向聚类是标准做法,用于避免省份自相关和年度共同冲击导致的标准误低估。
为什么双向聚类仍然不够?
其实,关键问题是空间相关性(spatial correlation),而不是全国性的时间冲击。
1.农奴占比存在空间聚集。相邻省份农奴占比相似,经济和社会结果也可能相互影响,而时间聚类只能控制全国年度冲击,无法捕捉地理邻近省份之间的误差相关。
2.空间相关性与时间相关性是不同维度。双向聚类处理的是省内时间自相关和同一年全国性共同冲击,但邻近省份之间的误差相关性不属于全国年度共同冲击,而是地理局部相关。
3.数据跨度和省份数量的限制。在历史数据中,年份可能较少(尤其工业产出),如果用双向聚类,时间聚类维度太小,标准误可能不稳定。
所以,知道了为什么选择横截面 + Conley 修正?
去趋势与计算解放前后差值转化为省级横截面,解决了时间相关性(时间趋势已去除);而Conley标准误专门针对空间相关性,允许邻近省份误差相关(这里设定900公里半径),差不多是处理空间依赖的标准方法,比双向聚类更直接、稳健。
下面稍微详细讲讲这个面板数据转换成截面处理标准误在时间和空间上的相关性问题。
既然已经在面板数据中对每个省份做了聚类(clustered standard errors)来控制省内自相关,为啥还要做横截面回归?
原因主要在于面板聚类只能解决时间上的自相关,但不能解决空间相关性。
面板聚类做了什么?
在 Bertrand, Duflo 和 Mullainathan (2004) 的方法中,他们对每个省份的误差项做省内聚类。目的是允许同一省份在不同年份的误差项存在自相关(autocorrelation)。
换言之,如果一个省份在某一年受了某种冲击,它可能会影响该省接下来几年的结果。聚类后,标准误可以正确反映这种时间相关性,防止低估标准误导致虚假显著。
为什么聚类还不够?
面板聚类只考虑时间相关性(省内不同年份的关联),没有考虑空间相关性(不同省份之间的相关性)。在本研究中,农奴比例(ShareSerfs)具有空间相关性:邻近省份的农奴比例可能相似。如果两个相邻省份的结果变量也因为类似地理或经济条件而相关,那么面板聚类的标准误仍然会低估,导致结果看起来比实际更显著。
横截面回归的作用
为了显式控制空间相关性,他们把面板数据压平成省级横截面。

1.去趋势化。先用回归剔除时间趋势(全国趋势 + 省/地区特定趋势),得到净变化。
2.计算解放前后差值。每个省份得到一个解放前后平均增长,形成横截面数据。
3.横截面回归。把省级增长率回归在农奴比例上,并用 Conley (1999, 2008) 方法修正标准误,允许邻近省份(900公里范围)误差相关。
为什么做横截面回归?
核心原因是,横截面回归加上Conley标准误可以显式考虑空间相关性;面板聚类只能处理时间相关性,无法保证空间相关导致的标准误偏误被修正;
这样就能检验结果是否稳健,即使考虑了空间和时间的双重相关性,结论仍然成立。
面板聚类是先解决时间问题,横截面回归是再解决空间问题,两者结合才能得到稳健标准误。
具体如何做的呢?
结果变量为粮食产量、工业产出、征兵者平均身高;主要解释变量为1858年各省农奴占比(ShareSerfs);控制变量为距莫斯科距离、土地适宜度等。
步骤1 去除时间趋势(detrending)
目的是,去掉全国性或省级长期增长趋势,得到净变化,避免全国经济增长或长期趋势影响结果。
1.对每个省份、每个结果变量,用时间虚拟变量回归,, = 年份虚拟变量,残差 = 去除时间效应后的净值
2.additional控制。对于粮食生产率结果变量方程,加上省份特定线性趋势(每个省的发展轨迹可能不同);对于工业产出结果变量,加上地区特定线性趋势(数据时间太短,不适合省级趋势)
得到的结果是,每个观测值都是去趋势化后的值,去掉了全国或省级长期趋势。
步骤2 计算解放前后差值
目的是,得到每个省份在农奴制废除前后的实际净变化量。
1.对每个省份,计算解放前(baseline前几年)去趋势化变量的平均值,以及计算解放后(baseline后几年)去趋势化变量的平均值
2.计算差值 = (解放后平均值 − 解放前平均值)
得到的结果是, 每个省份得到一个解放前后增长率的数值,形成横截面数据。
步骤3 构建横截面回归
目的是,用去趋势后的省级变化来估计农奴占比对结果变量的影响。
模型为
因变量——省级解放前后净变化,主要解释变量——农奴占比,控制变量——距莫斯科距离、土地适宜度,误差项 () 初步假设为独立(下一步修正)。
步骤4 修正空间相关性(Conley标准误)
目的是,邻近省份可能受相似地理/市场/政策影响,残差存在空间相关,标准误需修正。
1.允许误差项在 900公里半径内的省份相关(Conley 1999, 2008 方法)。900公里 ≈ 样本东西/南北跨度的三分之一,超过900公里视为独立。
2.根据距离矩阵调整回归的标准误,得到空间稳健标准误
得到的结果是,回归系数不变,但标准误更保守、更可靠。
步骤5 最终结果解读。通过每个省的净变化与农奴占比的回归,来考察农奴制废除的影响。此时,已去掉时间趋势、长期发展差异,而且已考虑空间相关性。因此,结论更稳健,减少因面板自相关或邻近地区相似性导致的虚假显著。
关于标准误聚类,参看1.经典! AER学习交互FE, 随时间变化的趋势项, 双向聚类SE, 替代性解释检验和IV的论证!2.前沿: 很担心川普团队看到这篇文章, 会对我们不利, PPML, 双聚类标准误, 竞争性假说. 3.流程图: 详解双重差分DID中的聚类效应与标准误问题,4.为啥固定效应后还要对标准误聚类呢? 区别何在? 到底什么层面固定和聚类? 5.使用异方差稳健而不是聚类稳健标准误, 在固定效应模型中能接受吗?6.QJE上对标准误做聚类调整, 现已开发出了对应的Stata软件包,
7.完整解读TOP5刊的”什么时候和如何对标准误做聚类调整?” 4位计量大佬的合作!8.聚类标准误精辟解释, 保证你一辈子都忘不了!9.什么时候用双聚类稳健标准误? 在个体和时间层面上考虑依赖性问题!10.什么时候以及如何使用聚类标准误?在什么层级上进行聚类呢?11.啥时候使用聚类标准误, 以及数据聚类的修正方法? 12.在什么级别上标准误聚类, 个体, 县, 省或行业, 时间?
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle