TOP5刊Econometrica再次交出了一篇令人印象深刻的作品。
近几年,该刊在政治经济学与制度研究方向上频频出现高质量论文,也不免让人联想到Acemoglu曾经担任过ECM的主编。
下面介绍由Melnikov、Schmidt-Padilla与Sviatschi(2025,Econometrica)完成的论文《Gangs, Labor Mobility, and Development》。
*文章PDF,数据和复现代码,群友可在社群下载学习。
这是一篇初读便引人入胜的研究,而在通读之后更会发现,其因果识别极为干净,计量设计堪称教科书级别。
虽然研究的问题并不新奇,研究的是犯罪组织是否阻碍经济发展?
但他们给出的答案和路径,却明显不同于以往把焦点放在暴力、谋杀率或公共品掠夺上的研究。
文章真正想说明的是,犯罪组织的危害并不只体现在暴力本身。当它们控制了特定区域后,最直接的影响是人出不去,居民很难跨区通勤或寻找更好的工作机会。
这种对流动性的限制,最终会在城市内部不断拉大收入、教育和生活水平的差距。
而这一切,是在同一座城市内、相距不过几十米的地方发生的。
研究背景与核心问题
论文的出发点非常清晰。
在发展中国家的城市中,国家并不是唯一的治理主体。大量居民生活在由非国家武装组织控制的区域内,其中最常见的形式就是帮派和黑社会。
传统文献主要沿着两条线展开。一条强调犯罪组织带来的暴力和不安全感,另一条则借鉴定居型掠夺者理论,认为某些非国家武装可能在弱国家环境中提供秩序与准公共品。
但这两条路径都难以解释一个现实事实,在很多城市里,帮派控制区和非控制区并没有显著差异的公共品供给、基础设施或治安水平,却长期存在显著的收入与发展差距。
文章提出,这个差距的关键不在于暴力本身,而在于空间边界的形成与个人流动自由的丧失(这么看,咱们的户籍政策真的就应该废除)。
自然实验的起点——1996年的美国移民政策冲击
论文识别的第一个亮点,是一个非常干净的外生冲击。
在1996年,美国通过《非法移民改革与移民责任法案》(IIRIRA),显著降低了遣返门槛,大量有犯罪背景的移民被迅速遣返回原籍国。
这项政策并非针对萨尔瓦多设计,但其结果是,大量在洛杉矶形成组织结构、领土意识和暴力经验的MS-13与18th Street帮派成员,被集中遣返回了萨尔瓦多。
在此之前,萨尔瓦多几乎不存在成熟的城市帮派体系。
这使得帮派的出现本身具有强烈的外生性,而不是城市贫困或犯罪文化内生演化的结果。
帮派如何在城市中画线
回到萨尔瓦多之后,这些帮派并不是随机扩散的。
他们复制了在洛杉矶已经高度成熟的一套治理技术,以道路、快速路和大型街区为边界,将城市切割成彼此隔离的领土单元。
在首都圣萨尔瓦多,这些边界在1990年代末迅速形成,并且高度稳定,直到2022年政府强力清剿之前几乎没有变化。
文章使用的是一张由警方和司法部门长期维护、并由主流媒体公布的帮派控制区地图。这些边界往往精确到街道甚至路口。
这为后续的计量设计创造了极为罕见的条件。
核心识别策略是空间断点回归设计
论文的主识别策略,是一个空间断点回归设计。
直觉非常简单,如果帮派控制真的改变了发展轨迹,那么在边界两侧,距离只有几十米的住户,其经济结果应当出现跃变。
作者的基准估计方程是,
其中,表示个人、家庭或住房层面的结果变量;
为指示变量,表示普查小区是否处于帮派控制区;
表示该普查小区到最近帮派边界的距离;
为随机误差项。
在这一设定下,刻画的正是帮派控制在边界处对结果变量造成的离散跃变,也即空间回归不连续设计下的局部因果效应。
作者将样本限制在边界两侧420米范围内,并在极窄带宽内进行比较。
识别的关键假设是,在帮派出现之前,边界两侧的地区在经济和地理特征上是连续的。
这一点作者用1992年人口普查数据进行了直接检验。
研究发现,就这几十米之差却出现了系统性发展断裂
结果非常震撼,也非常稳定。
与边界外仅50米的居民相比,生活在帮派控制区内的家庭表现出显著更差的经济结果。
他们的月家庭收入平均低350美元,而样本均值只有约625美元;他们拥有耐用品的概率更低;住房质量更差
教育水平更低;进入大型企业工作的概率显著下降。
更重要的是,这些差异在1992年是完全不存在的。
这排除了帮派选择性进入贫困地区的解释,也支持了断点回归设计的因果含义。
机制之一是,并非暴力,而是流动受限
文章最重要的贡献之一,在于机制分析。
作者发现,帮派并没有在边界处制造劳动市场本身的断点。企业数量、工资结构、产业分布在边界两侧是平滑变化的。
真正发生跳变的,是人能不能跨过边界去工作。
利用2019年自行实施的地理编码调查,作者发现,生活在帮派控制区内的居民更倾向于在本帮派辖区内就业,前往城市其他区域工作的概率显著更低。他们表示自己很少拥有充分的行动自由,也更可能明确指出,帮派边界直接限制了其获取更好就业机会的可能性。
而利用手机定位数据,作者进一步发现一个非常关键的事实,即帮派区居民并不是不动,而是只能在本区内动。
他们的移动距离与非帮派区居民几乎相同,但空间范围被严格限制在帮派控制区内。
为什么不是其他机制?
作者系统性排除了几种常见解释。
不是因为暴力更高,毕竟边界两侧遭遇勒索和犯罪的概率几乎相同;
不是因为公共品更差,毕竟学校、医院、基础设施的供给并无显著差异;
不是因为大规模选择性迁移,毕竟估算显示,迁移最多只能解释约14%的差距。
这进一步凸显了流动受限这一机制的独立作用。
教育渠道与长期效应
帮派控制区的学校辍学率显著更高,年度辍学率高出约2个百分点。
这意味着收入差距并不仅仅来自当前劳动市场的扭曲,而会通过人力资本积累被长期放大。
从局部到整体的检验,使用全国层面的DID的证据
在最后一部分,作者将视角从城市内部扩展到全国。
他们使用双重差分法,比较帮派暴露程度不同的市镇在1996年后的发展轨迹。
结果显示,帮派渗透程度较低的地区,在企业进入、夜间灯光和收入增长上明显更快。
这说明,随着时间推移,能够自由流动、进入新兴就业中心变得越来越重要,而帮派边界的成本也随之累积。
这篇文章对计量学习者的真正启示
这是一篇没有新估计量、没有新技术名词,但极其重要的计量论文。
第一,好的因果设计往往来自空间结构and制度历史,而不是统计技巧。
第二,RDD的说服力不在于带宽、核函数或多项式阶数,而在于断点是否真的有制度含义。
第三,机制分析的最高境界,是把可能的解释一条条排除掉。
这也是为什么,这篇文章即便没有提出新的计量方法,仍然能够成为Econometrica级别的贡献。
为什么这是咱们计量圈值得反复讲的一篇论文呢?
这篇文章几乎可以作为一堂完整的研究设计示范课,告诉学生们如何找到外生冲击?如何构造局部对照组?如何验证反事实?如何避免机制堆砌?如何把一个社会问题,讲成一条清晰的因果链?
如果从计量角度看,这不仅仅是一篇黑社会论文,而更是一堂空间因果识别课
乍一看,《Gangs, Labor Mobility, and Development》像一篇犯罪经济学或发展经济学论文。
但如果你站在计量的角度读,会发现它真正的主线只有一句话,即如何在没有政策阈值、没有随机分配的情况下,用空间边界构造一个可信的准实验。
作者没有提出新的估计量,也没有复杂的半参数技巧,但他们把三件事做到了极致,一是处理组与对照组的构造极其窄,二是反事实的可验证性非常强,三是机制检验完全服务于识别,而不是事后解释。
第一步是把帮派控制转化为一个可识别的处理变量
从计量角度看,最关键的问题不是帮派是否影响发展,而是帮派控制是否可以被当作一个外生处理。
作者并没有直接假设这一点,而是通过制度史构造外生性。
1996年美国移民法的变化,导致大量在美国已形成组织结构的帮派成员被集中遣返萨尔瓦多。
这个冲击不是由萨尔瓦多经济条件决定,不是由城市贫困程度决定,也不是由当地犯罪率决定的。
这是一个典型的外生输入型冲击。这一步解决的是处理变量来源的外生性问题。
第二步是空间边界如何变成断点
文章最值得学习的地方,在于它如何把一个连续的城市空间,转化为一个断点的因果设计。
关键在于一个事实,即帮派控制并不是渐进扩散的,而是以明确边界划分的。
这些边界形成时间很早,基本沿着大路、快速路,几十年几乎不变。
于是,作者可以把是否在帮派控制区内定义为一个二值处理,而把到边界的距离当作forcing variable。
这直接引出了空间RDD的设定。
核心估计方程在咱们实证研究中的标准写法
其中,允许结果变量在空间上呈现线性趋势,
允许该趋势在帮派边界两侧存在差异,
则刻画了在边界处出现的离散跃变。
在这一设定下,真正的因果效应由所识别。
重要的是,这不是控制一堆变量的回归,而是只依赖于一个几何结构,只依赖于一个可视化的断点。
而这正是RDD的精髓。
RDD最重要的一步是反事实是否可信
任何RDD都绕不开一个问题,边界两侧在处理发生之前,是否真的可比?
作者在这里给出了一个非常标准、也非常干净的做法。
他们直接回到1992年人口普查数据,要知道那时帮派尚未出现。然后在同一组未来的边界位置上,重复一模一样的空间RDD。
结果是住房条件没有跳变,教育水平没有跳变,资产拥有率没有跳变,地理特征没有跳变。
从教学角度看,这是一个几乎完美的placebo test。
如果1992年已经有不连续(断点),这个设计就直接失败。
标准误与空间相关性
很多空间RDD在实证研究中最容易被忽略的是误差结构。
作者在这点上非常自觉。
他们默认使用按到边界距离bin聚类的标准误,同时报告Conley空间相关稳健标准误。
更重要的是,结论对不同误差设定完全稳健。
空间RDD的可信度,不只取决于点估计,也取决于你是否认真对待空间相关性。
机制分析如何服务识别,而不是美化结果
很多论文的机制分析,是在回归后加几条中介变量。
这篇文章完全不是。
作者先提出一个明确的机制假说,即帮派通过限制跨区流动,扭曲劳动匹配。
然后他们逐条问,边界处是否存在工作机会的断点?是否存在工资结构的断点?是否存在企业分布的断点?
答案全部是否定的。
接着,他们转而检验,人是否能跨区通勤?人是否报告没有行动自由?人是否被明确阻止去外区工作?
所以,这么看,机制不是解释结果,而是检验哪一条因果路径真的被切断了。
为什么最后还要做全国层面的DID?
从严格因果识别看,空间RDD已经足够。
但作者仍然在全国层面做了一个DID,用来回答另一个问题:这些局部摩擦,会不会在时间中被放大?
DID的作用不是再证明一次因果,而是展示动态外部性——毕竟当新的就业机会不断出现在非帮派地区,无法流动的成本会越来越高。
这一步更多是经济解释的补充,而不是识别的核心。
*社群群友可以直接到社群下载文章PDF和对应的数据和代码。
8.最全! 把CFPS研究过的全部自变量X与因变量Y做成数据库了, 全网第一份CFPS选题数据库.
9.最全! 把CHFS研究过的全部自变量X与因变量Y做成数据库了, 第一份CHFS金融选题数据库.
10.中国健康与养老CHARLS选题库, X与Y的研究组合助你研究老年人问题.
11.把CSMAR研究过的自变量X与因变量Y做成数据库了, 第一份公司与金融微观选题数据库.
12.三农微观数据选题库, 从此AI轻易助你选择经过检验了的X与Y的不同组合选题.
13.CHIP和CEPS选题数据库, 轻松助你选择经过检验了的X与Y的不同组合家庭收入和教育选题.
14.入门级! 把CGSS研究过的自变量X与因变量Y做成数据库了, 第一份社会研究选题数据库.
7年,计量经济圈近25000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
