接着AI经济研究神器! 全网首发中国微观数据选题宝库, 秒生原创X+Y组合, 论文idea源源不断.

TOP5刊Econometrica再次交出了一篇令人印象深刻的作品。

近几年,该刊在政治经济学与制度研究方向上频频出现高质量论文,也不免让人联想到Acemoglu曾经担任过ECM的主编。

下面介绍由Melnikov、Schmidt-Padilla与Sviatschi(2025,Econometrica)完成的论文《Gangs, Labor Mobility, and Development》

*文章PDF,数据和复现代码,群友可在社群下载学习。

这是一篇初读便引人入胜的研究,而在通读之后更会发现,其因果识别极为干净,计量设计堪称教科书级别。

虽然研究的问题并不新奇,研究的是犯罪组织是否阻碍经济发展?

但他们给出的答案和路径,却明显不同于以往把焦点放在暴力、谋杀率或公共品掠夺上的研究。

文章真正想说明的是,犯罪组织的危害并不只体现在暴力本身。当它们控制了特定区域后,最直接的影响是人出不去,居民很难跨区通勤或寻找更好的工作机会。

这种对流动性的限制,最终会在城市内部不断拉大收入、教育和生活水平的差距。

而这一切,是在同一座城市内、相距不过几十米的地方发生的。

研究背景与核心问题

论文的出发点非常清晰。

在发展中国家的城市中,国家并不是唯一的治理主体。大量居民生活在由非国家武装组织控制的区域内,其中最常见的形式就是帮派和黑社会。

传统文献主要沿着两条线展开。一条强调犯罪组织带来的暴力和不安全感,另一条则借鉴定居型掠夺者理论,认为某些非国家武装可能在弱国家环境中提供秩序与准公共品。

但这两条路径都难以解释一个现实事实,在很多城市里,帮派控制区和非控制区并没有显著差异的公共品供给、基础设施或治安水平,却长期存在显著的收入与发展差距。

文章提出,这个差距的关键不在于暴力本身,而在于空间边界的形成与个人流动自由的丧失(这么看,咱们的户籍政策真的就应该废除)。

自然实验的起点——1996年的美国移民政策冲击

论文识别的第一个亮点,是一个非常干净的外生冲击。

在1996年,美国通过《非法移民改革与移民责任法案》(IIRIRA),显著降低了遣返门槛,大量有犯罪背景的移民被迅速遣返回原籍国。

这项政策并非针对萨尔瓦多设计,但其结果是,大量在洛杉矶形成组织结构、领土意识和暴力经验的MS-13与18th Street帮派成员,被集中遣返回了萨尔瓦多。

在此之前,萨尔瓦多几乎不存在成熟的城市帮派体系。

这使得帮派的出现本身具有强烈的外生性,而不是城市贫困或犯罪文化内生演化的结果。

帮派如何在城市中画线

回到萨尔瓦多之后,这些帮派并不是随机扩散的。

他们复制了在洛杉矶已经高度成熟的一套治理技术,以道路、快速路和大型街区为边界,将城市切割成彼此隔离的领土单元。

在首都圣萨尔瓦多,这些边界在1990年代末迅速形成,并且高度稳定,直到2022年政府强力清剿之前几乎没有变化。

文章使用的是一张由警方和司法部门长期维护、并由主流媒体公布的帮派控制区地图。这些边界往往精确到街道甚至路口。

这为后续的计量设计创造了极为罕见的条件。

核心识别策略是空间断点回归设计

论文的主识别策略,是一个空间断点回归设计。

直觉非常简单,如果帮派控制真的改变了发展轨迹,那么在边界两侧,距离只有几十米的住户,其经济结果应当出现跃变。

作者的基准估计方程是,

其中,表示个人、家庭或住房层面的结果变量;
为指示变量,表示普查小区是否处于帮派控制区;
表示该普查小区到最近帮派边界的距离;
为随机误差项。

在这一设定下,刻画的正是帮派控制在边界处对结果变量造成的离散跃变,也即空间回归不连续设计下的局部因果效应。

作者将样本限制在边界两侧420米范围内,并在极窄带宽内进行比较。

识别的关键假设是,在帮派出现之前,边界两侧的地区在经济和地理特征上是连续的。

这一点作者用1992年人口普查数据进行了直接检验。

研究发现,就这几十米之差却出现了系统性发展断裂

结果非常震撼,也非常稳定。

与边界外仅50米的居民相比,生活在帮派控制区内的家庭表现出显著更差的经济结果。

他们的月家庭收入平均低350美元,而样本均值只有约625美元;他们拥有耐用品的概率更低;住房质量更差
教育水平更低;进入大型企业工作的概率显著下降。

更重要的是,这些差异在1992年是完全不存在的。

这排除了帮派选择性进入贫困地区的解释,也支持了断点回归设计的因果含义。

机制之一是,并非暴力,而是流动受限

文章最重要的贡献之一,在于机制分析。

作者发现,帮派并没有在边界处制造劳动市场本身的断点。企业数量、工资结构、产业分布在边界两侧是平滑变化的。

真正发生跳变的,是人能不能跨过边界去工作。

利用2019年自行实施的地理编码调查,作者发现,生活在帮派控制区内的居民更倾向于在本帮派辖区内就业,前往城市其他区域工作的概率显著更低。他们表示自己很少拥有充分的行动自由,也更可能明确指出,帮派边界直接限制了其获取更好就业机会的可能性。

而利用手机定位数据,作者进一步发现一个非常关键的事实,即帮派区居民并不是不动,而是只能在本区内动。

他们的移动距离与非帮派区居民几乎相同,但空间范围被严格限制在帮派控制区内。

为什么不是其他机制?

作者系统性排除了几种常见解释。

不是因为暴力更高,毕竟边界两侧遭遇勒索和犯罪的概率几乎相同;

不是因为公共品更差,毕竟学校、医院、基础设施的供给并无显著差异;

不是因为大规模选择性迁移,毕竟估算显示,迁移最多只能解释约14%的差距。

这进一步凸显了流动受限这一机制的独立作用。

教育渠道与长期效应

帮派控制区的学校辍学率显著更高,年度辍学率高出约2个百分点。

这意味着收入差距并不仅仅来自当前劳动市场的扭曲,而会通过人力资本积累被长期放大。

从局部到整体的检验,使用全国层面的DID的证据

在最后一部分,作者将视角从城市内部扩展到全国。

他们使用双重差分法,比较帮派暴露程度不同的市镇在1996年后的发展轨迹。

结果显示,帮派渗透程度较低的地区,在企业进入、夜间灯光和收入增长上明显更快。

这说明,随着时间推移,能够自由流动、进入新兴就业中心变得越来越重要,而帮派边界的成本也随之累积。

这篇文章对计量学习者的真正启示

这是一篇没有新估计量、没有新技术名词,但极其重要的计量论文。

第一,好的因果设计往往来自空间结构and制度历史,而不是统计技巧。

ECM从不让人失望: 帮派和黑社会改变城市发展, 堪称教科书级空间RDD, 机制分析, DID.

第二,RDD的说服力不在于带宽、核函数或多项式阶数,而在于断点是否真的有制度含义。

第三,机制分析的最高境界,是把可能的解释一条条排除掉。

这也是为什么,这篇文章即便没有提出新的计量方法,仍然能够成为Econometrica级别的贡献。

为什么这是咱们计量圈值得反复讲的一篇论文呢?

这篇文章几乎可以作为一堂完整的研究设计示范课,告诉学生们如何找到外生冲击?如何构造局部对照组?如何验证反事实?如何避免机制堆砌?如何把一个社会问题,讲成一条清晰的因果链?

如果从计量角度看,这不仅仅是一篇黑社会论文,而更是一堂空间因果识别课

乍一看,《Gangs, Labor Mobility, and Development》像一篇犯罪经济学或发展经济学论文。

但如果你站在计量的角度读,会发现它真正的主线只有一句话,即如何在没有政策阈值、没有随机分配的情况下,用空间边界构造一个可信的准实验。

作者没有提出新的估计量,也没有复杂的半参数技巧,但他们把三件事做到了极致,一是处理组与对照组的构造极其窄,二是反事实的可验证性非常强,三是机制检验完全服务于识别,而不是事后解释。

第一步是把帮派控制转化为一个可识别的处理变量

从计量角度看,最关键的问题不是帮派是否影响发展,而是帮派控制是否可以被当作一个外生处理。

作者并没有直接假设这一点,而是通过制度史构造外生性。

1996年美国移民法的变化,导致大量在美国已形成组织结构的帮派成员被集中遣返萨尔瓦多。

这个冲击不是由萨尔瓦多经济条件决定,不是由城市贫困程度决定,也不是由当地犯罪率决定的。

这是一个典型的外生输入型冲击。这一步解决的是处理变量来源的外生性问题。

第二步是空间边界如何变成断点

文章最值得学习的地方,在于它如何把一个连续的城市空间,转化为一个断点的因果设计。

关键在于一个事实,即帮派控制并不是渐进扩散的,而是以明确边界划分的。

这些边界形成时间很早,基本沿着大路、快速路,几十年几乎不变。

于是,作者可以把是否在帮派控制区内定义为一个二值处理,而把到边界的距离当作forcing variable。

这直接引出了空间RDD的设定。

核心估计方程在咱们实证研究中的标准写法

其中,允许结果变量在空间上呈现线性趋势,
允许该趋势在帮派边界两侧存在差异,
则刻画了在边界处出现的离散跃变。

在这一设定下,真正的因果效应由所识别。

重要的是,这不是控制一堆变量的回归,而是只依赖于一个几何结构,只依赖于一个可视化的断点。

而这正是RDD的精髓。

RDD最重要的一步是反事实是否可信

任何RDD都绕不开一个问题,边界两侧在处理发生之前,是否真的可比?

作者在这里给出了一个非常标准、也非常干净的做法。

他们直接回到1992年人口普查数据,要知道那时帮派尚未出现。然后在同一组未来的边界位置上,重复一模一样的空间RDD。

结果是住房条件没有跳变,教育水平没有跳变,资产拥有率没有跳变,地理特征没有跳变。

从教学角度看,这是一个几乎完美的placebo test。

如果1992年已经有不连续(断点),这个设计就直接失败。

标准误与空间相关性

很多空间RDD在实证研究中最容易被忽略的是误差结构。

作者在这点上非常自觉。

他们默认使用按到边界距离bin聚类的标准误,同时报告Conley空间相关稳健标准误。

更重要的是,结论对不同误差设定完全稳健。

空间RDD的可信度,不只取决于点估计,也取决于你是否认真对待空间相关性。

机制分析如何服务识别,而不是美化结果

很多论文的机制分析,是在回归后加几条中介变量。

这篇文章完全不是。

作者先提出一个明确的机制假说,即帮派通过限制跨区流动,扭曲劳动匹配。

然后他们逐条问,边界处是否存在工作机会的断点?是否存在工资结构的断点?是否存在企业分布的断点?

答案全部是否定的。

接着,他们转而检验,人是否能跨区通勤?人是否报告没有行动自由?人是否被明确阻止去外区工作?

所以,这么看,机制不是解释结果,而是检验哪一条因果路径真的被切断了。

为什么最后还要做全国层面的DID?

从严格因果识别看,空间RDD已经足够。

但作者仍然在全国层面做了一个DID,用来回答另一个问题:这些局部摩擦,会不会在时间中被放大?

DID的作用不是再证明一次因果,而是展示动态外部性——毕竟当新的就业机会不断出现在非帮派地区,无法流动的成本会越来越高。

这一步更多是经济解释的补充,而不是识别的核心。

*社群群友可以直接到社群下载文章PDF和对应的数据和代码。


前面整理了一些列关于国内实证研究中非常有用的材料,
1.最全! 我国适合”断点回归”的政策都整理出来了, 让你有做不完的RDD断点政策评
2.最全! 我国适合”合成控制法”的政策都整理出来了, 让你有做不完的SCM政策评估
3.最全106页! 我国适合DID双重差分的政策都整理出来了, 让你有做不完的DID政策
4. 最全! 我国适合DDD三重差分的政策都整理出来了, 让你有做不完的DDD政策论
5.最全! 国内哪些政策适合用队列DID, 模糊断点RDD, 双重机器学习DML进行评估?
6.最全! 国内哪些政策情景适合用Bartik IV, 空间DID, 模糊DID方法进行评估?

7.最全! 我国各种X的工具变量IV都整理出来了, 有无尽的IV来处理内生性, 写论文.

8.最全! 把CFPS研究过的全部自变量X与因变量Y做成数据库了, 全网第一份CFPS选题数据库.

9.最全! 把CHFS研究过的全部自变量X与因变量Y做成数据库了, 第一份CHFS金融选题数据库.

10.中国健康与养老CHARLS选题库, X与Y的研究组合助你研究老年人问题.

11.把CSMAR研究过的自变量X与因变量Y做成数据库了, 第一份公司与金融微观选题数据库.

12.三农微观数据选题库, 从此AI轻易助你选择经过检验了的X与Y的不同组合选题.

13.CHIP和CEPS选题数据库, 轻松助你选择经过检验了的X与Y的不同组合家庭收入和教育选题.

14.入门级! 把CGSS研究过的自变量X与因变量Y做成数据库了, 第一份社会研究选题数据库.

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

7年,计量经济圈近25000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验