接着1.结构估计模型初学者需要具备或逐步掌握的关键知识点有哪些?和2.受用! 结构估计模型学习路线图, 从经济模型到最终实现具体估计技术的全过程.
下面看看结构模型的概念,讨论使用结构模型的情境,并梳理构建、识别、估计与验证的基本流程。
先对整体内容概览一下。
1.定义与直观理解
结构模型通过一套函数关系和分布假设,把观测到的结果变量(如劳动供给、消费)和外生变量、不可观测异质性联系起来。文中用一个简单的劳动供给模型来说明结构建模的基本逻辑,个体在消费与闲暇之间权衡,根据工资和非劳动收入决定劳动时间。
2.是否需要完整的结构性方法
不同研究问题所需的结构程度不同。
有时只需要估计劳动供给函数对工资的反应,不必完整识别效用函数;
更复杂的政策评估(如阶梯式所得税改革)则需要完整的结构模型;
还有半结构化方法,例如边际处理效应(MTE)、政策相关处理效应(PRTE),以及 Chetty 提出的总结统计方法,强调只做回答问题所必需的假设。
3.模型构建的关键选择
建立结构模型时,需要明确很多核心要素,
研究对象,单个个体还是互动(如夫妻劳动供给);
是否纳入均衡(仅供给/需求,还是一般均衡);
时间维度(静态/动态,有限期/无限期,是否有前瞻性行为、贴现因子);
状态空间、选择集合(离散/连续);
个体掌握的信息 vs 研究者能观测的信息;
可观测与不可观测异质性;
函数形式与分布假设。
4.识别与估计
识别问题——能否唯一确定模型参数?如果不同参数组合能生成同样的观测结果,模型就未被识别。
常用手段——直观/启发式检验、敏感性分析、模拟实验等。
估计——通常在参数化框架下进行,需要对效用函数、工资函数等设定具体形式和分布假设。
必看: 结构模型构建的12个关键选择. 使用场景,梳理构建,识别,估计与验证的全流程.
Galiani, S., & Pantano, J. (2022). Structural models: Inception and frontier (NBER 28698). National Bureau of Economic Research.
1.1 结构模型的定义
结构模型可以抽象表示为,
其中,Y 是观测到的内生变量,例如个体的选择或结果;X 和是可观测和不可观测的因素,它们本身不是选择或结果,但反映了个体的异质性;F 是一组函数,G 表示随机变量的分布;M() = 0 表示模型中变量之间的一系列结构关系。
这个定义比较抽象,可以用一个简单的劳动供给模型来直观理解。这个模型只是用于说明结构方法的基本思路,并非劳动供给领域的最新研究成果。复杂的模型可以参考一些劳动经济学的文献综述。
劳动供给模型是理解结构方法的理想起点,因为很多经济问题,比如生育决策、人力资本积累、对子女投资,或基于未观测工作努力的报酬选择,都可以视为这一基本模型的延伸。
假设个体对消费和闲暇有标准偏好,同时拥有非劳动收入可用于消费。个体还可以通过工作小时增加收入,但会牺牲闲暇。其优化问题可以表示为,
其中,是总可支配时间(例如每天24小时或每年365天),是时薪,是外生特征(如教育水平),既影响效用函数,也影响工资方程;和分别表示不可观测的工作厌恶和生产力,它们间通常可能存在相关性,其联合分布记作。
这个模型也可以简化,只用劳动选择表示。一旦确定最优工作时间,消费和闲暇可以通过预算约束直接计算,
可以记为劳动供给函数,每个人根据工资和非劳动收入选择工作时间。如果把工资和非劳动收入当作外生给定的条件,那其实就是在做一个简约形式,把那些会相互影响的内生结果,直接写成外生条件的函数。
这个简单劳动供给模型与前面通用公式的框架完全对应。表1展示了通用结构与劳动供给模型的对应关系。
表1:简单劳动供给模型的结构对应
理解具体模型如何契合这个通用框架,对于后续的分析非常重要。
1.2 是否需要完整的结构性方法
在很多研究里,并不是一定要把结构模型的所有细节都估计出来。更重要的是先想清楚,要回答研究问题,是否真的需要把模型完全识别?有时候,只估计其中的一部分参数或机制,其实就足够了。
例如,如果研究重点是劳动供给函数本身,就不需要揭示效用函数的完整形式。关心工资变化对工作时间的影响时,可以利用工资的外生变动来识别作用,而无需识别出整个效用函数。在这种情况下,只估计劳动供给对工资的边际反应就够了。
但对于更复杂的情形,例如评估阶梯式劳动所得税的影响,包括不同边际税率和税收缺口,尤其是政策首次实施时,可能就需要完整的结构模型来捕捉个体的劳动供给反应。
在某些情况下,更简单的方法可能更合适,比如直接依赖实验或准实验设计,而不加额外的结构。还有一种折衷策略,只识别模型中必要的结构特征就能回答问题。Heckman 强调,只保留研究问题所需的假设即可。例如,在广义 Roy 模型中,不必识别出所有深层结构参数,只需组合参数形成边际处理效应(MTE)曲线,就能满足研究需求。
MTE 可以理解为,在不同类型的人群中(这里的类型指那些看不见的、对是否接受处理有不同抵抗程度的人),平均下来,处理会带来多大效应。研究者通常会把它画成一条曲线,这样就能看到在整个“抵抗力”分布上的效果差异。
在选择是否接受某个“处理”(比如上培训班、参加补贴项目)时,每个人都有一个内心的倾向或门槛。有些人天生就愿意参加(抵抗力很低),只要有点机会就会去;有些人很抗拒(抵抗力很高),除非政策特别诱人,否则不会去。
如果把这种“愿意还是不愿意”的差异排好队,就形成了一个分布,这就是 未观测的处理抵抗力分布。
在此基础上,我们还能算出与政策相关的处理效应(PRTEs)。做法是把这条 MTE 曲线和政策带来的权重结合起来。权重反映了政策会让哪些人更可能去接受处理。这样一来,就能评估政策影响,而不需要依赖传统的工具变量。
这种思路背后其实就是只做必要的假设,不去设定太多模型结构,这也是 Chetty 提出的总结统计方法所强调的:在保持推理清晰的同时,尽量依赖最少的结构假设。
半结构化方法适用于分析特定类型政策的效应,前提是政策引起的变动落在已有数据的范围内。虽然很多政策符合这个条件,但并非所有政策都能用这种方法分析。
另一类折衷方法仍指定动态经济模型,但在估计阶段可以用相关状态变量的线性或多项式函数替代完整价值函数,避免求解完整动态规划。虽然无法完全分离当前效用与未来期望价值,但仍能回答部分研究问题,例如 Blau 和 Gilleskie 的研究所示。
总体上,完整结构方法只有在研究兴趣集中于必须通过深入理解结构才能回答的问题时才真正必要。Wolpin 指出,当研究涉及外生变量变化或数据中未出现的结构变动时,完整结构方法可以预测数据中不存在的情形,例如事前分析从未实施政策的因果效应。
从理论角度,结构方法可以超越传统因果推断中的“未干预则无因果”限制。它通过对辅助干预的分析,揭示支配行为的深层规律,从而对假设性干预进行推断。本综述主要面向那些希望通过结构假设获得额外洞见的研究者,同时强调如何提高这些推断的可信度。
1.3 结构模型的构建
前面介绍的公式比较通用,覆盖了各种结构模型类型。为了更直观理解,可以用劳动供给的例子来说明不同模型的特点。
构建结构模型时,需要做出一些关键决策,下面逐步梳理这些决策。
1.个体
首先要明确研究对象是单个个体,还是多个个体的互动。单个个体模型只描述孤立个体的行为,适合基础分析。但当个体决策相互影响时,需要考虑互动效果。例如在劳动供给研究中,夫妻双方可能需要协商各自的工作时间。这就需要考虑配偶的不同效用函数、不同工资,以及消费品是私人财还是公共财。
还要假设配偶如何达成决策。一种常用做法是假设帕累托效率成立,从而推导家庭成员在消费和闲暇上的分配约束。另一种方法是通过配偶间的讨价还价或非合作博弈来建模,结果可能是帕累托最优,也可能不是。在这种情况下,需要识别两个效用函数以及家庭分配规则。通常还要对效用函数如何依赖对方行为做一些限制,确保模型可识别。
2.均衡
另一个关键问题是是否考虑均衡。也就是说,是只建模市场的一方(例如劳动供给),还是同时建模供需,甚至建立一般均衡模型来覆盖所有相关市场?
在经验微观经济学中,大多数研究更关注精细的微观刻画,通过制度特征和个体异质性来捕捉主要效应,而不强调均衡。这类模型的优势在于更真实地反映个体决策过程,而不是依赖高度简化假设。不过,当一般均衡效应重要时,忽略均衡可能导致偏差。自 Heckman 等以来,一些研究尝试将均衡纳入经验微观劳动供给模型,求职和婚姻市场研究也采用类似方法。
在简单劳动供给模型中,如果使用均衡框架,需要指定个体分布,并将所有个体的劳动供给相加得到总劳动供给函数,。
同时,需要给出总劳动需求函数 D(w),描述生产方在不同工资下需要的劳动量。均衡条件要求工资满足供给等于需求,。
均衡框架的优势在于分析宏观变化更直观。例如,如果某项税收或转移支付降低了工作激励,总劳动供给在原工资下可能不足以满足需求,均衡条件会使工资上升,从而部分缓解工时下降的影响。值得注意的是,均衡分析不一定需要估计除总劳动需求函数之外的额外结构参数。
3.规划期与前瞻性行为
个体是只关注当下,还是会考虑未来的后果?模型中,他们考虑未来的范围是有限的还是无限的?一旦假设个体具有前瞻性,就需要引入贴现因子,这个参数决定个体如何将未来效用折算到现在。前瞻性行为使模型能够涵盖多种扩展,例如储蓄决策或经验积累对未来工资的影响。
Rust(1994)指出,前瞻性模型的求解方法取决于时间范围。有限期模型通常用向后递推求解,无限期模型则常用固定点方法求取价值函数。下面通过几个常见扩展,展示基本劳动供给模型在前瞻性条件下的变化。
a.储蓄
在多期模型中,前瞻性个体可能会储蓄或借贷,将收入从高工资期转移到低工资期(MaCurdy, 1981)。以两期模型为例,个体需要同时决定两期劳动供给和第一期的储蓄或借贷s_i,
如果两期效用函数相同(仅参数不同),不会增加额外结构。利率 r 通常作为外生变量加入,但假设在两期相同。主要新增的结构参数是跨期贴现因子 β。同时,还需要考虑第二期的偏好或工资冲击是否与第一期相同,如果不同,可以允许效用函数或随机分布有所变化。
b.不确定性
在动态模型中,未来可能存在不确定性。第二期的偏好或工资可能是已知的,也可能是随机的。如果是随机冲击,第二期效用需取期望,
这里的期望是针对第二期偏好和工资的联合分布计算的。在这种情况下,新增的结构特征是个体对第二期冲击分布的信念。传统做法假设个体信念与模型中随机结构一致,但近期研究允许使用信念数据放宽这一假设。如果储蓄资产存在风险,还需要考虑资产回报 r 的不确定性,并在模型中加入风险分布假设或数据以实现识别。
c.经验学习(Learning by doing)
个体可能意识到,今天的劳动不仅带来当期收入,还会提高未来工资(Imai & Keane, 2004)。这需要指定第一期工作时间,如何影响第二期工资 。例如,可以假设第一期每多工作一小时,第二期工资提高%,
这里的结构参数捕捉经验收益效应,对于理解工资增长、职业中断成本和劳动供给弹性非常重要。如果存在不同类型工作,还需考虑不同职业间经验的可迁移性。
d.自我认知学习
即使不存在“学以致用”的情况,个体也可能不了解自己在某项工作上的真实生产率,而工资依赖于生产率。通过观察信号并更新原有认知,个体可以逐步学习。关键是个体的努力与产出之间存在一定随机性,否则学习会瞬间完成。为了更快掌握未知信息,个体可能会尝试不同策略。Miller(1984)在职业选择模型中首次使用这种结构估计方法。
在一个简单的动态模型中,假设特征 X 为常数,工资取决于生产率 w,且个体对 w 存在不确定性。第一期每小时工资可能不同,且没有储蓄。此时,第一期目标函数需要取期望,以反映对生产率的不确定性,
新增的结构特征包括初始信念 g_1、不可观测生产率冲击分布 g 以及信号观察后的认知更新方法(如贝叶斯更新)。这种模型有助于理解雇员任期长度以及雇主与雇员对新职位生产率的不确定性。
e.求职行为
在多期劳动模型中,个体可能面临不同工资水平的工作机会,但并非每期都有机会。如果没有机会或选择不接受,只能依赖非劳动收入或储蓄。一旦获得机会并接受,可能无法同时寻找更好机会,因此个体可能选择等待更优机会。模型可表示为,
每期获得工作机会的概率,通常与个体历史特征有关。求职模型可以用于分析失业救济政策,例如在未获得工作机会或不接受机会时,将非劳动收入扩展为包括失业救济。
求职模型在劳动经济学中应用广泛,可按离散或连续时间建模,也可区分环境是否平稳(无限期且参数不随时间变化)或非平稳(有限期或参数随时间变化)。Flinn & Heckman(1982)率先在连续时间下结构估计无限期平稳模型;Wolpin(1987)在离散时间下估计有限期模型,并引入持续时间依赖;van den Berg(1990)估计非平稳连续时间模型。相关综述可见 Eckstein & Wolpin(1990)、Devine & Kiefer(1991),Taber & Vejlin(2020)整合了结构求职与自我选择文献。
在任何动态模型中,贴现因子 beta 都必须考虑。识别贴现因子有一定挑战,因此实际应用中通常固定为与模型时间单位对应的常规值。但在某些情况下,也可以估计贴现因子,甚至允许其在总体中存在异质性(Sauer, 2004;Arcidiacono 等, 2007;French 和 Jones, 2011)。早期贴现因子估计文献可见 Frederick 等(2002)。近期研究还考虑了动态优化中的时间不一致性,超越传统指数贴现假设(Fang 和 Silverman, 2009;Fang 和 Wang, 2015;Chan, 2017;Mahajan 等, 2020)。
4.时间单位
在动态模型中,一个重要建模选择是时间单位和模型形式:模型是连续时间还是离散时间。如果采用离散时间,需要明确每个时期对应的长度——一年、一月还是一周。而在连续时间模型中,也要说明决策是否可以随时做出,或者即便模型是连续形式,个体决策机会也可能只出现在特定时刻。除了求职行为相关文献外,大多数经验微观结构研究通常使用离散时间框架。连续时间模型的估计方法可参考 Arcidiacono 等(2016)和 Abbring(2012)。
5.选择集合
另一个关键问题是个体的选择变量是离散的还是连续的。连续选择和离散选择各有优劣。离散选择模型通常更适合经验微观经济学,因为很多行为本身是离散的,例如是否工作、是否接受某个工作机会。而当变量本质上是连续的,比如工作小时数,也可以用离散化处理,但需要在测量误差和识别假设之间进行权衡。宏观经济学中更常使用连续选择,但经验微观经济学动态结构模型多采用离散选择,这得益于多位学者的开创性工作(如Rust、Hotz & Miller、Keane & Wolpin)。近些年,也有方法可以处理连续与离散选择的混合情况(Iskhakov 等, 2017;Blundell 等, 2016)。
为了理解离散选择模型的核心特点,可以回到静态工作小时模型,将其简化为二元选择:个体要么工作=1(小时数大于 0),要么不工作=0(小时数为0),
个体观察到自己的工资和非劳动收入,同时了解自身闲暇偏好 。由于选择是离散的,可以定义一个临界值 ,当 时,个体选择不工作;反之,则选择工作。这个模型可以轻松扩展到动态情境,使个体在多个时期中做离散选择。
离散选择模型通常更受青睐,即使某些选择本质上是连续的,也常被离散化。原因在于,连续选择会导致状态空间连续,增加动态模型求解难度,还可能需要插值来得到政策函数。离散选择模型则更容易编码,同时可以利用误差项的分布假设。例如 Rust(1987)指出,当误差项服从第一型极值分布(Type 1 extreme value)时,替代方案的期望最大值具有闭式解,选择概率呈现熟悉的多项式 Logit 形式。
6.状态空间
在任何模型中,无论静态还是动态,明确个体在做决策时掌握的信息非常重要。因为决策不仅依赖当前已知的信息,还要考虑未来可能出现的不确定因素。在动态模型中,这通常通过动态规划来表示,即用贝尔曼方程刻画决策过程。例如,
这里表示状态空间,也就是决策者在做出选择时掌握的全部相关信息。价值函数衡量在当前选择最优且未来各期行为也最优时,剩余效用的期望值。
跟踪状态空间很重要,因为状态变量可能直接影响当前效用,也可能影响未来状态的分布。状态变量可以按两类划分:
1.确定性 vs 随机性:年龄随时间确定性增加,而天气可能随机变化。
2.外生 vs 内生:外生变量不受个体决策影响,如年龄;内生变量依赖过去选择,如劳动经验或子女数量。
动态模型还需描述随机状态变量如何演化,
它表示在当前状态和选择下,下一期状态出现的概率分布。
7.目标函数
在模型中,个体的目标通常是最大化效用。大多数结构模型使用期望效用形式,将各期效用加总并折现,这是最常见的方法。不过,也可以采用其他假设,比如非期望效用理论来处理不确定性,或者允许个体不完全追求未来效用的贴现总和。
虽然绝大多数经验微观结构研究仍基于期望效用、时间一致的动态优化和指数折现,但近年来一些研究借鉴行为经济学理念,允许非期望效用处理不确定性,并考虑时间不一致的前瞻性行为。
8.可观测性
在建模时,需要区分个体能看到的信息和研究者能看到的信息。个体通常知道所有相关情况,比如是否工作、工资水平、当前状态等。但研究者往往只能观察到部分信息,像个体的闲暇偏好就无法直接看到。这种差异在模型设计和估计中非常重要,因为它决定了哪些行为可以被解释,哪些需要通过假设或分布来处理。
9.可观测异质性
个体在效用函数U、工资函数w等方面可能因可观测特征X不同而表现不同。在动态模型中,也可以让状态转移概率随X变化。不过,这样会增加计算难度,因为需要为每类特征的个体单独求解动态规划问题。因此在选择哪些特征允许变化时,需要在模型复杂度和计算成本之间做权衡。同时,如果部分特征随X变化而其他特征保持不变,通常必须施加排除限制,这对识别非常关键,需要谨慎处理。
10.不可观测异质性
即便考虑了部分可观测异质性,个体间仍可能存在研究者无法观察的差异。例如,不同人对消费和闲暇的权衡可能不同。通过引入不可观测的闲暇偏好 ,静态模型已经部分考虑了这种差异。
在动态模型中,通常将 分为两部分,1.永久性成分:固定不变,个体知道;2.随机冲击:每期可能变化。
即。这种区分有助于更准确地理解个体行为。通常假设有连续密度,而可以用离散类型分布表示,每个个体属于类型,概率为 Pr(k)。这些类型及其概率是模型必须估计的结构部分。
11.函数形式
理论上,希望对结构函数(如 U())不做任何假设,但实际研究几乎总需要一些函数形式假设。原因有两个:

1.数据有限,无法完全非参数化处理;
2.结构模型常用于数据支持范围之外的外推,需要假设函数形式。
例如在劳动供给模型中,可以用如下效用函数,
其中捕捉个体对工作的不可观测厌恶程度。
12.分布假设
理想情况下,不必对随机结构 G 做任何假设,可以使用非参数方法,但实际操作中通常需要分布假设。例如可以假设服从双变量正态分布,
如果,工资就会在劳动供给函数中成为内生变量,也就是说 。
1.4 结构模型的识别问题
结构模型的核心问题是识别,也就是说,给定一个模型 M()=0,是否存在唯一的结构参数 (F, G) 能生成观察到的数据分布 Pr(Y,X)。如果存在两组不同的结构参数 (F’,G’) 和 (F”,G”) 都能得到相同的观测分布,那么模型就是未识别的。
简言之,识别就是问,能否仅凭可观测变量 (X,Y) 的联合分布,以及模型假设和其他辅助条件,唯一确定结构参数。
由于结构模型形式多样,这里无法覆盖所有识别问题。早期研究中,French 和 Taber 利用 Roy 模型进行识别分析;Chiappori 和 Mazzoco 讨论了家庭内部资源分配模型的识别问题;Keane 指出,简单静态多项式 Probit 模型的识别较脆弱,这在多重离散选择模型中尤其明显。
过去 25 年,动态结构模型的识别取得了显著进展,重要成果包括 Rust、Taber、Magnac 和 Thesmar、Kasahara 和 Shimotsu、Hu 和 Shum 等人的工作。Abbring 对这些早期研究进行了系统综述,但该领域仍在快速发展。
近期研究发现,常用识别标准并不能保证所有感兴趣的反事实都能被识别。另一方面,即使模型未能完全非参数识别,一些特定反事实仍可能识别出来。
尽管理论上可以用形式化方法证明识别(如 Matzkin 提出的方法),实际应用中,由于模型高度非线性、结构复杂,正式证明往往很困难。因此,研究中通常采用直观或启发式方法。举例来说,小的标准误有时被视为局部识别的迹象。在最大似然估计中,如果标准误很小,说明似然函数在极大值附近变化很快,几乎没有其他参数组合能产生相同结果。矩估计方法中,如果矩向量的雅可比矩阵不可逆,则说明局部识别失败。
另一种常用方法是敏感性分析。观察结构参数的微小变化是否对模型矩有影响。如果某个参数的变化不会影响任何矩,说明该参数未被识别。虽然这种方法能提供一定的直观判断,但逐个参数检验无法证明全局识别。
还有一种验证识别的方法是蒙特卡洛模拟。通过模拟实验,研究者可以复现经验环境,检验估计策略是否能够从不同初始值中识别出真实参数,从而对识别提供直观的验证。
1.5 结构模型的估计
结构模型的估计方法会根据模型设计和可用数据有所不同。同一个模型可以用多种方法进行估计,这里不涉及具体技术细节,而是介绍常见思路。本文关注的是参数化结构模型,也就是说,模型中的结构特征F已用具体函数形式表示,同时对随机部分G做了分布假设。估计的目标是确定参数向量θ = F, G的取值,其中F包含模型结构函数的参数,G则包括随机变量的分布参数,例如不可观测异质性的分布。
与其他模型类似,微观经济行为的结构模型主要用来预测在给定外生变量 条件下,个体的行为选择。在微观数据上进行估计时,常见两类方法:
1.假设模型完全正确,差异来自测量误差
这种方法认为观测数据与模型预测的差异主要是数据噪声或测量误差造成的。换句话说,个体行为严格遵循模型,只是数据记录有偏差。
2.考虑结构性的不可观测异质性
这种方法认为,即便模型形式正确,个体之间仍存在无法观测的差异。例如在劳动供给模型中,每个人对工作的厌恶程度不同,这种偏好计量经济学家无法直接观测,但个体自己完全清楚。即使外生变量相同,不同个体也可能做出不同选择。
在实际应用中,第二类方法更常用。它允许模型解释个体行为的差异,而不把所有差异都归因于数据错误。测量误差方法存在,但通常仅在特定场景或作为补充使用。
1.5.1 经典估计方法
在结构模型中,常用的估计方法主要有最大似然法(ML)和广义矩法(GMM)。这里不深入技术细节,而是说明它们在结构模型中的基本思路和应用方式。
由于结构模型通常高度非线性,参数无法直接解出,只能通过迭代搜索找到最优值。对于涉及前瞻性行为的动态模型,每次尝试参数时都需要求解动态规划;对于博弈模型,还必须找到均衡解。这使得估计过程往往耗时较长。
最大似然法 最大似然法的核心思想是:给定观测数据,找到最有可能生成这些数据的参数。把观测数据固定,把参数视为变量,构建似然函数,然后寻找使似然最大化的参数。通常会用对数似然函数来简化计算。
如果样本中各个体独立,整体似然函数可以写成每个个体似然的乘积。在实践中,模型一般关注条件于外生变量的内生变量的分布。例如在劳动供给模型中,观察到的变量可以是工时和工资,外生变量包括收入和教育。每个观测的似然贡献就是条件于外生变量下,工时和工资出现的概率。
对于离散选择问题(例如是否工作),需要对不可观测的个体偏好积分,以计算选择某个选项的概率。假设效用函数为,
其中,。
这种方法可以扩展到更复杂的情形,比如工资内生或者只观测到工作者工资时,需要考虑工资分布和个体偏好的联合影响。
在动态模型中,如果忽略永久性不可观测异质性,并假设误差在各期独立,则总体似然可以表示为各期选择概率的乘积。动态阈值可以通过求解每期的价值函数得到。有限期模型通常从最后一期开始反向递推;无限期模型则通过贝尔曼方程求固定点。相关算法和实现可以参考 Rust (1996) 以及 Keane 等 (2011) 关于劳动经济学有限期模型的反向递推方法。
基于矩的方法估计
除了最大似然法,结构模型还可以用矩方法(method of moments, MOM)或广义矩方法(GMM)来估计。这类方法通常使用的数据和信息比最大似然少,计算也更简单,有时还可以避免对随机变量的分布做严格假设。
矩方法的基本思路是利用矩条件,也就是模型在真实参数下应该满足某种平均关系,。
这里的 theta 表示模型的真实结构参数。如果只有一个矩条件但需要估计多个参数,可以引入外生工具向量Z,扩展矩条件,使得。
举例来说,如果工资 w、外生变量 X 和非劳动收入 I 被视为外生,工具向量可以选。
当矩条件数量恰好等于参数数量时,模型称为恰好识别,可以直接通过平均矩条件求解参数,。
如果矩条件数量大于参数数量,则使用 GMM,通过加权最小化矩条件偏差来估计参数,
这里的W是加权矩阵,用来平衡不同矩条件的重要性。
在劳动供给模型中,如果工时是连续变量,可以利用最优工时的一阶条件构建矩条件。即使无法解析求解最优工时,也可以通过 GMM 利用条件来估计参数。如果工资和非劳动收入是外生的,还可以用工具向量扩展矩条件,方便参数识别。
对于离散选择模型(比如是否工作),矩方法同样适用。可以把离散选择问题写成。
由于是二元变量,上式等价于。
这样就把离散选择问题嵌入矩条件框架,实现结构参数的估计。
基于模拟的方法估计
基于模拟的方法在结构模型估计中越来越常用,尤其是在传统方法难以操作时。其基本思路是通过模拟生成模型预测结果,然后与实际数据对比,从而找到合理的参数。
这种方法特别适合以下情况,
模型中选择项很多,直接计算每种选择的概率很复杂;某些选择或状态缺失,需要积分求期望,而模拟更容易处理;数据来自多个来源时,可以通过模拟重新加权,让不同数据源对应同一总体。
在操作上,每尝试一组参数,就先用模型生成模拟数据。然后,比较模拟数据的特征(例如平均值、方差或选择概率)与实际观测数据。如果模拟结果与观测数据接近,就说明该参数可能比较合理。经典方法包括模拟最大似然和模拟矩法,也有间接推断方法。
现代拓展还包括,
利用平滑模拟,提高梯度优化算法的稳定性;结合机器学习,通过让判别器无法区分模拟数据和真实数据来估计参数;在动态模型中,使用动态矩捕捉时间演化的行为。
以劳动供给模型为例,如果想估计个体选择工作的概率,可以用模拟方法近似,
1.从个体的偏好分布中抽取多个样本;
2.对每个样本计算个体在工作或不工作两种情况下的效用;
3.记录在多少样本下个体选择工作,比例就是模拟得到的工作概率。
直观上,这个概率反映了在大量可能偏好下,个体选择工作的频率。
模拟方法的优点是灵活、易于实现,尤其适合复杂模型和数据缺失问题。同时,也可以用来计算标准误,从而评估估计的不确定性。
间接推断
间接推断是一种新型估计方法,适合结构复杂的模型。它的基本想法是:不直接从结构模型求参数,而是先用一个容易处理的辅助模型描述数据特征,再通过模拟调整结构模型参数,让生成的数据尽量与辅助模型的结果一致。
操作流程可以这样理解,
1.用实际观测数据估计辅助模型,得到参数集合。辅助模型通常描述内生变量和状态变量之间的关系,可以是线性或非线性回归,也可以使用差分-差分或工具变量方法。辅助模型主要是统计描述,不涉及因果解释。
2.给结构模型的参数一个初步猜测。
3.根据这个参数求解结构模型,计算个体在不同偏好下的最优选择,比如离散选择模型的阈值,或连续选择模型的一阶条件。
4.从个体偏好分布中抽取多个样本,生成模拟偏好。
5.根据模拟偏好计算每个个体的选择,并把所有模拟结果组合成一个数据集。
6.在模拟数据上估计与实证数据相同的辅助模型,得到模拟参数。
7.比较实际数据的辅助模型参数和模拟数据的参数。如果差异较大,调整结构参数并重复以上步骤,直到模拟结果与实证数据尽可能接近。
通俗地说,间接推断就是通过模拟,让结构模型生成的数据在统计特征上尽量像真实数据,从而找出最合理的模型参数。
1.5.3 未观测异质性
在结构模型中,未观测异质性用来解释不同个体行为的差异。常见方法有几种:
1.离散类型方法最常用的方法是假设个体属于有限数量的类型,每种类型对应一套不同的结构参数。这种方法最早由 Heckman 和 Singer 提出,并被广泛应用于各种结构模型。估计时,需要同时求出每种类型的概率和该类型的结构参数。
以动态离散选择模型为例,假设个体有K种类型,每种类型对工作的厌恶程度包含一个固定的永久性成分和一个每期随机冲击,。
在面板数据中,这种永久类型会导致个体跨期选择相关。如果随机冲击在不同个体和时间上独立,那么给定类型 k 时,每个个体的选择历史概率可以表示为跨期概率的乘积。整体似然则通过对所有类型的概率加权求和,再对整个样本求乘积。
动态模型中,如果状态转移概率也依赖类型,计算会变得更复杂。为此,Arcidiacono 和 Jones 提出了改进的 EM 算法,将估计拆成迭代步骤:先估计转移参数,再估计偏好参数,同时更新类型概率,从而节省计算资源。通常从 2–3 种类型开始,逐步增加,直到似然函数不再明显改善。
2.连续分布方法另一种做法是假设结构参数在总体中连续分布,比如多元正态分布。估计时需要对未观测异质性积分,通常通过模拟完成。这种方法精度高,但计算量大,所以在实际应用中离散类型方法更常用。
3.未观测因子方法通过引入未观测因子,将模型不同部分联系起来。例如,一个因子可以同时影响选择方程和结果方程,引入行为相关性。这对于处理内生性问题特别有用。
4.初始条件问题当行为发生在样本开始之前,初始状态可能不是外生的。常用做法是让未观测类型的概率依赖可观测的初始条件,从而调整模型的起点。
5.并行计算与加速估计利用并行计算,可以先在不同参数下求解动态规划,再在估计过程中只重新加权而不重新求解,大幅降低计算成本。这类方法最初用于工业组织研究,但在其他结构模型估计中同样适用。
总体来看,未观测异质性方法为解释个体差异、提高模型拟合能力提供了灵活手段,但需要在计算成本和模型复杂性之间进行平衡。
1.5.4 条件选择概率(CCP)估计
在动态离散选择模型中,如果状态变量很多,直接求解动态规划往往非常耗时,操作起来也很困难。Hotz 和 Miller 提出了一种简化方法,叫条件选择概率(conditional choice probability, CCP)。
CCP 的核心是:在给定状态下,个体选择某种行动的概率可以直接从数据中估计出来。利用这些概率,在估计结构参数时,就不必每次都求解复杂的动态规划,从而大幅降低计算成本。后来,研究者们对 CCP 方法进行了多种扩展,使它在实际应用中更加灵活。例如,有的考虑了总体冲击,有的将方法用于世代模型,甚至可以同时处理离散和连续选择。
最初,CCP 方法无法处理前面提到的未观测类型问题,但后来有人提出了扩展方法,使得在包含未观测异质性的模型中也能使用 CCP。大多数方法假设未观测因素可以加性分离,但也有研究扩展到不可分离的情况。
需要注意的是,CCP 方法虽然能大幅减少估计时的计算量,但在估计完成后,如果希望用模型评估政策变化或预测行为,仍然需要在估计参数下求解一次模型。
CCP 方法提供了一种在复杂动态选择环境下既高效又灵活的估计思路,是动态结构模型中非常实用的工具。
1.5.5 测量误差
在结构模型估计中,还有一种处理方法是假设模型本身是正确的,也就是说,可观测变量已经包含了个体决策的主要信息。如果模型在个体层面的预测与实际数据不一致,这种差异就归因于微观数据中的测量误差。
这种方法可以解释为什么具有相同特征的个体工资会不同,甚至工资相同的情况下,工作时长的选择也会有所差异。与依赖结构性未观测异质性(例如个体偏好差异)的方法不同,这里认为偏差主要来自数据本身,而不是模型中缺失的随机因素。
使用测量误差方法时,需要对误差进行适当约束。测量误差不能过于自由,否则模型即便简单或不完善,也可以通过灵活的误差来“凑合”匹配数据。常见做法是假设观测值等于真实值加上测量误差,
然后给测量误差设定分布,并与结构参数一起估计,例如使用最大似然法。这样估计出来的结果既反映个体主要行为规律,也考虑了数据中的偏差,使模型预测与实际数据更一致。
早期研究应用了这种方法来处理工资测量误差,例如 Wolpin(1987)、Eckstein 和 Wolpin(1989a)、Stern(1989)。对离散选择变量的测量误差处理较少,但 Keane 和 Wolpin(2001)不仅允许离散选择分类存在误差,还同时处理工资和资产等连续变量的测量误差。
1.6 结构模型的验证
完成结构模型估计后,需要检验模型是否能够合理反映实际数据。常见做法是通过表格或图形,将模型预测的选择和结果与观测数据进行比较。与宏观经济学通常依赖聚合数据不同,微观结构模型可以进行更细致的验证。除了比较均值和标准差,还可以检查协方差或其他统计特征。原则上,任何可以从微观数据计算出的统计量,都可以与模型模拟或解析计算结果进行对比。
更严格的验证方法是样本外验证,也就是用没有用于估计的数据检验模型预测能力。不同于机器学习中随机抽取验证样本,结构模型的样本外验证通常关注激励环境的变化。例如,可以用面对复杂税收或转移支付环境的个体数据,检验在简化环境下估计的模型预测是否仍然准确。如果模型在不同环境下也能较好地模拟行为,就说明估计结果更可靠。
关于样本外验证的更多内容在“前沿进展: 准自然实验方法与结构估计方法的整合, 你的论文也可以这样借鉴.”讨论,同时结合结构模型与实验或准实验方法的整合进行说明。
可以进一步到社群交流讨论计量问题。 关于结构估计1.最新: 我国学者研究美国问题发AER,关键都不在美国工作, 结构估计, 政策反事实, 实证策略. 2.宋铮等这篇文章终于在TOP刊发出来了! 标题太有趣. 交叠DID, 事件研究法, 结构估计, 引力模型测度,3.有趣! 经济学各领域实证方法的横向比较和纵向演变, 为啥有的领域用结构估计, 但其他领域不呢?4.AER来了! 香港房地产市场与港府2047年土地租约, 结构估计与DDD, PSM, 交互项机制! 5.量化空间经济学的方法: 从简约式到结构式估计,6.浙大和上交发了TOP5! 事关中国土地与劳动力流动问题, 结构估计与面板数据!
7.最新TOP5: 历时超过5年首次实证评估中国产业政策+结构估计!8.对Wolpin极为失望! 批评简约估计现状没用, 推销结构估计也徒劳, 批评只会让简约团结起来!9.气不过直接写书抨击简约式估计, 这位TOP刊主编为结构估计呐喊和战斗到底!10.经验研究方法三大武器: 简约估计, 结构估计与机器学习,11.昨日教授强调结构式估计, 但他最新基于DID的简约式估计的研究毫无违和感,12.博士必读: 迈向基于实证设计的因果推断, 结构估计与因果推断之间的相似之处!13.结构估计和简约式估计区别的一个讲义,14.阿里巴巴效应: 结构模型与简约估计结合的典范
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle