缘起

找工作的间隙没心思写论文,整理了以前攒的数据。

在实证研究中,为确保行业分类标准在时间序列上的一致性,我们通常需要对不同版本的《国民经济行业分类》代码进行匹配和统一。这在处理跨度较长的微观数据库时尤为重要。

以当前广泛使用的工企库为例,该数据库跨度为 1998-2013 年,期间采用了三个不同版本的行业分类标准:

  • 1998-2002 年:采用 1994 版《国民经济行业分类》
  • 2003-2012 年:采用 2002 版《郭明经济行业分类》
  • 2013 年:采用 2011 版《国民经济行业分类》

同样,税调也存在类似问题,涉及 2002 版与 2011 版标准的并存。

现有文献的通行做法是将其他版本的行业代码统一转换至 2002 版。具体路径如下:

  1. 从 1994 版到 2002 版的转换

该过程已相对成熟。这主要得益于 Brandt et al. (2012) (以下简称 BVZ) 的重要工作,他们构建并公开了一套完整的制造业四位数行业代码的对照表。我们可以使用 BVZ 提供的数据,将 1994 版代码映射至 2002 版。

  1. 从 2011 版到 2002 版的转换

对于此转换路径,目前尚无类似 BVZ 提供的权威现成方案。因此,我们需要自行构建转换关系。当前的主流方法是借鉴 BVZ 的处理思路,并依据国家统计局发布的《2011 国民经济行业分类注释》,手动建立 2011 版和 2002 版四位数代码之间的对应关系。

基础数据准备与核验

在正式进行代码转换前,我们需要准备并核验基础数据。具体来讲,我们需要拿到以下两套关键资料:

  1. 三套完整的行业代码名录

即 1994 版、2002 版和 2011 版《国民经济行业分类》的完整代码与名称列表。感谢颖宝提供这部分数据。

  1. 官方版本新旧对照表

这些对照表是连接不同版本行业代码的桥梁,通常作为附录收录在《国民经济行业分类》中。我们主要涉及两张对照表:

  • 2002 版 vs 1994 版:其新旧类目对照表位于《国民经济行业分类》(GB/T 4754-2002) 的附录 B,第 52 页起
  • 2011 版 vs 2002 版:其新旧行业类目对照表位于《2011 国民经济行业分类注释》的附录 3,第 473 页起。

需要说明的是,《2011 国民经济行业分类注释》同时提供了新旧 (附录 3) 和旧新 (附录 4) 两份对照表。由于旧新对照表缺乏说明列,所以我们还是以新旧对照表为准。

在获取上述数据后,我们首先对数据进行核验,以确保我们所用代码名录的准确性和完整性。我们从 1994 版行业代码开始:

     一级行 |
   业代码_I |
 ndCd1_1994 |      Freq.     Percent        Cum.
------------ -----------------------------------
          A |         16        1.89        1.89
          B |         53        6.26        8.16
          C |        544       64.30       72.46
          D |         10        1.18       73.64
          E |          8        0.95       74.59
          F |         15        1.77       76.36
          G |         22        2.60       78.96
          H |         67        7.92       86.88
          I |         11        1.30       88.18
          J |          3        0.35       88.53
          K |         36        4.26       92.79
          L |         17        2.01       94.80
          M |         25        2.96       97.75
          N |         12        1.42       99.17
          O |          5        0.59       99.76
          P |          2        0.24      100.00
------------ -----------------------------------
      Total |        846      100.00

观察其各门类的频数和合计数,可以发现与官方一致,所以是准确无误的。

同样对比 2002 版:

     一级行 |
   业代码_I |
 ndCd1_2003 |      Freq.     Percent        Cum.
------------ -----------------------------------
          A |         38        4.16        4.16
          B |         33        3.61        7.78
          C |        482       52.79       60.57
          D |         10        1.10       61.66
          E |         11        1.20       62.87
          F |         37        4.05       66.92
          G |         14        1.53       68.46
          H |         93       10.19       78.64
          I |          7        0.77       79.41
          J |         16        1.75       81.16
          K |          4        0.44       81.60
          L |         27        2.96       84.56
          M |         23        2.52       87.08
          N |         18        1.97       89.05
          O |         16        1.75       90.80
          P |         13        1.42       92.22
          Q |         17        1.86       94.09
          R |         29        3.18       97.26
          S |         24        2.63       99.89
          T |          1        0.11      100.00
------------ -----------------------------------
      Total |        913      100.00

以下是官方的数据,各门类和总数都完全一致。

最后是 2011 版:

     一级行 |
   业代码_I |
如何统一国民经济行业分类代码?
      ndCd1 |      Freq.     Percent        Cum.
------------ -----------------------------------
          A |         60        5.48        5.48
          B |         37        3.38        8.87
          C |        532       48.63       57.50
          D |         12        1.10       58.59
          E |         21        1.92       60.51
          F |        113       10.33       70.84
          G |         40        3.66       74.50
          H |         12        1.10       75.59
          I |         17        1.55       77.15
          J |         29        2.65       79.80
          K |          5        0.46       80.26
          L |         39        3.56       83.82
          M |         31        2.83       86.65
          N |         21        1.92       88.57
          O |         23        2.10       90.68
          P |         17        1.55       92.23
          Q |         23        2.10       94.33
          R |         36        3.29       97.62
          S |         25        2.29       99.91
          T |          1        0.09      100.00
------------ -----------------------------------
      Total |      1,094      100.00

拿到的数据也与官方公布的数据完全一致。

上述对比可知,我们拿到的三版行业代码名录与官方发布的内容完全一致。

这里也可以得到一个重要的启示:在处理工企库或税调数据时,如果发现数据中四位数行业的类别数量比官方公布的还多,这可能意味着数据存在代码误记、录入错误或分类标准混淆等问题,需要进行审查和修正。

考虑到多数研究主要聚焦于制造业,且为了减少工作量,我们接下来的内容仅集中讨论制造业四位数行业代码的跨版本转换。

BVZ 的转换方法论

BVZ 提供了公开的 1994 版至 2002 版的代码转换数据,这为我们提供了一个绝佳的范例。通过逆向工程他们的转换结果,我们可以提炼出其处理行业代码变更的基本原则,并进一步将这些原则应用到处理 2011 版的转换中。

在行业代码的转换中,主要存在以下四种对应关系:

  1. 一对一映射

这是最简单的情形,指一个旧版行业代码被一个新版代码直接替代,行业内涵和边界未发生实质性变化。处理方式是直接进行代码替换。如以下情形:

  1. 多对一映射

指多个旧版行业合并成一个新版行业。例如,1994 版中的甘蔗糖业、甜菜糖业和加工糖业,在 2002 版中被统一合并为制糖业。处理方式是将所有旧代码下的企业统一归如新的行业代码:

  1. 一对多映射

指一个旧版行业被拆分注入到多个新版行业中。例如,1994 版的其他水产品加工业,在 2002 版中被细分为鱼油提取及制品的制造和其他水产品加工。

为保证时间序列上行业定义的一致性,BVZ 在此处采取了向上归并的策略。他们没有保留更精细的新分类,而是将所有拆分出的新代码统一到一个代表性的代码下 (此处为 1364)。这种处理牺牲了部分行业的粒度,但换取了跨时期可比性。

BVZ 转换数据也印证了这一点。其中 cic02 代表 1994 版代码,cic03 代表 2002 版代码,而 cic_adj 是经过调整后用于最终分析的协调化代码。

cic_adj	cic03	cic02
1364 1369 1359
1364 1364 1359
  1. 多对多映射

这是最复杂的情形,涉及多个旧版行业与多个新版行业之间的交叉、重组的复杂关系。例如,下图展示了 1994 版 的 2031、2033、2073 等行业,与 2002 版的 2031、2032、2039、2663 等行业之间存在犬牙交错的对应关系。

面对这种模糊性,BVZ 采用了与一对多情况一致的归并策略。他们找到了这些相互关联的代码所能归属的最小共同上级行业,并将所有涉及的代码全部统一到该上级行业的代码下。在上面的例子中,BVZ 就将全部代码统一为 2031。

cic_adj cic03 cic02
2031 2663 2673
2031 2032 2031
2031 2039 2031
2031 2032 2033
2031 2031 2031
2031 2039 2673

在深入理解了 BVZ 这套处理复杂对应关系的逻辑后,我们就可以将其作为方法论基础,着手处理 2011 版到 2002 版的代码转换工作。

2011 版转换 2002 版

现在,我们将前面提炼出的 BVZ 方法论,应用于 2011 版新旧行业类目对照表,以构建我们自己的转换方案。分析该对照表后,我们同样会遇到四种映射关系。

  1. 一对一映射

此种情况最为直接,新旧代码仅有年份标识的差异,行业内涵不变。我们只需要在数据处理中建立直接的等同关系即可:

  1. 一对多映射

指一个 2002 版行业,在 2011 版中被进一步细分。例如,2002 版的畜禽屠宰,在 2011 版中被拆分为牲畜屠宰和禽类屠宰。

遵循 BVZ 的向上归并原则,为了维持与 2002 年及以前数据在行业定义上的可比性,我们需要将 2011 版中更精细的两个行业 (1351 和 1352) 重新合并,并统一对应回 2002 版的父级代码 1351。

  1. 多对一映射

指多个 2002 版行业,在 2011 版中被合并为一个行业。例如,2002 版的饲料加工、肉制品及副产品加工,在 2011 版中共同归属于饲料加工这一项。

应用 BVZ 逻辑,为确保基准 (2002 版) 的统一性,我们需要将源头端的 2002 版行业也视为一个整体。即在最终的协调化代码体系中,将它们统一到一个代码下 (即 1320),以便与 2011 版进行匹配。

  1. 多对多映射

多对多映射的处理最为复杂,有时需要通过多次归并才能结局。以下是一个典型的迭代归并案例:

  • 第一轮归并

如下所示,我们发现 2002 版的 1761、1762、1763、1769,和 2011 版的 1761、1762、1763 存在复杂的交叉关系。应用 BVZ 原则,我们将这个集合内的所有代码统一协调至一个代表性代码,即 1761。

同样地,2002 版的 1751、1752、1753、1754、1759,和 2011 版的 1771、1772、1773、1779 也构成了独立的复杂映射。我们将这个集合内的所有代码统一协调至另一个代表性代表,即 1751。

  • 第二轮归并

在初步处理后,1751 和 1761 这两个协调代码所代表的行业簇,在逻辑上似乎是独立的。然而,对照表的进一步揭示了一个隐藏的关联:

2002 版的 1751、1761、1762、1763、1769、1830,和 2011 版的 1820、1930 又构成了新的交叉关系。因此,我们必须进行第二轮、更大范围的归并。

我们将上述三个部分涉及到的所有新旧代码进行合并,统一归属到一个最终的代表性代码下,此处我们选择 1751 (选择 1761 亦可,关键是保持一致性)。

最终,这个庞大的行业簇包括:

  • 2002 版的 10 个代码: 1751、1752、1753、1754、1759、1761、1762、1763、1769、1830
  • 2011 版的 9 个代码: 1761、1762、1763、1771、1772、1773、1779、1820、1830

它们在我们的协调化方案中,都将被统一标记为 1751。

结语

最终,通过对官方新旧对照表的系统梳理,并严格遵循从 BVZ 中提炼出的向上归并原则,我们逐一解决了所有的代码映射问题。在完成这一过程后,我们就得到了一份完整、可靠且逻辑一致的 2011版–> 2002 版行业代表对照表。

感谢颖宝的数据支持,以及和琛哥极富教益的讨论。