GMM方法与动态面板数据——一个简介
2015年8月
在阅读文献中经常看到有使用GMM方法分析动态面板数据,但没有深入研究。最近开始自己用此方法时,感觉很困惑,因为使用此方法的文献中,对方法的原理大多语焉不详。对该方法的适用性,为什么用此方法,以及方法优缺点介绍聊聊几句。因此,通过读文献很难对该方法有全面的把握。
由于时常有学生过来问我怎么用GMM方法处理动态面板数据,不能总是含糊地回答,同时自己也在写这方面的文章,因此找来几本参考书,搜集了大量的文献,详细阅读之后,撰写本文。文中主要内容摘要并整理自Roodman(2009),这是STATA命令xtabond2命令的作者所写的介绍性文章,应该有权威性,如果该文不准确,那么所有使用此命令做的研究将全部失效。同时参考了Cameron and Trivedi(2009)和(Angrist and Pischke,2009)等书籍。本文仅为作者对该方法的理解,如有不妥、疑问或建议请联系:hyang_zhang@163.com。
(一) 为什么要用GMM方法
本文所谓动态面板数据(Dynamic Panel data, DPD)分析,指的是分析中采用如下的回归方程:
Yi,tYi,t1Xituiit (1)
i1,...,N,t1,...,T
其中,Yi,t1是因变量的滞后项,ui是个体i的固定效应。因变量的滞后项和固定效应同时存在,是动态面板数据分析特殊性的关键。如果固定效应不存在,那么回归方程变为:
Yi,tYi,t1Xitit (2)
这时,用OLS或者随机效应模型回归分析即可。如果因变量的滞后项Yi,t1不存在,那么回归方程变为:
Yi,tXituiit (3)
1
对外经济贸易大学金融学院 张海洋
对于该模型,用固定效应模型分析即可。如果因变量的滞后项和固定效应都存在,那么对于(1)式这样的回归方程,如果采用差分方法去掉固定效应,会得到如下的结果
Yi,tYi,t1Xitit (4)
其中Yi,t=Yi,t-Yi,t-1,Yi,t-1=Yi,t-1-Yi,t-2,Xi,t=Xi,t-Xi,t-1,i,t=i,t-i,t-1。如果(1)式代表了真实的变量之间关系,那么Yi,t1和it之间必有相关性,因为:
Yi,t-1=Yi,t-1-Yi,t-2=(1)Yi,t2Xi,t1i,t1,
cov(Yi,t-1,i,t)显然不会等于0,因为两者都有i,t1这一项。
通常所用的固定效应模型实际上就是对(1)式差分,得到类似于(4)式的差分回归方程,然后做OLS。对于现在的情况,由于Yi,t1和it之间的相关性,再用OLS只会得到有偏误的回归系数。所以传统的统计方法无法实现对此类方程的估计,需要用GMM方法。
需要注意的是(2)的模型(包含滞后项的OLS)和(3)的模型(不包含滞后项的FE,固定效应)尽管都有偏误,但好处是一个偏大,一个偏小(具体哪个大,哪个小要看变量之间的关系),所以这两个估计系数应该界定了真实参数的范围(Angrist and Pischke,2009:246页;Roodman,2009)。也就是说,你最后用GMM方法估计出来的参数应该落到这个区间。
(二) 什么是GMM方法
通常所用的OLS等方法,基本逻辑是从计量模型对数据拟合的角度分析,得出最好的估计参数。GMM方法,又称为广义矩方法(Generalized Moment Method),该方法所用的思路与传统思路完全不同。任何计量模型都有一定的适用性,即数据要满足一定的要求。GMM方法的思路是,从计量模型对数据的要求出发,得出一系列矩条件,再根据这些矩条件,求解满足条件的系数。对于大多数计量模型,GMM方法和传统的方法“殊途同归”,得出的回归系数相差不会太远。
1、 线性回归中的GMM方法
以OLS为例,对于回归方程:
2
对外经济贸易大学金融学院 张海洋
YXβε
ˆ=(X'X)(X'Y)。注意到,如果使用OLS模型,数传统OLS模型中,β的估计量βOLS1据有要求,就是自变量X和误差项ε要,也就是说:
E(X'ε)0
这个就是所谓的“矩条件”。把εYβX带入,得到E(X'(YXβ))0,即:
E(X'Y)E(X'X)β
β[E(X'X)]1E(X'Y)
为了得到β的估计量,可以把E(X'X)和E(X'Y)的估计量分别带入,即
ˆ(X'X)1X'X,Eˆ(X'Y)1X'Y ENNˆ得到βGMM(X'X)X'Y,这是和传统的OLS一样的估计量。
12、 工具变量的GMM方法
工具变量方法也可以用矩估计的思路实现。由于过程略复杂,此处仅给出简要步骤,详细的推导可以参考(Roodman,2009)。需要回归的方程为:
YXβε
其中,Z是工具变量,E(ε|Z)0。X(x1,x2...xk),是k个自变量向量,
Z(z1,z2...zj)是j个工具变量向量。相应的,待估计的系数β是k维向量。定义
ˆ,残差项为Eˆ。 ˆYXβEYXβ为误差向量,对于任意估计出来的参数β根据工具变量的含义,它应该和误差项ε:E(Z'ε)0,这就是我们需要的矩条
件。计算的时候,理论上应该利用EN(Z'ε)3
1ˆZ'E0求解,注意到,我们有j个工具N对外经济贸易大学金融学院 张海洋
变量,也就是j个矩条件(j个方程)。理论上,需要根据这j个方程求解k个待估计的参数。但是不幸的是,如果工具变量的数量j小于待估计的参数数量k,方程是不可识别的——通常不可能通过2个方程解出3个未知数。如果工具变量等于待估计的参数,是恰好可识别的,但这种情况在GMM中很难碰到。最常见的是工具变量多于待估计的参数,即jk,这意味着要找k个参数,让j个方程同时等于零。这难度相当大,实际上大多数时候找不到,怎么办呢?在矩估计里面,采用的办法是,找k个参数,让EN(Z'ε)1ˆZ'E和零之间的N距离最小。实际计算的时候,需要借助一个半正定的矩阵A,计算向量EN(Z'ε)的模:
EN(Z'ε)A1ˆ1ˆ1ˆ1ˆˆ Z'EN(Z'E)'A(Z'E)E'ZAZ'ENNNNA,这就要用到一阶条件等于零:
ˆ=argminE(Z'ε)目标变成,寻找参数向量βANAdEN(Z'ε)ˆdA=…=
2ˆE'ZAZ'(-X)0 Nˆ带入,得ˆYXβ计算的过程利用到了连锁规则和向量求导的公式。继续推导,把E到:
ˆ)'ZAZ'XY'ZAZ'Xβˆ'X'ZAZX ˆ0E'ZAZ'X(YXβˆ=(X'ZAZX)1X'ZAZ'Y βA这就是β的GMM估计量,这个估计量是有偏的,它的期望值不等于真实的β;然而它是一致的,当样本量足够大的时候,它会接近真实的β。这个估计量和A有关,但是A只影
ˆ收敛的速度不同。响参数估计的有效性——不同的A对应的参数β这里的A其实是对不同的A矩条件加以不同的权重,可以找到一个收敛最快的A,称为AEGMM,可以证明:
AEGMMVar(zε)1。
4
对外经济贸易大学金融学院 张海洋
对于工具变量法常用的两阶段最小二乘法(2SLS),如果假定误差项是同分布,那么AEGMMVar(zε)=(Z'Z),此时
111ˆβGMM=(X'Z(Z'Z)ZX)X'Z(Z'Z)Z'Y
11这实际上就是传统通过两阶段最小二乘法(2SLS)估计出来的参数,殊途同归。
3、 GMM方法的有效性(Hansen 检验和Sargan检验)
前文已经介绍,使用GMM方法的目标是选择参数,最小化EN(Z'ε)间的距离EN(Z'ε)A1ˆZ'E和零之N。那么问题来了,多小算小呢?会不会是最小值也显著大于零?如果
这样的话,方法的适用性就成问题。也就是说,根据你估计出来的参数,算出的残差项实际上和工具变量不是。Hansen检验和Sargan检验的逻辑就是,以EN(Z'ε)A最小化为目
标,估计出参数,然后把参数带入,看看它是否真的等于零。如果统计上不能拒绝它等于零,则所用工具变量可靠;如果统计上拒绝它等于零,则不可靠。
如果零假设成立(即H0:工具变量是联合有效的),那么EN(Z'ε)布于零附近,它和零的距离应服从分布:
21ˆZ'E应随机分NEN(Z'ε)AEGMM1ˆ1ˆˆZ'EE'ZAEGMMZ'ENNAEGMM2jk
2这就是Hansen统计量,它服从自由度为jk的分布,这里自由度其实就是过度识
别的维度。在实际使用中,不应该显著(p值小于0.1);如果显著,则表明拒绝了零假设,工具变量不是联合有效的。然而,需要注意的是,如果使用的工具变量太多,那么Hansen
2统计量会非常不显著,常常等于1。这是因为,jk越大,意味着分布显著的门槛越高
(请查阅分布的表格)。也就是说,工具变量太多,会让Hansen检验的效果变弱,这是需要注意的。通常Hansen检验的p值大于0.25就要小心了,这时需要考虑减少工具变量的数量。
Sargan 检验的统计量类似,只不过把Hansen统计量中的AEGMM替换成了(Z'Z),即
-125
对外经济贸易大学金融学院 张海洋
SEN(Z'ε)(z'z)11ˆˆE'Z(Z'Z)1Z'EN2jk
然而,该统计量有时候是不一致的,如果在命令中要求报告稳健的Sargan统计量,软件
ˆ;再根会做两阶段GMM估计(先找任意合理的H,令A=(Z'HZ),估计出第一步参数β11ˆˆ,令A=(Z'ˆˆZ),估计出第二部参数βˆ,计算出残差项的方差-协方差矩阵ˆ)据β12,ββ111根据第二步的参数结果,默默报告出Hansen统计量。整体上说,Hansen统计量好像更靠谱一点,所以报告的时候,更多关注Hansen统计量。
(三) 动态面板数据
现在回到我们的动态面板数据,对数据和模型有如下假定: 1) 动态。模型中包含了因变量的滞后项; 2) 有个体的固定效应;
3) 可以有一些自变量是内生的;
4) 除了固定效应之外的误差项it可以异方差,可以序列相关; 5) 不同个体之间的误差项it和jt不会相关。
6) 可以有前定的(Predetermined)但不是完全外生的变量。
7) “大N,小T”,即个体数量要足够多,但时间不用太长。如果时间足够长的话,动
态面板误差不会太大,用固定效应即可。
从上述要求可以看出,GMM方法特别适合宏观的面板数据分析,因为宏观变量中,很难找出绝对外生的变量,变量之间多少会互相影响。而GMM方法可以“有一些自变量是内生的”,这可能也是GMM方法在文献中这么常用的原因。
此前已经说过,不能用传统的OLS方法或者固定效应模型进行动态面板数据的分析,那样会得到有偏的估计量。先要对数据进行一定的变换,然后根据不同的矩条件设定开展矩估计。其中数据变换有两种方法,矩条件的设定也有两种方法。
6
对外经济贸易大学金融学院 张海洋
1、 数据的变换方法:一阶差分还是垂直离差
为了消除动态面板数据中的固定效应,通常用的有两种方法:一阶差分(first difference)和垂直离差(orthogonal deviations)。一阶差分之前已经介绍过了,这种方法是difference GMM 中默认的方法。缺点是如果数据中有缺失值,那么最终的估计会缺失很多样本,原始数据缺一行往往会导致差分后的数据缺两行。一种替代的方案是用垂直离差(xtabond2 命令中用 orthogonal 选项实现),每个变量减去该变量未来所有观测值的平均值,即:
wi,t1cit(wi,t1Titwstis)
式子中,citTit/(Tit1)为调整权重变量,Tit是从t期开始以后观测值的数量。对于非平衡面板,和数据有缺失的面板,这种方法避免了因缺失数据带来的样本损失,因为调整的时候只是把未来的平均值减去,样本数不会因缺失未来个别观测值而受损。然而,对于平衡面板数据,一阶差分和垂直离差估计出来的结果会完全一样。
2、 Different GMM还是 System GMM
令数据变换之后的回归方程变为
Yi,t*Yi,t1*Xit*it (5)
这种变换可以是一阶差分,也可以是垂直离差。Different GMM的逻辑是,如果是垂直离差变换,用Yi,t2作为Yi,t1*的工具变量;如果是一阶差分变换,用Yi,t2作为Yi,t1*的工具变量,此时Yi,t1*=Yi,t1。Xit*对应的工具变量也类似,如果是垂直离差,就用滞后一阶的,如果是差分就用滞后一阶的差分作为工具变量。在实现的时候,为了提高估计的有效性,通常还会加入更高阶的滞后项(滞后差分)作为工具变量。这些变量的加入利用了更多的信息,然而也会带来麻烦,让工具变量的数量随T平方成比例增加。为了控制工具变量的数量,一个选择就是采用collapse选项把这些工具变量变成一列。
如果因变量的变化过程接近随机游走,那么Difference GMM的估计量会有较大偏差。
7
对外经济贸易大学金融学院 张海洋
System GMM的方法和Different GMM完全不同,它不需要对自变量和因变量进行数据变换。它假定工具变量的差分,即wit=witwi,t1,应该外生于固定效应:E(witui)=0。 如果w是内生的,wi,t-1就可以作为工具变量,更高阶的差分也可以做工具变量。如果w是前定的但不是完全外生的,wi,t可以作为工具变量,更高阶的差分也可以做工具变量。当然,更高阶差分加入后,还是会增加工具变量数量,需要在具体计算时想办法控制。
(四) 使用GMM方法的注意事项
可以尝试先做(2)式的OLS,再做(3)式的固定效应。当然这两个估计都是有偏误
的,然而这两个估计的系数应该是真实系数的上限和下限,可以给最后的GMM估计限定参考范围。 “大N,小T”,如果N太小了,则估计出来的标准差可能不太靠谱。实际上如果用
省际面板去做的话,不满足“大N”这个条件,但中文文献中充斥着这样的研究。如果样本的N较小,但还可以接受(比如N=70),然而又想用此方法,那么加上small选项。 解释变量中,放入时间虚拟变量。比如,数据有10年,则放入9个虚拟变量。加入后,
可以让“误差项it和jt不会相关”这个条件更容易满足。
如果数据中间有间隙,尽量利用垂直离差(对于每个变量,包括自变量和因变量,wit减
去它未来值的平均值,就是加上orthogonal选项,见Roodman(2009)),这会减少样本量的损失。因为数据中间缺一行,一阶差分(witwi,t1)后就会缺两行数据。但对平衡面板数据,两种数据变换方法结果一样。
通常,每个自变量都要出现两次(除了系统外的工具变量)。先作为自变量出现在在xtabond2命令中逗号的左边,再以某种形式作为工具变量出现在逗号右边。如果变量w是完全外生的,那么放到ivstyle(w)(表示直接作为工具变量);如果w是前定的,但不是完全外生的,则放到gmmstyle(w)(表示从滞后一期开始都作为工具变量);如果w是内生的,则放到gmmstyle(L.w)(表示从滞后两期开始都作为工具变量)。 报告工具变量的数量。如果按照上一条的做法,工具变量的数量会很多。这样会导致overidentification test 不准确,【一个标志就是Hansen统计量的p值变为1, Hansen test的p值在(0.1,0.25)之外都要小心,太小表明拒绝工具变量有效的假设,太大表明选的工具变量太多,hansen检验变弱了】。通常,需要工具变量数量,可以用collapse选项,也可以用laglimits()选项。习惯做法是,选择不同数量的工具变量以显示估计系数的稳健性。工具变量数量的上限就是模型中个体的数量(也就是N),超出此上限,xtabond2命令会报警。 使用system GMM的时候要注意,能使用该模型的前提是,工具变量的变化witwi,t18
对外经济贸易大学金融学院 张海洋
要和固定效应垂直。因此数据应该在稳态附近,否则这些变量的变化就会和固定效应关系比较大,从而不满足system GMM适用的条件。
由于GMM方法有很多设定选项,在报告结果时,报告你的选项。System GMM 还是
Difference GMM;是用垂直离差还是一阶差分;选用什么工具变量,滞后几期;选择什么样的robust标准差,等等。
参考文献
[1] Angrist, J. D. and J. Pischke , Mostly Harmless Econometrics. Princeton, New Jersey: Princeton
University Press, 2009.
[2] Roodman, D. , \"How to Do Xtabond2: An Introduction to Difference and System GMM in Stata\
The Stata Journal, 2009, 1( 9), 86-136.
9
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- ovod.cn 版权所有 湘ICP备2023023988号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务