搬运面板数据分析中标准误的估计修正根 - 潍坊市

TUhjnbcbe - 2021/5/31 17:03:00

福州白癜风医院 http://pf.39.net/bdfyy/zjft/180509/6223398.html

★知识点播：面板数据，即PanelData，也叫“平行数据”，是指在时间序列上取多个截面，在这些截面上同时选取样本观测值所构成的样本数据。其有时间序列和截面两个维度，当这类数据按两个维度排列时，是排在一个平面上，与只有一个维度的数据排在一条线上有着明显的不同，整个表格像是一个面板,所以把paneldata译作“面板数据”。但是,如果从其内在含义上讲,把paneldata译为“时间序列—截面数据”更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS-CS数据（TimeSeries–CrossSection）”。

面板数据（paneldata）分析是实证金融领域研究者经常用到的方法。在很多面板数据中，残差（residual）往往会和时间序列或企业相关，从而导致了普通最小二乘估计（OLS）中标准误（standarderrors）的偏误。，美国西北大学金融学教授Dr.MitchellPeterson于年在ReviewofFinanceStudies发表了”EstimatingStandardErrorsinFinancePanelDataSets:ComparingApproaches”的文章，在学术界颇有影响。其在文章中比较了不同标准误的算法对于处理面板数据回归分析中不同类别的估计偏误的效果，并对各种类型的偏误提出了指导性的建议。笔者在学习之余，基于个人的理解，试图精简、通俗地归纳Peterson文章的要义，供学界同仁参考、探讨与指教。但出于版权考虑，此处不附Peterson的原文。众所周知，在进行标准二乘线性无偏估计的时候，我们假设残差项是独立同分布的（independentandidenticallydistributed,i.i.d.）。而一旦此假设在实际数据中被打破，则估计就会出现偏误（bias）。Peterson指出，在过去的很多实证金融文献中，很多研究者实际上并没有正确地选择合适的方法，根据残差项与时间或者企业的相关性来修正标准误，或者他们只是盲目地跟从在他们之前其他文献中的方法来修正偏误，而事实上这可能完全是互相误导。错误的标准误会导致在判断变量显著性的时候给出不可靠甚至错误的结论，从而使得研究的可信度大打折扣。Peterson在文章当中对不同的面板数据结构所应采用的标准误估计方法做出了考察和比较。在下文中，我将延续Peterson的文章思路，针对不同面板数据的结构进行总结与归纳。为编辑方便以及提高文章可读性，我省略了数理推导，而改用文字直接阐述逻辑及结论。

1.只具有“企业固定效应”（firmfixedeffect）的面板数据首先我们明确什么叫企业固定效应。面板数据一般是二维的，具有时间和对象两种要素。对象可以是个人、企业、国家等等。为了简化文义，我们将对象改称为企业，因为这也是金融实证数据中最为常见的对象。企业固定效应指的是，在面板数据的时间维度上，每一个个体企业都具有一个特有的特征能影响被解释变量，而且这个特征会在整个时间维度上伴随着这个企业，并且独立于其他企业，换言之，不受其他企业影响。比如某个企业的管理能力是伴随着这个企业的一个特征，它不受其他企业影响，并且在有限的时间维度内可以假设不变。Peterson指出，在这种情况下，OLS的标准误会被低估，因为每一个额外观测值所能提供的真实信息量要小于OLS模型所假设具有的信息量。在这种情况下，研究者应采用群集标准误（clusteredstandarderrors），并且根据企业来群集。简单地讲，企业群集标准误把同一个企业的变量在不同的时间点可能存在的相关性考虑进去了，从而提供一个修正了的标准误。Peterson的论证指出，企业群集标准误在处理具有企业固定效应的面板数据中的有效性是突出且可靠的。除此之外，采用其他方法来估计标准误可能会有潜在的问题产生。比如，OLS估计的标准误会是有偏的，至于偏误多少，则取决于残差和变量存在多大的相关性。又如，用Fama-MacBeth两阶段回归的方法也会产生偏误（标准误被低估），而且因为F-M方法的计算手段的关系，F-M会比OLS具有更大的偏误。F-M的方法是被设计用于考虑横截面相关的（在同一时点上不同观测对象之间的相关性），而非序列相关（同一观测对象在不同时点上的相关性），因此用在这里不合适。再如，用Newey-West的方法也会造成标准误的低估。Newey-West的方法在于只考虑在同一群集内滞后期的残差之间的相关性，而最大的滞后期是比面板数据所提供的时间维度小1。Peterson的实验发现，随着滞后期的上升，Newey-West的偏误会逐渐减小，但因为最大滞后期的限制，其永远无法消除估计上的偏误。

2.只具有“时间效应”（timeeffect）的面板数据

同样的，先明确什么是时间效应。简而言之，指的是在同一时点上的不同企业的变量之间存在着相关性。这可能由比如宏观经济状况等某种外部因素所导致的，而这种因素会影响同一时点上的所有企业，但在跨时期中会出现独立变化。Peterson发现，当面板数据存在时间效应时，普通最小二乘估计依然会低估标准误。而根据时间来群集的群集标准误则可以提供相对准确的估计，但这只局限于当时间维度（即面板数据可提供的时点数）很大的时候。比如，当数据中只有很少的几个年份的时候，群集标准误也显得不够准确。Peterson指出，在这种仅有时间效应的情况下，最理想的方法应当是采用Fama-MacBeth两阶段回归法来估计标准误。简而言之，先对每一个企业的时间序列进行回归，得到beta系数后，再将beta系数作为已知变量再进行横截面数据的回归。这种方法的要义在于，通过第一步来得到每个企业受各个变量影响而导致的超额收益，而其中还有一部分没有观测到的影响因素则受时间变化而变化，因此在第二步的回归中，对同一时点上的所有企业做横截面数据回归，从而找出这些因素的影响，而这就是时间效应之所在。3.同时具有“企业效应”和“时间效应”的面板数据根据前文所述，如果研究者有足够的把握选取某一种方法（群集标准误或者F-M法）来估计标准误，他必须要保证面板数据只存在企业效应或者时间效应，而非同时存在两种效应。但往往这是一种太过于理想化的假设。Peterson指出，一种最通常的方法是：对某一个维度使用虚拟变量（dummyvariable），然后使用另一维度的群集标准误。一般在研究中比较常见的是，对时间取虚拟变量，然后做企业的群集标准误，因为一般的面板数据都具有许多个企业，但未必有足够多的时间点用来做时间群集标准误。再者，也可以在两个维度上做群集，只要每个维度的数量足够多。在这种方法上，Thompson（）提出了一种简便的算法，即：V_{firmtime}=V_{firm}+V_{time}-V_{white}二维标准误=企业群集标准误+时间群集标准误–稳健标准误其中稳健标准误即为怀特标准误（Whitestandarderrors），也是在处理异方差时最常用的稳健标准误。

4.结语以上是面板数据中最基本的几种效应的处理方法，但在实证中，有些情况会比较复杂。比如Peterson提到，有些时候企业效应是暂时性的，即随着时间的推延，某些影响因素会渐渐消退。广义线性估计（GLS）可以比较有效地估计随机效应模型，但是如果残差间的相关性随着时间变化而消退，那么GLS的估计可能也是有偏的。对此，Peterson提出使用调整了的F-M方法来进行处理，但前提是残差间相关性的消退应比较迅速，并且面板数据的时间维度要足够充足。此外在实证研究中，研究者还可以对使用不同群集所产生的标准误的估计进行简单的比较，从而判断出数据中主要的效应是在哪个维度上，然后再采用合适的方法对其进行修正处理。

关于不用fe和选择pooledols的个人见解：可能主要有以下两方面原因：其一，固定效应fe是严格控制个体效应后的拟合结果，因此，它一般出来的结果都不太显著，因此为保证回归结果有星星，大都会采用pooledols，甚者有直接runols的！不进行任何的cluster处理（个人建议，如果是想发高质量的期刊，就不要再去侥幸，建议同时运用ferepooledols，进行检验取舍或同时报告）；

第二个原因在于，由学者具体研究的问题所决定，比如随着新经济地理学的兴起，有研究地位位置对公司财务行为的相关研究，按道理来说公司所处的地理位置是公司的一个固有属性（此处忽略公司地址的变更），如果用fe的固定效应回归，会很大程度上弱化地理位置对所研究问题的影响。此时使用双cluster可能会更合适。此外，关于pooledols、fe、re是有相应的检验去选择的。如果出现fe跟pooledols符号相反的话，可考虑模型中遗漏了重要的应有而未有的控制变量

参考文献：Peterson在其个人网站上提供了在Stata及SAS中获得文中提到的各种标准误估计的代码：ProgrammingAdvice

预览时标签不可点收录于话题#个上一篇下一篇

潍坊市论坛