虚假自相关的含义及判断方法:

1、如果模式中省略了某些重要的解释变量或者函数模型不正确都会产生系统误差,这种系统误差存在于随机误差中从而带来自相关;

2、自相关通过分析其经济学含义进行阐述,种由设定偏误产生的虚假自相关可通过改变模型设定予以消除;

3、虚假相关,即伪回归与协整的概念对应,指的是两个同阶单整序列无法找到一个线性组合,使得回归残差平稳,可以通过检验残差序列是否平稳来判断。

如何利用稳健标准误判断是否消除了自相关

在回归分析中,单个系数的显著性我们主要看t统计量与临界值之间的关系,t统计量的计算公式想必大家都很熟悉,等于系数值除以其标准误,但是这个标准误的选择其实可以说是大有文章了,为什么要我不能使用普通的标准误而要使用稳健的标准误呢?究竟是该使用异方差稳健的标准误还是聚类稳健的标准误呢?普通标准误的计算公式是在高斯马尔科夫假定下推导来的,其中有一个重要的假定就是同方差假定,但是现实情况中同方差假定一般都不满足,如果存在异方差,普通标准误就不是真实的标准误了,使用普通标准误构造的t统计量就失效了。White(1980)提出了异方差稳健的标准误(Heteroskedasticity-Robust Standard Error),其推导过程并没有用到同方差这一假定。横截面数据通常都存在异方差问题,因此对于横截面数据我们一般都会使用异方差稳健的标准误,当然,你可以做一个BP检验或者White检验亦或者其他异方差的检验来判断你的模型是否存在异方差问题,如果不存在的话那你是用普通的标准误也就是没有问题的。面板数据模型的标准误就比横截面更为矫情了,由于面板数据的特点,我们通常可以假设不同个体之间的扰动项相互独立,但同一个体在不同时期的扰动项之间往往存在自相关。自相关是违反球形扰动项的另一种情形,不会影响估计量的无偏性和一致性,但是会影响有效性,也就是会影响估计量的方差,高斯马尔科夫定理就不再成立,这时使用普通标准误或是异方差稳健的标准误都是有问题的,因此t统计量也会失效。于是,聚类稳健的标准误破土而出。在面板数据中,每位个体不同时期的所有观测值即构成一个“聚类”(cluster)。这样,样本观测值可以分为不同的聚类,比如你使用的是省级面板数据,那么每一个省就是一个聚类,在同一聚类里的观测值互相相关,而不同聚类之间的观测值则不相关。对于聚类样本,仍可进行OLS估计,只需使用“聚类稳健的标准误”(Cluster-Robust Standard Errors)即可,其在形式上也是一种夹心估计量,只是表达式更为复杂。聚类稳健的标准误是比异方差稳健的标准误要求更为严格的一种标准误,因为其在推导过程中并没有用到同方差假定,所以聚类稳健标准误都是异方差稳健的。从标准误数值大小上来说,通常情况下都是聚类稳健的标准误>异方差稳健的标准误>普通标准误,因此多数情况下,可能你使用普通的标准误会显著(虚假,漂亮的数字也会骗人),而一旦使用异方差稳健的标准误或是聚类稳健的标准误就不再显著了。在这种情况下,那么你就要考虑你的理论基础或者经济学逻辑是否存在问题,如果你坚信自己的理论正确,那么就可以考虑函数形式误设、内生性问题(遗漏变量、双向因果、测量误差)、多重共线性问题、数据质量问题、离群值等计量研究设计问题。

聚类稳健的标准误的使用其实也要分多种情况了,究竟应该聚类到哪个层面其实也是很有讲究的。假如你研究的问题是撤县设市对企业全要素生产率的影响,你的被解释变量是企业层面的变量TFP,而解释变量中既有县级层面也有企业层面变量,如果聚类到企业层面,就相当于假设同一个企业在不同时间上的观测值之间是相互关联的,但是不同企业的观测值之间是没有关联的。如果聚类到县级层面,要求就更严格了,相当于假设同一个县内任何两个观测值之间都是相互关联的(不管是不是同一个企业),而不同县的观测值之间是没有关联的。对这一问题来说,聚类到县级的假设是更符合实际情况的,因为同一个县域内的几家企业之间难免存在竞争与合作,论文中大家都是聚类到更高层级,让审稿人无法质疑金光闪闪的结果。如果你的被解释变量和解释变量都是处在同一层面上,比如研究撤县设市对地区经济增长的影响,那么也没有什么选择的余地了,直接聚类到这一层面上就好了

空间自相关分析的分析步骤

空间自相关分析一般涉及3个步骤(Cliff和Ord,1981;Good-child,1986):①取样,②计算空间自相关系数或建立自相关函数,③自相关显著性检验。空间自相关系数有数种,分别适合于不同数据类型。空间自相关分析在地理统计学科中应用较多,现已有多种指数可以使用,但最主要的有两种指数,即Moran的I系数和Geary的c系数。计算公式分别是:

I= c=

式中,xi和xj是变量x在相邻配对空间单元(或栅格细胞)的取值,是变量的平均值,是相邻权重(通常规定,若空间单元i和j相邻,=1,否则=0),n是空间单元总数。I系数的取值在-1和1之间:小于0表示负相关,等于0表示不相关,大于0表示正相关。C系数的取值一般在0~2之间:大于1表示负相关,等于1 表示不相关,而小于1则表示正相关。

像前面介绍的景观指数一样,空间自相关系数也随观察尺度(或分析尺度)的改变而变化。因此,在进行空间自相关分析时,最好在一系列不同尺度上计算自相关系数,以揭示所研究变量的自相关程度随空间尺度的变化。以自相关系数为纵坐标,样点间隔距离为横坐标所作的图称为自相关图。(但是,Goodchild(1986)将以Geary的c系数为纵坐标,样点间隔距离为横坐标所作的图称为方差图。)自相关图可用来分析景观的空间结构特征,判别斑块的大小以及某种格局出现的尺度。Legendre(1993)系统地讨论了空间自相关分析方法在生态学中的应用,(另见Sokal和Oden,1978),并列出一系列常用的计算机软件。