北大数据分析老鸟写给学弟们一封信

很显然,问这个问题的同学要么没学好计量,要么就是犯了功利主义的错误,或者二者皆有。拟合优度的大小很大程度上取决于数据本身的性质。如果数据是时序数据,只要拿有点相关关系的变量进行回归就能使拟合优度达到80%以上,但这样的高R方根本说明不了什么,很可能使分析者陷入伪回归的陷阱,严谨的做法当然是做平稳性检验和协整检验;如果是截面数据,根本没必要追求R方到80%的程度,一般来说,有个20%、30%就非常大了。

如果一定要增大R方,那么最应该做的的确是对纳入模型的变量进行选择。选择纳入模型的原则我认为有三条。第一,从理论和逻辑出发,将可能影响因变量的变量作为自变量纳入模型,即理论上或逻辑上能影响因变量的自变量必须纳入模型,即使该自变量的回归系数不显著。第二,奥姆剃刀原则——如无必要,勿增实体,即理论上或逻辑上不能影响因变量的自变量不能纳入模型,即使该自变量的回归系数显著。第三,防止纳入具有多重共线性的自变量。

前面说了,对截面数据进行计量分析,R方能达到20%、30%是非常了不起的事情。但是,如果拟合优度(或类似拟合优度的指标)在20%、30%或更低时,回归系数只具有定性或定序上的意义,强调其绝对数值的大小没什么意义。譬如lnY=alnA+blnB+…+zlnZ+c回归的R方为20%,a为0.375,b为0.224,且二者的T检验显著,那么我们可以说,A、B对Y有影响,也可以说一百分点的A变化对Y的影响大于一百分点的B变化对Y的影响(控制其他因素的情况下),但说一百分点的A变化对Y的影响较一百分点的B变化对Y的影响大0.151%,就没什么意义了。

数据分析

其他一些建议或忠告。

用心思考变量间的因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A又影响B,而A、B本身无直接关系?

仔细选择自变量,不要遗漏重要变量,否则会造成内生性问题。如果遇上了内生性问题,先不要忙着寻找工具变量或使用2SLS,寻找被遗漏的变量才是最重要的事情。如果被遗漏的变量即使找到却囿于各种困难无法纳入分析,而你又忽然想到了一个绝佳的工具变量,那么恭喜你,你可以在核心期刊发文章了!

一定要控制其他可能对因变量产生影响的因素,并认识到对回归系数和偏相关分析结果的解释都是建立在“其他条件不变”的情况之下。

看到R方很大时不要忙着高兴,如果F检验显著而T检验不显著,很可能存在多重共线性。看到t值很大时,也不要忙着高兴,因为这很可能是伪回归的产物;如果此时DW值很小(小于0.5),那么伪回归的可能性进一步变大。

均值比较虽然简单却考验分析者的严谨性。两个看似不同的平均数、中位数或比率是否意味着高下有别?样本取自独立总体还是相关总体?方差“齐”或“不齐”?比较的是平均数、中位数还是比率差异?

样本量限制了所能做的分析,小样本时请珍惜自由度;不要用小于30个样本的数据进行计量分析(尤其是时序分析)和复杂的统计分析;不要以为能从小于或等于5期的数据中看出什么“发展趋势”;不要没有依据的使用复杂的模型和分析方法;不要将一目了然的简单问题故意复杂化。

最重要的,不要造假!不对数据本身造假,也不对分析结果造假!数据分析前可以进行一定的清洗,将奇异值去掉,也可以尝试对未预料到的分析结果进行探讨和解释,但如果去改数据改分析结果,那还有什么必要进行数据分析呢?直接编文章编报告不就得了?某些“诡异的”、不合常理的数据分析结果,很可能就是研究最重要的所得。

以上,如有错误,敬请指正;如有补充,欢迎留言,我会加进文中。

后记:过完年就要去工作了,每想及此就颇为伤感。在北大两年多,除了让自己更加理想主义外,除了爱上燕园的学术氛围和结识到一些好朋友好师长外,我学到并且目前还记得的知识并不多,且这些知识大多停留在“术”的层面。当然,“术”之道亦博大精深,我所掌握的不足万一。之所以还敢写下上面的文字贻笑大方,是想为需要的人提供帮助,也是以此形式悼念自己逝去的大学时光。感谢丁延庆老师,感谢邵宜航老师,感谢所有给我以指导和帮助的师长与朋友。

更多详细信息,请您微信关注“计算网”公众号: