北大数据分析老鸟写给学弟们一封信_大数据_计算头条_计算网平台——企业智能化一站式服务平台—

很显然，问这个问题的同学要么没学好计量，要么就是犯了功利主义的错误，或者二者皆有。拟合优度的大小很大程度上取决于数据本身的性质。如果数据是时序数据，只要拿有点相关关系的变量进行回归就能使拟合优度达到80%以上，但这样的高R方根本说明不了什么，很可能使分析者陷入伪回归的陷阱，严谨的做法当然是做平稳性检验和协整检验；如果是截面数据，根本没必要追求R方到80%的程度，一般来说，有个20%、30%就非常大了。

如果一定要增大R方，那么最应该做的的确是对纳入模型的变量进行选择。选择纳入模型的原则我认为有三条。第一，从理论和逻辑出发，将可能影响因变量的变量作为自变量纳入模型，即理论上或逻辑上能影响因变量的自变量必须纳入模型，即使该自变量的回归系数不显著。第二，奥姆剃刀原则——如无必要，勿增实体，即理论上或逻辑上不能影响因变量的自变量不能纳入模型，即使该自变量的回归系数显著。第三，防止纳入具有多重共线性的自变量。

前面说了，对截面数据进行计量分析，R方能达到20%、30%是非常了不起的事情。但是，如果拟合优度（或类似拟合优度的指标）在20%、30%或更低时，回归系数只具有定性或定序上的意义，强调其绝对数值的大小没什么意义。譬如lnY=alnA+blnB+…+zlnZ+c回归的R方为20%，a为0.375，b为0.224，且二者的T检验显著，那么我们可以说，A、B对Y有影响，也可以说一百分点的A变化对Y的影响大于一百分点的B变化对Y的影响（控制其他因素的情况下），但说一百分点的A变化对Y的影响较一百分点的B变化对Y的影响大0.151%，就没什么意义了。

数据分析

其他一些建议或忠告。

用心思考变量间的因果关系：是A影响了B还是B影响了A？A、B之间是否真的有因果关系？是否存在C，使C既影响A又影响B，而A、B本身无直接关系？

仔细选择自变量，不要遗漏重要变量，否则会造成内生性问题。如果遇上了内生性问题，先不要忙着寻找工具变量或使用2SLS，寻找被遗漏的变量才是最重要的事情。如果被遗漏的变量即使找到却囿于各种困难无法纳入分析，而你又忽然想到了一个绝佳的工具变量，那么恭喜你，你可以在核心期刊发文章了！

一定要控制其他可能对因变量产生影响的因素，并认识到对回归系数和偏相关分析结果的解释都是建立在“其他条件不变”的情况之下。

看到R方很大时不要忙着高兴，如果F检验显著而T检验不显著，很可能存在多重共线性。看到t值很大时，也不要忙着高兴，因为这很可能是伪回归的产物；如果此时DW值很小（小于0.5），那么伪回归的可能性进一步变大。

均值比较虽然简单却考验分析者的严谨性。两个看似不同的平均数、中位数或比率是否意味着高下有别？样本取自独立总体还是相关总体？方差“齐”或“不齐”？比较的是平均数、中位数还是比率差异？

样本量限制了所能做的分析，小样本时请珍惜自由度；不要用小于30个样本的数据进行计量分析（尤其是时序分析）和复杂的统计分析；不要以为能从小于或等于5期的数据中看出什么“发展趋势”；不要没有依据的使用复杂的模型和分析方法；不要将一目了然的简单问题故意复杂化。

最重要的，不要造假！不对数据本身造假，也不对分析结果造假！数据分析前可以进行一定的清洗，将奇异值去掉，也可以尝试对未预料到的分析结果进行探讨和解释，但如果去改数据改分析结果，那还有什么必要进行数据分析呢？直接编文章编报告不就得了？某些“诡异的”、不合常理的数据分析结果，很可能就是研究最重要的所得。

以上，如有错误，敬请指正；如有补充，欢迎留言，我会加进文中。

后记：过完年就要去工作了，每想及此就颇为伤感。在北大两年多，除了让自己更加理想主义外，除了爱上燕园的学术氛围和结识到一些好朋友好师长外，我学到并且目前还记得的知识并不多，且这些知识大多停留在“术”的层面。当然，“术”之道亦博大精深，我所掌握的不足万一。之所以还敢写下上面的文字贻笑大方，是想为需要的人提供帮助，也是以此形式悼念自己逝去的大学时光。感谢丁延庆老师，感谢邵宜航老师，感谢所有给我以指导和帮助的师长与朋友。

3/4 首页上一页 1 2 3 4 下一页尾页

更多详细信息，请您微信关注“计算网”公众号：