当我们预测概率时,我们预测的是什么?

当我们预测概率时,我们预测的是什么?

慧航 ·1 天前

很久之前参加过一次面试,面试题目让我记忆犹新。当时的面试过程大体是这样的:

面试官:你知道Logistic回归吗?

我:当然知道,很常用。

面试官:那么你觉着Logistic回归预测的概率该怎么解释?是某个个体成功的概率吗?

我:当然不是。如果只有一次观测,个体概率是估计不出来的。应该解释为,给定N个具有相同特征的个体,成功的比率等于估计出来的概率。

嗯,当时面试官不置可否,当然最后的面试结果是我被刷了(可能归功于我的经济学而非统计、计算机背景)

也许你觉着我上面说的有点拗口,也很难理解,当我们估计Logistic回归的时候,我们估计出的:

P(d_i=1|X_i)

难道不该解释为个体成功的概率吗?

我想这种说法是有些问题的。

当我们说单独某个人成功的概率,应该是同一个人在相同的条件下重复100次,平均而言成功了多少次。如果记t为某个人尝试的次数,那么我们理想的模型(数据生成过程)应该是这样的:

P(D_{it}=1|X_i)=F(X_i'\beta+u_{it})

然而,alternatively,现实的数据生成过程可能是这样的:

P(D_{it}=1|X_i)=F(X_i'\beta+\alpha_i+u_{it})

两者的差别,\alpha_i,可以理解为个体的不可观测的、与X独立的特征。

比如,如果D代表我来咖啡馆是点卡布奇诺(D=1)还是摩卡(D=0),X是我的性别,那么\alpha_i可能是我本身对卡布奇诺和摩卡的偏好。我的\alpha_i可能特别高,使得我每次来咖啡馆都点卡布奇诺而非摩卡,但是总会有另外的人喜欢摩卡而非卡布奇诺。

所以,当我们没有重复的观测到一个人的选择的时候,我们估计的误差项实际上是v_i=\alpha_i+u_{i0},因为\alpha_i与X不相关,所以跨个体估计时,我们相当于在每个分组平均了这个效应。

但是具体到个体,由于\alpha_i是不随着时间、选择次数变化而变化的,所以个体的概率并不等于其所在组的概率。

换句话说,也许男性(X=1)点卡布奇诺的概率是0.5,但是对我来说,这个概率可能是0.9。是因为有了大量的男性,有的人概率为0.9,有的人概率为0.1,平均起来使得我们的分组变成了0.5,而不是意味着我点卡布的概率就是0.5。

那么,搞清楚这个问题有啥意义呢?

意义在于,只有我们需要决策的个体足够多时,使用Logistic得到的概率才有意义。这个概率得到的更多的是跨个体的,而非针对个体的。

比如,如果我有一百万个客户需要进行决策,那么使用Logistic得到的概率进行决策,多数情况下是没有问题的。但是如果我有一百万个数据,但是针对十个客户进行决策,那么这个概率的意义就没有那么大了:我们并不知道这十个客户的个体异质性,样本太小以至于我们不能跨个体把风险平均掉。

比如,我有一百万个数据来评测个人贷款违约的概率。如果我有一百万个客户,那么基于Logistic的结果可能是没有问题的;但是如果我只有十个客户呢?平均而言问题也不大,但是由于\alpha_i的存在,实际上扩大了风险。