人工智能系统中不可预料的偏差来源

我们一般都把机器,尤其是智能机器,看成是冰冷的,计算能力强的,而且是无偏差的。我们相信,自主驾驶汽车对于驾驶员和随便一个行人之间的生死抉择没有偏颇。我们相信,智能系统在进行信用评估时,除了考虑真正有影响力的指标,如收入和FICO值,会忽略其他一切干扰。我们也知道,学习系统受非偏颇算法的驱动,将总向ground truth收敛。

对于我们中的一些人来说,这是一个错误:机器不应该在它们公正不阿的视角之外加入感情。对于其他人来说,这是一个特征:它们应该不受人类偏差的影响。但是在这两者之间,有一种观点是它们应该是客观的。

当然,任何一种观点都没有真相来的震撼。真相是,不仅极少有智能系统可以做到无偏差计算,而且有很多因素会导致偏差。因素包括我们训练系统所用的数据,我们与它们产生的交互,突发性偏差,相似性偏差以及冲突目标所造成的偏差。大部分的偏差来源是不容易发现的。但是既然我们要开发部署智能系统,就应该要理解偏差,从而有意识地去设计,尽可能避免潜在偏差的发生。

数据造成的偏差

对于任何一个学习系统来说,它们的输出都依赖于输入。这不是一个新的概念,只是当我们面对那些接收数以百万计的输入进行学习的系统时,会将这个概念忽略。我们得想法是,单单就例子的数量来说,就可以弥补人类造成的偏差影响。但是如果训练集本身选得不好,那么训练的结果也会不尽人意。

最近,这种计算偏差在基于深度学习的图像识别上很常见。Nikon在亚洲面孔识别上的错误和HP在肤色识别上的偏差,问题似乎都出在训练集本身选取不当上。虽然上述问题都是可以解决的,但是它们也反映出当我们不对数据集做及时调整的话,检测偏差可能会加剧。

除了面部识别,还有很多其他的偏差也与现实世界的影响有关。假释犯的再犯率预测,犯罪模型预测以及潜在员工预测等这些应用在负面影响领域的学习系统,当他们使用有偏差的数据进行训练时,或者数据是正常的,但系统在决策时有偏差时,它们会在学习过程中继续扩大这个偏差。

交互中的偏差

除了一些从数据集中学习的系统之外,还有一些系统从交互中学习。而它们遇到的偏差就来源于与用户的交互。一个很有代表性的例子是微软的Tay,这是一款基于聊天机器人的推特,聊天机器人就是要在与用户交互中进行学习。不幸的是,Tay收到了一群具有种族歧视以及女性歧视的人的影响。这群人不停地将具有攻击性的言语发布到Tay上,然后Tay系统就会将这些言语作为后续响应的输入依据。

在Tay变成一个相当激进的种族歧视者的24小时内,微软就将其关闭了。尽管在推特范围内,Tay中的种族歧视者影响是有限的,但是这也反映出现实世界对智能系统的潜在影响。当我们开发的是基于人机交互的智能系统时,类似的训练偏差会随着外界环境的复杂而变得更糟。

换个角度,如果我们只将这些系统交给那些会带来正向影响的人呢?不然我们无法相信系统关于谁可以贷款或谁将获得假释的抉择。Tay给我们的教训是学习系统的偏差可以来源于周围人和环境的反馈,因为无论好坏,系统都会将训练它们的人类观点反映出来。

突发性偏差

有时,做个性化决定的系统可能会创造偏差“泡沫”。我们就看近期facebook的状态,就可以看到这种偏见的身影。在应用层,Facebook的用户可以看到他们朋友的状态,并与朋友分享信息。

不幸的是,任何一种使用消息馈送分析的算法,都会根据用户的浏览历史定向推送内容。当用户点开,收藏或分享内容时,这种定向推送的效果会进一步扩大。结果是,系统会呈现出一波与用户现有的兴趣很符合的信息,然而这可能是由偏差的。

尽管这些定向推出都是个性化的,而且常常是令人满意的,但是这种推送已经不能称之为新闻了。这是一种泡沫信息现象,是一种算法版本的“确认偏见”。用户不需要屏蔽那些与他们自身兴趣相悖的信息,因为系统会自动做到这一点。