更偏好白人男性?研究证明人工智能也能学会偏见

参与:吴攀、晏奇

至少从口号上来说,我们一直在追求「人人平等」,但我们也都清楚我们离这一目标还相去甚远,部分原因是因为世界并不是平的,还有一部分原因是我们的头脑里都还存在着偏见。现在随着人工智能技术的发展,机器已经开始具备了学习能力,那么它们在学习各种技能的同时也会学会人类的偏见吗?于本周发行的新一期Science期刊上就刊登了一项有关的研究结果,其表明人工智能也能习得人类的种族和性别偏见。机器之心在这里编译了Science网站上对于该研究的介绍以及该报告的摘要和部分结果,相关原文请点击「文末阅读」原文查阅。

地址:http://science.sciencemag.org/content/356/6334/183.full

学习人类书写的文本的计算机会自动表现出特定的男性或女性职业词

人工智能的一个伟大愿景是创造一个没有偏见的世界。人们想着,如果让算法来招聘员工,那么男人和女人都应该会有同等的工作机会;如果用大数据来预测犯罪行为,那么就会消除警务工作中的种族偏见。但现实往往会给理想当头棒喝,最近一项新研究表明计算机也可以产生偏见,尤其是当计算机向人类学习时。当算法通过分析处理大量人类书写的文本来学习词句的含义时,它们也会获得类似于我们的偏见那样的刻板印象。

「不要把人工智能看作是什么仙女教母,」该研究的联合作者、英国巴斯大学和普林斯顿大学的计算机科学家Joanna Bryson说,「人工智能只是我们已有文化的延伸。」

这项研究的灵感来自于一种被称为内隐联想测验(IAT:implicit association test)的心理学工具。在IAT中,词汇会在一个计算机屏幕上闪现,人们对其做出反应的速度能够表明其潜意识的联想。比如在测试中,黑人和白人美国人在将 Brad 和 Courtney(通常是男性名字)与 happy 和 sunrise(积极词汇)联想到一起以及将 Leroy 和 Latisha(通常是女性名字)与 hatred 和 vomit(消极词汇)联想到一起时的反应速度会更快,反过来则更慢。

为了测试机器「心智」中的类似偏见(bias),Bryson 及其同事开发了一种词嵌入关联测试(WEAT:Word-Embedding Association Test)。他们首先基于一个词通常出现的语境而构建了一个词嵌入(词嵌入基本上可以看作是计算机对词的定义)集合。比如,「冰」和「蒸汽」有类似的嵌入,因为这两个词的语境中常常出现「水」这样的词,而不会常出现「时尚」这样的词。但对于一台计算机而言,一个嵌入常常被表示成一个数字串,这不是人类所能直观理解的定义。斯坦福大学的研究者通过分析互联网上的数千个词而为本研究提供了分析用的词嵌入,具体方法可参阅论文《GloVe: Global Vectors for Word Representation》。

WEAT 会计算那些数字串之间的相似度,而不是去测量人类的反应时间。通过这个方法,Bryson 的团队发现,诸如「Brett」和「Allison」这样的名字的嵌入会与那些涉及到「爱」与「欢笑」这样的积极词汇更相似,而诸如「Alnozo」和「Shaniqua」这样的名字会与如「癌症」、「失败」这样的消极词汇更加相似。对计算机而言,偏见内置于词之中。

平均起来,IAT 表明:在美国,男人会和工作、数学、科学联系起来,而女人会和家庭、艺术联系起来。年轻人通常会被认为比年长者更加快乐,所有的这些联系都由 WEAT 发现。通过使用同样的技术来测量它们那些嵌入的积极和消极词汇的相似度,该程序也推断认为,花会比昆虫、乐器和武器更快乐。

随后,研究者开发了一个词嵌入真实关联测试(word-embedding factual association test,WEFAT)。该测试会决定词汇与词汇之间关联的强度,然后对比那些关联与真实世界中事实的强度。例如,它会去寻找「hygienist」和「librarian」这样的嵌入词与如「female」和「woman」这样的词的关联强弱。对每个职业来说,该程序接下来会拿这个计算机生成的性别关系关联测量结果与女性实际在那个领域的占比进行比较。我们发现,结果高度相关。因此,该团队表示,嵌入可以对从花到种族和性别偏见的常见情绪、甚至是关于劳动力的事实等所有东西进行编码。