浪潮迭起 人工智能值得我们多大程度上的信任?

从本质上讲,人工智能是一种高阶结构。在实践中,大量松散联合的实践和算法似乎构成了大多数人工智能的组成部分——通常跨越许多局部领域。事实上,人工智能已经远远超出了计算机科学的范畴,涵盖了神经科学、语言学、数学、统计学、物理学、心理学、生理学、网络科学、伦理学等领域。下图描绘了一组不完全统计的算法,这些算法是第二波人工智能现象的基础,通常被统称为机器学习。

为了实现机器学习的某种状态,有大量的潜在算法和方法存在,这就带来了一些严重的信任问题,特别是对于那些为了确保信任等级而参与软件测试的人来说。当人工智能与任务临界状态相关时,就像越来越多的情况一样,测试人员必须为多个因素建立基础,例如程序一致性、可重复性、穿透性、应用路径跟踪,或可识别的系统故障模式。

关于什么是最合适的人工智能算法这个关键问题的历史,可以追溯到1976年。人工智能从业者都面临着一个复杂的问题,那就是如何使用合适的算法来适应所需的人工智能设计。给定一个预期结果,那么,哪种算法最准确?哪一种效率最高?在预期的环境中,哪一种最容易实现?哪一种随时间拥有最大的潜力?哪些是最熟悉、最有可能让用户参与其中的?设计是基于某种集中式还是分布式代理、或者是集群软件代理?这一切要怎么进行测试呢?

这些问题表明,在各种与人工智能相关的算法和技术之间存在必要的设计权衡。这么多人工智能可替代方法的存在表明,大多数人工智能架构都远非那么一致或有凝聚力。更糟糕的是,对于推理和学习系统来说哦,它们都需要高度的基于上下文的个性化。当然,这也是在说人工智能测试,因为每一种算法和它的个性化实现都会带来独特的深度测试的挑战,即使是在单元级别。

一个高级人工智能测试评估了正确识别和分类图像的能力。在某些情况下,这项测试已经超越了人类做出此类评估的能力。例如,在人面数据库(LFW)中的数据集用13000张图片支持人脸识别技术的训练,并使用用神经网络或深度学习来校准面部识别机器学习工具。新的自动化人工智能图像识别工具可以使用这个数据表在统计学上超越人类的面部识别能力。然而,眼前的任务本质上是感性的。这些任务通过数学上相关的几何图形来区分,但没有任何形式的高阶认知推理。此外,尽管它将选择性识别的准确率与人类能力进行了比较,但在这个测试中,底层代码基础的其他关键任务方面仍未得到检测。

代码之外

机器学习的测试变得更加复杂,因为在学习环境中需要大量的数据集来“训练”人工智能。不仅人工智能应该被证明是无懈可击的,在训练中使用的数据理论上也应该具有最高的质量。然而,在现实世界中,数据集往往是不平衡的、稀少的、不连贯的,而且往往是不准确的。下面的图片表明,信息经常是由解决歧义得到的。即使在受控条件下,使用单个或多个经过验证的数据集来训练和测试分类器也会产生显著的差异。因此,即使是对分类器的受控测试也会变得非常复杂,必须仔细研究。

其他与信任相关的因素远远超出了代码的范围。因为编程既是一种创造性行为,又是一种句法科学,因此它需要一定程度的翻译解释。程序员可以将有意的或无意的文化或个人偏见注入到产生的人工智能代码中。考虑一下程序员的情况,他们创造了一种非常精确的面部识别程序,但忽略了皮肤色素沉着是识别标准中的一个决定性因素。这一动作会使结果偏离原本由皮肤颜色强化的功能。相反,罪犯的再犯率扭曲了一些以美国为基地的监狱释放决定。这意味着,一些在押人员比其他人更有机会得到提前释放的数据——而无视了普遍的情况。语义上的不一致性可能会进一步危害人工智能代码的中立性,尤其是在涉及自然语言处理或惯用语音识别的情况下。

一些人认为,所有的IT从业者都是网络安全从业者。这也对人工智能的发展和实施产生了巨大的影响。从网络安全的角度来看,“谁知道机器知道什么、机器是什么时候知道的?”的问题就变得尤为重要。机器学习的东西往往不是很容易被观察到的,而是被深度编码的。这不仅会影响新入网的数据,而且——在物联网中——这些数据会让执行器触发激活器,从而将“学习”转化为某种行为。由于缺乏具体的刺激身份和出身,整个人工智能引发的物联网刺激反应机制也变得同样不确定。在任务关键型系统中产生的行为需要严格的验证。