苹果发布首份人工智能报告(全文)：瞄准AI视觉_人工智能_计算头条_中国计算网——工业互联网一站式服务平台—

日前，苹果发布了其首份关于人工智能（AI）的学术论文——“通过对抗网络使用模拟和非监督图像训练”(Learning from Simulated and Unsupervised Images through Adversarial Training)，其中主要描述了在计算机视觉系统中提高图像识别的方法，而这或许也标志着苹果公司研究的新方向。

下面就是这篇报告的全文：

摘要

随着图形技术不断进步，利用合成图像训练机器学习模型变得越来越容易，这可以帮助避免注释图像的昂贵支出。然而，通过合成图像训练机器学习模型可能无法达到令人满意的效果，因为合成图像与真实图像之间毕竟存在区别。为了减少这种差异，我们提出“模拟+无监督”学习方法，即通过计算机生成图像或合成图像来训练算法的图像识别能力。

事实上，这种“模拟+无监督”学习需要将无标注的真实图像数据与已经注释的合成图像相结合。在很大程度上，它需要依赖生成式对抗网络（GAN）的新机器学习技术，它可通过两个神经网络相互对抗以生成更加真实的图像。我们对标准GAN算法进行了多处关键性修改，以保留注释、避免伪影以及稳定性训练：自正则化(self-regularization)-局部对抗性损失-使用精炼图像升级鉴别器。

我们发现，这个过程可以产生高度逼真的图像，在质量上和用户研究方面都已经获得证实。我们已经通过训练模型评估视线水平和手势姿态，对计算机生成图像进行定量评估。通过使用合成图像，我们的图像识别算法已经取得了巨大进步。在没有使用任何标准真实数据的情况下，我们在MPIIGaze数据集中获得了最高水平的结果。

引言

随着最近高容量深度神经学习网络的崛起，大规模标注训练数据集正变得日益重要。可是，标准数量庞大的数据集成本非常高，而且相当耗费时间。为此，使用合成图像而非真实图像训练算法的想法开始出现，因为注释已经可实现自动化。利用XBOX360外设Kinect评估人体姿势以及其他任务，都是使用合成数据完成的。

（图1：“模拟+无监督”学习：通过计算机生成图像或合成图像来训练算法的图像识别能力）

然而，由于合成图像与真实图像之间存在差距，使用合成图像训练算法可能产生很多问题。因为合成图像通常不够真实，导致神经网络学习仅仅能够了解到合成图像中的细节，并不能完整地识别出真实图像，进而也无法为算法提供精确的学习。一种解决方案就是改进模拟器，可是增加真实性的计算往往非常昂贵，渲染器的设计也更加困难。此外，即使最顶级的渲染器可能也无法模仿真实图像中的所有特征。因此，缺少真实性可能导致算法过度拟合合成图像中不真实的细节。

在这篇论文中，我们提出“模拟+无监督”学习的方法，其目的就是使用未标注真实数据的模拟器提高合成图像的真实性。提高真实性可更好地帮助训练机器学习模型，而且无需收集任何数据，也无需人类继续标注图像。除了增加真实性，“模拟+无监督”学习还应该保留注释信息以用于训练机器学习模型，比如图一中的注视方向应被保留下来。此外，由于机器学习模型对合成数据中的伪影非常敏感，“模拟+无监督”学习也应该产生没有伪影的图像。

我们为“模拟+无监督”学习开发出新的方法，我们称之为SimGAN，它可以利用我们称之为“精炼器网络（refiner network）”的神经网络从模拟器中提炼合成图像。图二中展示了这种方法的概述：第一，黑盒子模拟器中生成合成图像，然后利用“精炼器网络”对其进行提炼。为了增加真实性，也就是“模拟+无监督”学习算法的首要需求，我们需要利用类似生成式对抗网络(GAN)来训练“精炼器网络”，进而产生判别网络无法区分真假的精炼图像。

第二，为了保留合成图像上的注释信息，我们需要利用“自正则化损失”弥补对抗性损失，在合成图像和精炼图像之间进行修改。此外，我们还利用完全卷积神经网络，在像素水平方面进行操作，并保留全局结构，而非整体修改图像的内容。

1/7 1 2 3 4 5 6 下一页尾页