苹果发布首份人工智能报告(全文):瞄准AI视觉

在我们的执行中,我们将鉴别器器D设计成一个完全卷积网络,输出伪类w × h概率图。在后者中w × h是图像中本地补丁的数量。在训练精炼网络时,我们将w×h本地补丁的交叉熵损失值求和,如图3所示。

2.3使用精化图像的历史记录更新鉴别器器

对抗训练的对抗训练的另一个问题是鉴别器器网络只关注最新的精细图像。 这可能导致(i)与对抗训练分歧,以及(ii)精炼网络重新引入鉴别器已经忘记的工件。在整个训练过程中的任何时间由精炼网络生成的任何精细图像对于鉴别器器来说都是伪造的图像。因此,鉴别器应该有能力将这些图像识别为假。基于这一观察,我们引入了一种方法,通过使用精细图像的历史来提高对抗训练的稳定性,而不仅仅是在当前小批次中小修小改。我们对算法1稍作改进,增加对先前网络产生的精细图像的缓冲。设B为此缓冲的大小,设b为算法1中使用的迷你批次大校

(图5:SimGAN输出的图像示例。左为MPIIGaze采集的实拍图像,右为优化后的UnityEye合成图像。从图中可以看出精细合成图像中的皮肤纹理和虹膜区都更近似真实而非合成图像。)

(图6:带有两个nxn卷积层的ResNet块,每个都都具有f特征图。)

在鉴别器器训练的每次迭代中,我们通过对来自当前精炼网络的b/2图像进行采样,以及从缓冲区采集额外b/2图像,从而更新参数φ。保持缓冲区B大小固定,在每次迭代之后,我们使用新产生的精细图像随机替换缓冲区中的b/2样本。该过程在图4中标示出。

3.实验

我们使用MPIIGaze [40,43]上的外貌估计数据集和纽约大学的手势数据集 [35]来评估我们的方法。我们在所有实验中使用完全卷积的精炼网络与ResNet块(图6)。

3.1基于外貌的注视估计

注视估计是许多人机交互(HCI)任务的关键因素。然而,直接由眼睛图像进行估计是有挑战性的,特别是在图像质量不佳时。例如智能手机或笔记本电脑前置摄像头采集到的眼睛图像。因此,为了生成大量注释数据,最近几次方法[40,43]用大量合成数据训练它们的模型。在这里,我们展示使用SimGAN生成的精细合成图像训练显著提高了任务的表现。

注视估计数据集包括使用眼睛注视合成器UnityEyes生成的1200万样本,以及来自MPIIGaze数据集的21,000实拍样本。MPIIGaze的图像样本都是在各种照明条件不理想情况下捕捉到的图像。而UnityEyes图像都是在同一渲染环境下生成。

定性结果:图5展示了合成生成的眼睛注视图像以及经过处理的实拍图像。如图所示,我们观察到合成图像的显著质量改进:SimGAN成功捕获皮肤纹理,传感器噪点以及虹膜区的外观。请注意,我们的方法在改善真实性的同时保留了注释信息(注视方向)。

‘视觉图灵测试’:为了定量评估精细图像的视觉质量,我们设计了一个简单的用户研究,要求受试者对图像是属于实拍或是合成进行区分。每个受试者被展示50张实拍图像和50张合成图像。在试验中,受试者不断观看20个真假混杂的图像,最终受试者很难分辨真实图像和精细图像之间的差异。在我们的总体分析中,10个受试者在1000次试验中正确率只有517次(p=0.148),跟随机选差不多。表1展示了混淆矩阵。相比之下,当使用原始图像和实拍图像进行测试时,我们给每个受试者展示10个实拍和10个合成图像,这种情况下受试者在200此实验中选对了162次(p≤10-8),结果明显优于随机选择。

(表1:采用真实图像和合成图像进行的“视觉图灵测试”。平均人类分类精度为51.7%,表明自动生成的精细图像在视觉上已经达到以假乱真的程度。)