苹果发布首份人工智能报告(全文):瞄准AI视觉

(图7:使用MPIIGaze实拍样本进行的眼睛注视估计的定量结果。曲线描述了不同测试数量下系统预估的误差。图示中使用精细图像而不是合成图像能显著提高系统表现。)

定量结果:我们训练了一个与[43]类似的简单的卷积神经网络(CNN)来对眼睛的注视方向进行预测。我们在UnityEyes上训练,并在MPIIGaze上进行测试。图7和表2比较了CNN分别使用合成数据以及SimGAN生成的精细数据的不同表现。我们观察到SimGAN输出训练的表现有很大的提高,绝对百分比提高了22.3%。我们还发现训练结果和训练数据呈正相关——此处的4x指的是培训数据集的100%。定量评估证实了图5中观察到的定性改进的价值,并且表明使用SimGAN能使机器学习模型有更好的表现。表3展示了同现有技术的比较,在精细图像上训练CNN的表现优于MPIGaze上的现有技术,相对改善了21%。这个巨大的改进显示了我们的方法在许多HCI任务中的实际价值。

实施细节:精炼网络Rθ是一个残差网络 (ResNet) 。每个ResNet块由两个卷积层组成,包含63个特征图,如图6所示。大小为55x35的输入图像和3x3的过滤器进行卷积,输出64个特征图。输出通过4个ResNet块传递。最后ResNet块的输出被传递到1x1卷积层,产生对应于精细合成图像的1个特征图。

(表2: 使用合成数据和SimGAN输出进行训练的比较。在无需监督真实数据的情况下,使用SimGAN输出的图像进行训练表现出22.3%的优势。)

(表3: SimGAN与MPIIGaze现有技术进行比较。R=真实图像,S=合成图像。误差是以度为单位的平均眼睛注视估计误差。对精细图像的训练带来了2.1度的改进,相对现有技术提高了21%。)

鉴别器器网络Dφ包含5个扩展层和2个最大合并层,分别为:(1)Conv3x3,stride = 2,特征映射= 96,(2)Conv3x3,stride = 2,特征映射= 64,( 3)MaxPool3x3,stride = 1,(4)Conv3x3,stride = 1,特征映射= 32,(5)Conv1x1,stride = 1,特征映射= 32,(6)Conv1x1,stride = 2,(7)Softmax。

我们的对抗网络是完全卷积的,并且已经被设计为使Rθ和Dφ中的最后层神经元的接受域是相似的。我们首先对Rθ网络进行1000步的自正则化损失训练,Dφ为200步。然后对于Dφ的每次更新,对应在算法中更新Rθ两次。即Kd被设置为1,Kg被设置为50。

眼睛注视估计网络同[43]类似,不过略作修改以使其更好地利用我们的大型合成数据集。输入是35x55的灰度图,通过5个卷积层,然后是3个完全连接的层,最后一个编码三维注视向量:(1)Conv3x3,特征图= 32,(2)Conv3x3 ,特征映射= 32,(3)Conv3×3,特征映射= 64,(4)Max- Pool3x3,stride = 2,(5)Conv3x3,特征映射= 80,(6)Conv3x3, MaxPool2x2,stride = 2,(8)FC9600,(9)FC1000,(10)FC3,(11)Eu- clidean loss。所有网络都使用恒定的0.001学习速率和512批量大小进行训练,直到验证错误收敛。

3.2关于深度图像的手势图像模拟

下一步,我们将用这宗方法对各种手势的深度图像进行模拟。在研究中,主要使用了纽约大学所提供的NYU手势数据库,其中包含72757个训练样本以及使用3台Kinect相机所采集的8251个测试样本,其中每个测试样本包括一个正面手势图像以及两个侧面手势图像。而每一个深度图像样本都对手势信息进行了标记,从而生成了合成图像。图10展示了手势数据库中的一个样本。我们对数据库样本进行了预处理,利用合成图像从真实图像中提取了相应的像素点位。在使用深度学习网络ConvNet进行处理之前,每个图像样本的分辨率大小被统一调整为224*224,背景值设置为零,前景值设置为原始深度值减2000。(此时假设背景分辨率为2000)。

图10:NYU手势数据库。左图为深度图像样本;右图为处理后的合成图像。

定性描述:图11显示了“生成对抗网络”( SimGAN)对手势数据库的计算结果。由图可知,真实深度图像的噪声已经边缘化,且分布不连续。SimGAN能够有效对原有图像噪声进行学习并模拟,从而产生出更加真实精细的合成图像,且不需要在真实图像上做出任何标记或注释。