苹果发布首份人工智能报告(全文)：瞄准AI视觉_人工智能_计算头条_中国计算网——工业互联网一站式服务平台—

（图7：使用MPIIGaze实拍样本进行的眼睛注视估计的定量结果。曲线描述了不同测试数量下系统预估的误差。图示中使用精细图像而不是合成图像能显著提高系统表现。）

定量结果：我们训练了一个与[43]类似的简单的卷积神经网络（CNN）来对眼睛的注视方向进行预测。我们在UnityEyes上训练，并在MPIIGaze上进行测试。图7和表2比较了CNN分别使用合成数据以及SimGAN生成的精细数据的不同表现。我们观察到SimGAN输出训练的表现有很大的提高，绝对百分比提高了22.3%。我们还发现训练结果和训练数据呈正相关——此处的4x指的是培训数据集的100%。定量评估证实了图5中观察到的定性改进的价值，并且表明使用SimGAN能使机器学习模型有更好的表现。表3展示了同现有技术的比较，在精细图像上训练CNN的表现优于MPIGaze上的现有技术，相对改善了21%。这个巨大的改进显示了我们的方法在许多HCI任务中的实际价值。

实施细节：精炼网络Rθ是一个残差网络 (ResNet) 。每个ResNet块由两个卷积层组成，包含63个特征图，如图6所示。大小为55x35的输入图像和3x3的过滤器进行卷积，输出64个特征图。输出通过4个ResNet块传递。最后ResNet块的输出被传递到1x1卷积层，产生对应于精细合成图像的1个特征图。

（表2: 使用合成数据和SimGAN输出进行训练的比较。在无需监督真实数据的情况下，使用SimGAN输出的图像进行训练表现出22.3%的优势。）

（表3: SimGAN与MPIIGaze现有技术进行比较。R=真实图像，S=合成图像。误差是以度为单位的平均眼睛注视估计误差。对精细图像的训练带来了2.1度的改进，相对现有技术提高了21％。）

鉴别器器网络Dφ包含5个扩展层和2个最大合并层，分别为：（1）Conv3x3，stride = 2，特征映射= 96，（2）Conv3x3，stride = 2，特征映射= 64，( 3）MaxPool3x3，stride = 1，（4）Conv3x3，stride = 1，特征映射= 32，（5）Conv1x1，stride = 1，特征映射= 32，（6）Conv1x1，stride = 2，（7）Softmax。

我们的对抗网络是完全卷积的，并且已经被设计为使Rθ和Dφ中的最后层神经元的接受域是相似的。我们首先对Rθ网络进行1000步的自正则化损失训练，Dφ为200步。然后对于Dφ的每次更新，对应在算法中更新Rθ两次。即Kd被设置为1，Kg被设置为50。

眼睛注视估计网络同[43]类似，不过略作修改以使其更好地利用我们的大型合成数据集。输入是35x55的灰度图，通过5个卷积层，然后是3个完全连接的层，最后一个编码三维注视向量：（1）Conv3x3，特征图= 32，（2）Conv3x3 ，特征映射= 32，（3）Conv3×3，特征映射= 64，（4）Max- Pool3x3，stride = 2，（5）Conv3x3，特征映射= 80，（6）Conv3x3， MaxPool2x2，stride = 2，（8）FC9600，（9）FC1000，（10）FC3，（11）Eu- clidean loss。所有网络都使用恒定的0.001学习速率和512批量大小进行训练，直到验证错误收敛。

3.2关于深度图像的手势图像模拟

下一步，我们将用这宗方法对各种手势的深度图像进行模拟。在研究中，主要使用了纽约大学所提供的NYU手势数据库，其中包含72757个训练样本以及使用3台Kinect相机所采集的8251个测试样本，其中每个测试样本包括一个正面手势图像以及两个侧面手势图像。而每一个深度图像样本都对手势信息进行了标记，从而生成了合成图像。图10展示了手势数据库中的一个样本。我们对数据库样本进行了预处理，利用合成图像从真实图像中提取了相应的像素点位。在使用深度学习网络ConvNet进行处理之前，每个图像样本的分辨率大小被统一调整为224*224，背景值设置为零，前景值设置为原始深度值减2000。（此时假设背景分辨率为2000）。

图10：NYU手势数据库。左图为深度图像样本；右图为处理后的合成图像。

定性描述：图11显示了“生成对抗网络”（ SimGAN）对手势数据库的计算结果。由图可知，真实深度图像的噪声已经边缘化，且分布不连续。SimGAN能够有效对原有图像噪声进行学习并模拟，从而产生出更加真实精细的合成图像，且不需要在真实图像上做出任何标记或注释。

5/7 首页上一页 3 4 5 6 7 下一页尾页