深度学习“深度”有什么意义?

想法是既然训练存在玻璃阻碍,为何不一开始就把系统初始化到鞍点尽量少的区域可惜在高维空间判断鞍点少的区域是个十分复杂的问题。但是我们可以降低维度去判断,比如引入少量外部控制变量—序参数(权重的平方和,类似SVM中的间隔,输入层的偏置,无标签/有标签数据数目等),然后约束这些序参数,按照某种权重平均掉这些鞍点Wi的贡献(重要性抽样说明这约等于将所有W积掉)。由于鞍点多的地方贡献相对大,序参数调整不好会导致平均结果同其它区域有明显不同,因此可以用来判断相区。如下图,log(ε)表示泛化能力的对数,越小泛化能力越强。β表示无标签样本的数目,α表示有标签样本数。不同颜色的线是不同偏置,蓝色线的偏置最小。不论那条颜色的线,增大无标签的样本原则上可以降低误差,但是理论上存在“相区”,如蓝色线的上半支和下半支,中间不稳定,难以逗留长时间,会存在一支相的误差一直无法下降。它卡住了!

7

预训练能加深!有了控制变量我们可以通过调整这些值,将损失函数拖到感兴趣的区域,从而回避相的影响,这个拖动过程由一个日本人今年的研究表明(文献9),就是无标签的预训练!如下图,预训练越多,有标签的调优能越早找到最小值区域!(log(ε)表示泛化能力的对数,越小泛化能力越强。β表示无标签样本的数目,α表示有标签样本数,预训练是RBM之流,激活函数是ReLu)

8

不止有预训练?虽然相的观点仍然说明这只是一个初始化“黑魔法”而已。但这个步骤确确实实在削弱玻璃相区的阻碍。因此本人也有个臆测,加大规模,加大样本,提取深层特征的深度学习是跨越相一个表面技巧而已!或许我们能找到一种跨越或者回避相区的通用方法,一旦达到此目的,由此获得的特征或者才是真正的内禀表示。