深度学习“深度”有什么意义？_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

。想法是，既然训练存在玻璃阻碍，为何不一开始就把系统初始化到鞍点尽量少的区域，可惜在高维空间判断鞍点少的区域是个十分复杂的问题。但是我们可以降低维度去判断，比如引入少量外部控制变量—序参数（权重的平方和，类似SVM中的间隔，输入层的偏置，无标签/有标签数据数目等），然后约束这些序参数，按照某种权重平均掉这些鞍点Wi的贡献（重要性抽样说明这约等于将所有W积掉）。由于鞍点多的地方贡献相对大，序参数调整不好会导致平均结果同其它区域有明显不同，因此可以用来判断相区。如下图，log（ε）表示泛化能力的对数，越小泛化能力越强。β表示无标签样本的数目，α表示有标签样本数。不同颜色的线是不同偏置，蓝色线的偏置最小。不论那条颜色的线，增大无标签的样本原则上可以降低误差，但是理论上存在“相区”，如蓝色线的上半支和下半支，中间不稳定，难以逗留长时间，会存在一支相的误差一直无法下降。它卡住了！

预训练能加深！有了控制变量，我们可以通过调整这些值，将损失函数拖到感兴趣的区域，从而回避相的影响，这个拖动过程由一个日本人今年的研究表明（文献9），就是无标签的预训练！如下图，预训练越多，有标签的调优能越早找到最小值区域！（log（ε）表示泛化能力的对数，越小泛化能力越强。β表示无标签样本的数目，α表示有标签样本数，预训练是RBM之流，激活函数是ReLu）

不止有预训练？虽然相的观点仍然说明这只是一个初始化“黑魔法”而已。但这个步骤确确实实在削弱玻璃相区的阻碍。因此本人也有个臆测，加大规模，加大样本，提取深层特征的深度学习是跨越相一个表面技巧而已！或许我们能找到一种跨越或者回避相区的通用方法，一旦达到此目的，由此获得的特征或者才是真正的内禀表示。

3/3 首页上一页 1 2 3