在 random labels 實驗中 (https://www.slideshare.net/BrianHuang34/random-labels-mnist),透過實驗結果我們發現 DNNs 可能是學習 patterns 再將 noise 以增加 capacity 的方式暴力記憶。 我們配置了九種神經網路,並對 training data 加上不同程度的 Gaussian noise,來觀察神經網路對 noise 的擬合程度,來進一步驗證我們的假設。 讓我們仔細觀察實驗結果,當神經網路參數很少時,對噪聲是幾乎沒有抵抗力的,而參數量越多的神經網路,面對 noise 的表現越好。 我們也可以清楚看到,同樣的神經網路在面對越高的 noise 程度時收斂越慢。 到此,我們幾乎可以很篤定的說,DNNs 會先去學習資料中的 pattern,再用額外的 capacity 去記憶 noise。這樣才能解釋為何收斂時間隨著 noise 升高成正比,因為需要靠暴力去記的東西變多了嘛! 此外,比較圖三、五的神經網路,可以再次應證高瘦的網路比矮胖的網路要好。