Network in Network

Network in Network
Reporter：Anna Li

AlexNet
NIN
AlexNet vs NIN 網路架構

Summary
1.提出一個NIN的深度網絡結構用以增強模型在感知野在局部圖像塊的辨別力。
2.提出在卷積層使用非線性代替現有的線性模型。
3.使用一個由MLP組成的micro neural網絡作為非線性模型去掃描輸入以提取特徵圖
4. NIN就是將micro neural以棧的形式組合而成。

CNN由卷積層與池化層組成
• 卷積層對下層的數據塊來說是一個GLM（generalized linear model，廣義線性模型）
文中提到：GLM抽象層次較低，即相同概念下的變量特徵是相同
GLM能夠獲取較好的抽象，當潛在概念的樣本是線性可分的時候
CNN其實有一個假設就是潛在的概念是線性可分的
• 相同概念的數據一般是存在於一個非線性的模型中，因此，捕捉真實數據一般使用非線性模型
Introduction

• 使用一個MLP代替卷積層的線性卷積操作
• MLP是一個通用近似函數而且可由神經網絡使用反向傳播進行訓練
• 文中將其命名為mlpconv
Introduction

1.線性卷積層與mlpconv層都與receptive field相連接以用輸出特徵向量
2.mlpconv使用一個mlp連接input與output
3.mlp被共享於所有的局部感受野
4.特徵映射被包含通過滑動mlp以cnn相同處理方式（掃描）
Introduction

Introduction - Maxout
1.maxout的擬合能力是非常強的，它可以擬合任意的的凸函數
2.maxout又是取k個隱隱含層節點的最大值，這些”隱隱含層"節點也是線性的，所以在不同的取值範圍下，最
大值也可以看做是分段線性的（分段的個數與k值有關）。
3.只需2個maxout節點就可以擬合任意的凸函數了（相減），前提是“隱隱含層”節點的個數可以任意多

情境說明：
現在有一個3x3的輸入，用一個9維的向量x代表
卷積核大小也是3x3，也9維的向量w代表
• 常規卷積層處理方式 : 直接x和w求卷積，然後relu一下就好了
• Maxout處理方式 : 有k個的3x3的w
分別卷積得到k個1x1的輸出
然後對這k個輸入求最大值
• NIN處理方式: 有k個3x3的w
分別卷積得到k個1x1的輸出
然後對它們都進行relu
然後再次對它們進行卷積，結果再relu。
（這個過程，等效於一個小型的全連接網絡）
Introduction - Maxout

1.maxout和NIN都是對傳統conv+relu的改進
2.maxout想表明它能夠擬合任何凸函數，也就能夠擬合任何的激活函數（默認了激活函數都是凸的）
3.NIN想表明它不僅能夠擬合任何凸函數，而且能夠擬合任何函數，因為它本質上可以說是一個小型的全連接
神經網絡
Introduction - 總結

全局平均池化
傳統的cnn是在較低層使用卷積，如分類任務中，最後的捲積層所得feature map被大量的進行全連接層，
然後使用softmax 回歸進行分類。
一般來說，全連階層在卷積的末端完成的捲積與傳統分類器的橋接。
全連接階段易於過擬合，妨礙整個網絡的泛化能力，一般應有一些規則方法來處理過擬合。

全局平均池化
• 理論：在MLPconv的最後一層為每一個分類任務的相應種類生成一個特徵映射
• 優點：
全局平均池化更原生的支持於卷積結構
通過加強特徵映射與相應分（種）類的對應關係，因此,特徵映射可以很容易地解釋為分類映射。
全局平均池化一層沒有需要優化的參數，因此在這一層可以避免過擬合
• 總結：
用來代替CNN中傳統的全連接層

Network In Network結構
全局的NIN結構就是一個棧式組合的MLPconv，
然後，用全局平均池化替換全連接層，
用MLPconv代替卷積操作，仍舊用子採樣分隔MLPconv

實驗
論文用四個數據集進行實驗。CIFAR-10/100,SVHN,MNIST。
網絡結構為：三層MLPconv+空間最大池化+下採樣+全局平均池化，
除最後一個MLPconv層外，其餘層使用dropout進行正則化。
訓練過程：手動設置參數--〉最小batch=128--〉
初始化權重與學習率，重複進行，
直到在訓練集上的準確率停止改善，並且學習率最終為初始值的百分之一。

CIFAR-10
• CIFAR-10數據集由10個類別的近50k幅訓練和10k測試自然圖片組成，
每一張圖片為RGB彩色，32x32大小。
• 使用Maxout中的：全局對比+ 歸一化 + ZCA白化。
• 每個MLPconv層的特徵映射數量被設計成相同，
使用驗證集進行兩個參數的調優操作（局部感受野大小與權重衰減）。
當兩個hyper-parameters是固定的，從頭開始重新訓練網絡訓練集和驗證集。

CIFAR-100
• CIFAR-100數據庫中的圖片大小與格式與CIFAR-10相同，但是包含了100個分類。
• C-100中每一分類的數據就是C-10的十分之一。
• 對於CIFAR-100數據庫，論文中沒有訓練超參數，而是直接使用了CIFAR-10所訓練好的超參數直接
進行訓練。
• 模型與CIFAR-10的唯一區別就是最後一個MLPconv層的輸出為100個特徵映射。作者訓練後得到的
錯誤率為35.68%

街景門牌號-SVHN
• SVHN數據庫由630420個32x32的彩色圖片組成：分成訓練集、測試集和額外集
• 數據集的任務是用於分類定位圖片中心的數字
• 實作方式：
對於每一類，從訓練集中選擇400個樣本，
再從額外集中選擇200個樣本用於驗證，
訓練集與和額外集中其餘的樣本用於訓練
組成的驗證集僅僅用於超參的選擇，不會在訓練過程中使用。

街景門牌號-SVHN
其訓練模型的結構與參數與CIFAR-10的模型相似，三層MLPconv+全局平均池化。此模型達到了2.35%，比較結
果見下圖。

MNIST
• MNIST數據庫由0-9個數字的圖片組成，圖片大小為28x28，約有60k張訓練圖片和10k張測試圖片。
• 實作方式：
使用CIFAR-10的模型進行訓練，只是將每個MLPconv層生成的特徵映射數量減少
減少的原因是MNIST與CIFAR-10相比較是一個簡單的數據庫，只需要較少的參數。
• 論文中的測試其方法沒有使用數據集擴充（data augmentation），其結果如下圖。該模型所得測
試誤差為0.47%，比當前最好的結果Conv with Maxout+Dropout略差。

全局平均池化作為正則化矩陣
全局平均池化層的作用與全連接層相似，兩者都是將矢量化的特徵映射進行線性變換。
兩者區別在於其變換知識：
全局平均池化：轉換矩陣被置於前面（/前綴）並且其塊對角元素是非零相同值
全連接層：可以有密集的轉換矩陣並且其值易於反向傳播優化。
實作：
使用全局平均池化代替了全連接層，並且保持模型其它部分是相同的。兩個模型都使用CIFAR-10
進行訓練，其結果對比如下圖。從圖中可以看出，全連接層without Dropout的是最差（高）的
結論：全連接層容易過擬合

可視化of NIN
論文中提到：通過全局平均池化方法（只得到唯一的一個強烈的局部感受野模型）。抽取並直接顯示了用
於CIFAR10上的模型中最後一層MLPconv的特徵映射（圖），見下圖。
論文再次提到：可視化再次說明了NIN的效果，
NIN模型通過使用MLPconv可以收到一個更為
強烈的局部感受野模型，全局平均池化可以提
高

白化
白化是一種重要的預處理過程，其目的就是降低輸入數據的冗餘性，
使得經過白化處理的輸入數據具有如下性質：
特徵之間相關性較低
所有特徵具有相同的方差
• 白化處理分PCA白化和ZCA白化
• PCA白化保證數據各維度的方差為1
• ZCA白化保證數據各維度的方差相同
• PCA白化可以用於降維也可以去相關性
• ZCA白化主要用於去相關性，且盡量使白化後的數據接近原始輸入數據

PCA白化
根據白化的兩個要求，我們首先是降低特徵之間的相關性。
在PCA中，我們選取前K大的特徵值的特徵向量作為投影方向，如果K的大小為數據的維度n，把這K個特徵向
量組成選擇矩陣U（每一列為一個特徵向量），為旋轉後的數據。
如果K<n，就是PCA降维，如果K=n，特徵間相關性降低。

PCA白化
原始數據分佈 PCA旋轉後數據分佈
原始數據和經過PCA旋轉之後的數據，可以發現數據之間的相對位置都沒有改變，
但這種方法就降低了數據之後的相關性。

PCA白化
經過PCA白化處理的數據，此時的協方差矩陣為單位矩陣I。PCA白化與ZCA白化對比
PCA白化 ZCA白化

ZCA白化
ZCA白化只是在PCA白化的基礎上做了一個旋轉操作，使得白化之後的數據更加的接近原始數據。
ZCA白化首先通過PCA去除了各個特徵之間的相關性，然後是輸入特徵具有單位方差，此時得到PCA白
化後的處理結果，然後再把數據旋轉回去，得到ZCA白化的處理結果，

參數
SGD的參數
在使用隨機梯度下降（SGD）的學習方法時，一般來說有以下幾個可供調節的參數:
• Learning Rate 學習率：必須的
• Weight Decay 權值衰減：不需要時可以設為0
• Momentum 動量：不需要時可以設為0
• Learning Rate Decay 學習率衰減：不需要時可以設為0

參數
SGD的參數
學習率決定了權值更新的速度，設置得太大會使結果越過最優值，太小會使下降速度過慢。

參數
SGD的參數
在實際運用中，為了避免模型的over-fitting，需要對cost function加入規範項。
主要是減小不重要的參數對結果的影響，而有用的權重則不會受到Weight decay的影響，
這種思路與Dropout的思路原理上十分相似。

參數
SGD的參數
一種提高SGD尋優能力的方法，具體做法是每次迭代減小學習率的大小。

參數
SGD的參數
一種提高SGD尋優能力的方法，具體做法是每次迭代減小學習率的大小。
尋優加入了“慣性”的影響，這樣一來，當誤差曲面中存在平坦區SGD可以一更快的速度學習

參數
SGD的參數
SGD的優點：
實現簡單，當訓練樣本足夠多時優化速度非常快
SGD的缺點：
需要人為調整很多參數，比如學習率，收斂準則等

參數
ASGD （Averaged Stochastic Gradient Descent ）的參數
在SGD的基礎上計算了權值的平均值
在SGD的基礎上增加參數t0t0
學習率ηη
參數t0t0
ASGD的優點：
運算花費和second order stochastic gradient descent (2SGD)一樣小
ASGD的缺點：
比SGD的訓練速度更為緩慢
t0t0的設置十分困難

參數
Conjugate Gradient（共軛梯度法）
它僅僅需要利用一階導數的信息，克服了SGD收斂慢的特點。

1 x 1 convolution
實現跨通道的交互和信息整合
• 利用MLP代替傳統的線性卷積核，從而提高網絡的表達能力。
• 利用了跨通道pooling的角度解釋，認為文中提出的MLP其實等價於在傳統卷積核後面接cccp層，從而
實現多個特徵映射的線性組合，實現跨通道的信息整合。
• cccp層是等價於1×1卷積的，就是在每個傳統卷積層後面接了兩個CCCP層（其實就是接了兩個1×1的卷
積層）

1 x 1 convolution
進行卷積核通道數的降維和升維
由於3X3卷積或者5X5卷積在幾百個過濾器的卷積層上做卷積操作時相當耗時，
所以1X1卷積在3X3卷積或者5X5卷積計算之前先降低維度。
那麼，1X1卷積的主要作用有以下幾點：
1：降維（dimension reductionality）
比如，一張500 X500且厚度深度為100的圖片在20個過濾器上做1X1的捲積，
那麼結果的大小為500X500X20
2 ：加入非線性。
卷積層之後經過激勵層，1X1的捲積在前一層的學習表示上添加了非線性激勵
（non-linear activation），提升網絡的表達能力

1 x 1 convolution
如果卷積的輸出輸入都是一個平面，那麼1X1卷積核並沒有什麼意義，它是完全不考慮像素與周邊其他
像素關係。
但卷積的輸出輸入是長方體，所以1X1卷積實際上對每個像素點，在不同的頻道上進行線性組合，且保
留原有平面結構，調控深度，從而完成升維或降維的功能。

1 x 1 convolution
情境說明：
若用2個過濾器的1X1卷積層，那麼數據就從原來的depth3降到了2
若用4個濾波器，則起到了升維的作用。

1 x 1 convolution
可以在保持特徵地圖尺寸不變（即不損失分辨率）的前提下大幅增加非線性特性，把網絡做得很深
NIN引入了逐個卷積。此論文中在不簡單地堆疊更多層的情況下生成更深層次的網絡。

論文所用到的數據集介紹-CIFAR-10
CIFAR-10數據集由10個類的60000個32x32彩色圖像組成，每個類有6000個圖像。有50000個訓練圖像和
10000個測試圖像。
數據集分為五個訓練批次和一個測試批次，每個批次有10000個圖像。測試批次包含來自每個類別的恰
好1000個隨機選擇的圖像。訓練批次以隨機順序包含剩餘圖像，但一些訓練批次可能包含來自一個類別
的圖像比另一個更多。總體來說，五個訓練集之和包含來自每個類的正好5000張圖像。
以下是數據集中的類，以及來自每個類的10個隨機圖像
共有十個分類：飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車。

論文所用到的數據集介紹-CIFAR-100
這個數據集就像CIFAR-10，
有100個類，
每個類包含600個圖像。
每類各有500個訓練圖像和100個測試圖像。
CIFAR-100中的100個類被分成20個超類。
每個圖像都帶有一個“精細”標籤（它所屬的類）
和一個“粗糙”標籤（它所屬的超類）
旁邊是CIFAR-100中的類別列表：
超類類別
水生哺乳動物海狸，海豚，水獺，海豹，鯨魚
魚水族館的魚，比目魚，射線，鯊魚，鱒魚
花卉蘭花，罌粟花，玫瑰，向日葵，鬱金香
食品容器瓶子，碗，罐子，杯子，盤子
水果和蔬菜蘋果，蘑菇，橘子，梨，甜椒
家用電器時鐘，電腦鍵盤，檯燈，電話機，電視機
家用家具床，椅子，沙發，桌子，衣櫃
昆蟲蜜蜂，甲蟲，蝴蝶，毛蟲，蟑螂
大型食肉動物熊，豹，獅子，老虎，狼
大型人造戶外用品橋，城堡，房子，路，摩天大樓
大自然的戶外場景雲，森林，山，平原，海
大雜食動物和食草動物駱駝，牛，黑猩猩，大象，袋鼠
中型哺乳動物狐狸，豪豬，負鼠，浣熊，臭鼬
非昆蟲無脊椎動物螃蟹，龍蝦，蝸牛，蜘蛛，蠕蟲
人寶貝，男孩，女孩，男人，女人
爬行動物鱷魚，恐龍，蜥蜴，蛇，烏龜
小型哺乳動物倉鼠，老鼠，兔子，母老虎，松鼠
樹木楓樹，橡樹，棕櫚，松樹，柳樹
車輛1 自行車，公共汽車，摩托車，皮卡車，火車
車輛2 割草機，火箭，有軌電車，坦克，拖拉機

論文所用到的數據集介紹-SVHN
Street View House Numbers是一個真實世界的圖像數據集，用於開發機器學習和對象識別算法，
對數據預處理和格式化的要求最低。
該數據集包含從街道級照片中裁剪的超過600,000個標記數字。
能夠從地理位置的像素片段自動轉錄這些地址編號並將轉錄的數字與已知的街道地址相關聯，這有
助於確定其所代表的建築物的位置。

課後補充
Mlpconv層的計算（這裡n是多層感知器中的層編號）

課後補充
maxout層的特徵圖計算如下：

Network in Network

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Network in Network