Summary and supplement of
“ImageNet Classification with Deep
Convolutional Neural Networks”
summarized by @0tenchou
著者
Alex Krizhevsky
Ilya Sutskever
Geoffrey E. Hinton
url :https://www.nvidia.cn/content/tesla/pdf/machine-learning/imagenet-classification-with-deep-convolutional-nn.pdf
コンテンツ
Abstract
I. Introduction
II. The Dataset
III. The Architecture(構造)
I. ReLU Nonlinearity(非線形関数であるReLU)
II. Training on MultipleGPUs(マルチGPUで学習)
III. Local Response Normalization(LRN(活性化関数)
IV. Overlapping Pooling(重複プーリング)
V. Overall Architecture (全体構造)
IV. Reducing Overfitting(過学習の減少)
I. Data Augmentation(データ拡張)
II. Dropout(ドロップアウト)
V. Details of learning(学習の詳細)
VI. Results(結果)
I. Qualitative Evaluations(定性評価)
VII. Discussion(ディスカッション)
主題になっているのはどんなもの?
• 従来の画像認識技術よりも効果的なものだと言っている。
どんなペーパー?
• 画像認識率がとてつもなく高いことを強く書いている。
先行研究と比べてどこがすごい?
• ILSVRC-2012のコンペティションでのエラー率が二位と大差をつけて15.3%
だったこと。(2位が26.2%)
• 画像認識するための特徴量を自分で設定しなくてもよくなった。
システムの全体図
ネットワークの中身は重み付きの8つのレイヤーが含まれている。
はじめの5つは畳みこみで残りの3つは全結合されています。その3つの最後は1000クラスのラベ
ルにわたって分布を生成する1000方向のソフトマックスになっている。
技術や手法のキモ
はどこ?
• 学習時間を短縮するために活性化関数に
ReLUを使った。
• Deep Learningを採用し、その中間層に畳
みこみを実装した。
• 効率的な畳みこみ演算GPU実装をした。
• オーバーフィット(過学習)を抑えるための
ドロップアウト(正則化法)が採用された。
活性化関数とは
→入力信号の総和を出力信号に変換する関数である。簡単に言うと
与えられた値をもとに出力する値を決める判断基準
• 一般的に使われるのはReLU
→なぜかというとsoftmax関数より学習時間6倍近く早いため。(なぜそ
んなに早いかという理由は開いていたサイトが消えたためわからない
が確実に証明はされている)
dropoutとは
「ランダムにノードを非活性にして学習する」処理です。
学習のたびにランダムに非活性化されるノードが選ばれるの
で、実態は同じなのに毎回違う重みづけがなされる
どうやって有効だと検証した?
• ILSVRC(画像コンペ)で与えられた画像を学習して、エラー率を下げ
ることができた。
結果1
2010年では17%のエラー率をたたき出し、2012電
のでは15.3%と新たにエラー率をたたき出した。
仕様・改善点
• 中間層を削除するとネットワークのトップ1のパフォーマンスで約2%
の損失が発生する
• 学習時間がかかる
• 静止画の判別だけではなく連続画像データ(動画)においても使用で
きるようになりたい。
次に読むべき論文は?
• CNNの元祖となるLeNetを読んでみようと思う。
• Gradient-Based Learning Applied to Document Recognition

Alex net-survey-