CNN-RNN: a large-scale hierarchical image classification framework

CNN-RNN: a large-scale hierarchical
image classification framework
2018/8/3 DLゼミ
町田稜平

Abstract
• 論文URL:
https://link.springer.com/article/10.1007/s11042-017-5443-
x
• Author: Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao
Guo, Michael S. Lew
• Multimedia Tools and Applications: 77(8) April 2018
• 従来のCNNの構造にわずかな修正を加えることにより階層的な
構造をもつラベルを学習
• 単純な分類タスクにおける正解率も増加

What is the hierarchical labels?
• ImageNetなどの大規模なデータセットにおいては、
画像に対するラベルが意味的な階層構造を持つことが多い。

Example of hierarchical label
右側の画像に対する階層的なラベル
Animal
Bird
Apodiform bird
Hummingbird
Coarse label
(大局的なラベル)
Fine label
(局所的なラベル)
従来の方法では、Fine Labelの情
報しか利用できない

The purpose of this paper
①階層的なラベルを学習するDNN構造の開発
単純な分類タスクとは異なり、より明快な階層的ラベルを出力
Animal
Dog
Basenji
input image deep neural network hierarchical label

②単純な分類タスクにおける精度向上
Fine labelだけでなく、Coarse labelの情報も利用することで、誤
判別のリスクを抑える
例: 右の画像を「トリケラトプス」と判定することは
困難でも、「恐竜」であることさえ分かれば、恐竜以
外の誤判別のリスクが無くなる。

③Coarse labelのみのデータを学習プロセスに組み込む
右下の画像は、「魚」というラベルを割り当てるのは容易でも、
「ミヤコテングハギ」というラベルを割り当てるのは専門的な知識
がないと困難
→Crowdsourcingなどにより収集したデ
ータでは、Coarse Labelの情報だけ利用
したい場合がある

Scheme
階層的なラベルを学習する方法として2種類のDNN構造を
提案。
• CNN-based generator
従来のCNNにおける最後の全結合層の構造を変化
• CNN-RNN generator
CNNの出力層をRNNに置き換える
いずれのネットワークもCNNの最終層を置き換えているだけなので、
fine-tuningが可能である。

CNN based generator
• 従来のCNNにおける最後の全結合層(出力層)の構造を変化
(変化パターンとしてさらに3通り提案)
• Fine LabelとCoarse labelを別々に
生成し、それぞれの損失を合算
Course Loss Fine Loss

CNN-RNN generator
• CNNの出力層をRNNに置き換え、RNNの出力を階層的な
ラベルとして扱う
CNNの全結合層の出力を系列
として扱い、一つずつLSTM
モジュールの入力として与え
る。
全結合層のユニット数
= 階層数

Experiments on CIFAR-100 dataset
• CIFAR-100のデータセットの学習用データ(5万枚)を利用
• もともと割り当てられた100classをさらにいくつか統合し20種
類のsuperclassに分類 → 2階層のデータセットを作成
• まずは学習効率が高いCFNネットワーク(2017)をベースとして
今回の提案モデルを比較 → CNN-RNNが圧倒的に高い精度
かさ増しあり

• 次に、CIFAR-100に対して高い精度を出している3つの
先行研究をベースとして、
1. fine labelのみ
2. coarse labelのみ
3. CNN-RNN
を用いた3通りの学習
による比較を行った。
→ いずれのモデルにおいても、CNN-RNNが最も高い精度を発揮

• 最後に、様々な先行研究のモデルを
用いて誤判別率を計算
• その結果、wider-ResnetとCNN-
RNNを組み合わせたモデルが最も低
い誤判別率を実現

Experiments on ImageNet 2012 dataset
ImageNet 2012 dataset:
• ILSVRC 2012で用いられたデータセット
• カテゴリ数: 約1000種類
• 画像枚数: 学習用120万枚、テスト用5万
枚、評価用10万枚
各カテゴリの階層の深さは異なるため、
LSTMモジュールの値域に<EOS> (end of
state)を含めることにより可変長の階層を
学習

Resnet-150を用いた学習結果
• 可変長の階層構造も学習す
ることが可能
• Fine Labelが間違っていて
も、Coarse Labelが正しい
ような画像が存在

Infer fine label from coarse label
定義:
Sfine: coarse labelとfine labelを両方含むデータの集合
Scoarse: coarse labelのみが与えられたデータの集合
以下のプロセスに従って、Scoarseを学習プロセスに組み込むことが
できる。
①最初にSfineのみを用いて学習
②Scoarseのfine labelを予測し、その結果を学習データに含めて再学
習する

最初にこの方法が有効であることを示すため、以下の3つの
学習方法を比較する。
①学習済みVGGNetにより入力画像の特徴抽出を行い、機械学習に
より分類
②VGGNetを分類機として学習
③VGGNetを分類機として学習後、testデータのcoarseラベルだけ
与えてfine labelを推測

①学習済みVGGNetにより入力画像の特徴抽出を行い、
機械学習により分類
②VGGNetを分類機として学習
③VGGNetを分類機として学習後、testデータのcoarseラベルだけ
与えてfine labelを推測
①
②
③

CNN-RNNでは、coarse labelが与えられると非常に高い精
度でfine labelを予測できることがわかった。
さらに実践的な応用のため、以下の3種類の学習の比較を行う。
: Sfineのみを用いて学習
: Sfineのみを用いて学習後、Scoarseのfine labelを予測し、
その結果を学習用データに含めて再学習
: Scoarseの正解ラベルを利用し、すべてSfineとして扱う

学習に用いる画像枚数をデータセット全体の0.1倍、0.2倍、
0.5倍の3通りで実験
• Sfineが全体の1割しか含まれてい
ない場合:
Scoarseを用いても精度はほとんど上
昇が見られなかった
• Sfineが全体の半分ほど含まれて
いる場合:
Scoarseを用いると、すべて正解ラベ
ルを利用した場合と同程度の精度
を達成した

Conclusion
• 従来のCNNの構造をわずかに変化させることによって、
階層構造を持ったラベルの学習が可能になった
• CNNのみを用いた手法とRNNを組み合わせた手法では、RNNを
組み合わせた手法が圧倒的に高い精度を発揮した。
• また、fine labelやcoarse labelの単純な分類精度だけ見ても、
先行研究より高い精度を発揮した。
• coarse labelのみが与えられたデータを学習プロセスに組み込む
ことで、分類精度をさらに向上させることができた。

Future prospects
• 小規模なデータセットにおいては階層的なラベル構造
を持たないことが多いため、別の工夫を取り入れる必要がある。
• クラスタリング手法を用いた自動階層分けにより、CNN-RNNの
適用範囲の広大化と分類精度向上を目指す。

Reference
• Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao Guo,
Michael S. Lew (2017) CNN-RNN: a large-scale hierarchical
image classification framework. Multimedia Tools and
Applications: 77(8) April 2018. pp10251–10271
• Translation with a Sequence to Sequence Network and
Attention — PyTorch Tutorials 0.4.1 documentation
https://pytorch.org/tutorials/intermediate/seq2seq_translatio
n_tutorial.html

CNN-RNN: a large-scale hierarchical image classification framework

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (8)

CNN-RNN: a large-scale hierarchical image classification framework