SlideShare a Scribd company logo
1 of 23
Download to read offline
CNN-RNN: a large-scale hierarchical
image classification framework
2018/8/3 DLゼミ
町田 稜平
Abstract
• 論文URL:
https://link.springer.com/article/10.1007/s11042-017-5443-
x
• Author: Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao
Guo, Michael S. Lew
• Multimedia Tools and Applications: 77(8) April 2018
• 従来のCNNの構造にわずかな修正を加えることにより階層的な
構造をもつラベルを学習
• 単純な分類タスクにおける正解率も増加
What is the hierarchical labels?
• ImageNetなどの大規模なデータセットにおいては、
画像に対するラベルが意味的な階層構造を持つことが多い。
Example of hierarchical label
右側の画像に対する階層的なラベル
Animal
Bird
Apodiform bird
Hummingbird
Coarse label
(大局的なラベル)
Fine label
(局所的なラベル)
従来の方法では、Fine Labelの情
報しか利用できない
The purpose of this paper
①階層的なラベルを学習するDNN構造の開発
単純な分類タスクとは異なり、より明快な階層的ラベルを出力
Animal
Dog
Basenji
input image deep neural network hierarchical label
The purpose of this paper
②単純な分類タスクにおける精度向上
Fine labelだけでなく、Coarse labelの情報も利用することで、誤
判別のリスクを抑える
例: 右の画像を「トリケラトプス」と判定することは
困難でも、「恐竜」であることさえ分かれば、恐竜以
外の誤判別のリスクが無くなる。
The purpose of this paper
③Coarse labelのみのデータを学習プロセスに組み込む
右下の画像は、「魚」というラベルを割り当てるのは容易でも、
「ミヤコテングハギ」というラベルを割り当てるのは専門的な知識
がないと困難
→Crowdsourcingなどにより収集したデ
ータでは、Coarse Labelの情報だけ利用
したい場合がある
Scheme
階層的なラベルを学習する方法として2種類のDNN構造を
提案。
• CNN-based generator
従来のCNNにおける最後の全結合層の構造を変化
• CNN-RNN generator
CNNの出力層をRNNに置き換える
いずれのネットワークもCNNの最終層を置き換えているだけなので、
fine-tuningが可能である。
CNN based generator
• 従来のCNNにおける最後の全結合層(出力層)の構造を変化
(変化パターンとしてさらに3通り提案)
• Fine LabelとCoarse labelを別々に
生成し、それぞれの損失を合算
Course Loss Fine Loss
CNN-RNN generator
• CNNの出力層をRNNに置き換え、RNNの出力を階層的な
ラベルとして扱う
CNNの全結合層の出力を系列
として扱い、一つずつLSTM
モジュールの入力として与え
る。
全結合層のユニット数
= 階層数
Experiments on CIFAR-100 dataset
• CIFAR-100のデータセットの学習用データ(5万枚)を利用
• もともと割り当てられた100classをさらにいくつか統合し20種
類のsuperclassに分類 → 2階層のデータセットを作成
• まずは学習効率が高いCFNネットワーク(2017)をベースとして
今回の提案モデルを比較 → CNN-RNNが圧倒的に高い精度
かさ増しあり
Experiments on CIFAR-100 dataset
• 次に、CIFAR-100に対して高い精度を出している3つの
先行研究をベースとして、
1. fine labelのみ
2. coarse labelのみ
3. CNN-RNN
を用いた3通りの学習
による比較を行った。
→ いずれのモデルにおいても、CNN-RNNが最も高い精度を発揮
Experiments on CIFAR-100 dataset
• 最後に、様々な先行研究のモデルを
用いて誤判別率を計算
• その結果、wider-ResnetとCNN-
RNNを組み合わせたモデルが最も低
い誤判別率を実現
Experiments on ImageNet 2012 dataset
ImageNet 2012 dataset:
• ILSVRC 2012で用いられたデータセット
• カテゴリ数: 約1000種類
• 画像枚数: 学習用120万枚、テスト用5万
枚、評価用10万枚
各カテゴリの階層の深さは異なるため、
LSTMモジュールの値域に<EOS> (end of
state)を含めることにより可変長の階層を
学習
Experiments on ImageNet 2012 dataset
Resnet-150を用いた学習結果
• 可変長の階層構造も学習す
ることが可能
• Fine Labelが間違っていて
も、Coarse Labelが正しい
ような画像が存在
Infer fine label from coarse label
定義:
Sfine: coarse labelとfine labelを両方含むデータの集合
Scoarse: coarse labelのみが与えられたデータの集合
以下のプロセスに従って、Scoarseを学習プロセスに組み込むことが
できる。
①最初にSfineのみを用いて学習
②Scoarseのfine labelを予測し、その結果を学習データに含めて再学
習する
Experiments on ImageNet 2010 dataset
最初にこの方法が有効であることを示すため、以下の3つの
学習方法を比較する。
①学習済みVGGNetにより入力画像の特徴抽出を行い、機械学習に
より分類
②VGGNetを分類機として学習
③VGGNetを分類機として学習後、testデータのcoarseラベルだけ
与えてfine labelを推測
Experiments on ImageNet 2010 dataset
①学習済みVGGNetにより入力画像の特徴抽出を行い、
機械学習により分類
②VGGNetを分類機として学習
③VGGNetを分類機として学習後、testデータのcoarseラベルだけ
与えてfine labelを推測
①
②
③
Experiments on ImageNet 2010 dataset
CNN-RNNでは、coarse labelが与えられると非常に高い精
度でfine labelを予測できることがわかった。
さらに実践的な応用のため、以下の3種類の学習の比較を行う。
: Sfineのみを用いて学習
: Sfineのみを用いて学習後、Scoarseのfine labelを予測し、
その結果を学習用データに含めて再学習
: Scoarseの正解ラベルを利用し、すべてSfineとして扱う
Experiments on ImageNet 2010 dataset
学習に用いる画像枚数をデータセット全体の0.1倍、0.2倍、
0.5倍の3通りで実験
• Sfineが全体の1割しか含まれてい
ない場合:
Scoarseを用いても精度はほとんど上
昇が見られなかった
• Sfineが全体の半分ほど含まれて
いる場合:
Scoarseを用いると、すべて正解ラベ
ルを利用した場合と同程度の精度
を達成した
Conclusion
• 従来のCNNの構造をわずかに変化させることによって、
階層構造を持ったラベルの学習が可能になった
• CNNのみを用いた手法とRNNを組み合わせた手法では、RNNを
組み合わせた手法が圧倒的に高い精度を発揮した。
• また、fine labelやcoarse labelの単純な分類精度だけ見ても、
先行研究より高い精度を発揮した。
• coarse labelのみが与えられたデータを学習プロセスに組み込む
ことで、分類精度をさらに向上させることができた。
Future prospects
• 小規模なデータセットにおいては階層的なラベル構造
を持たないことが多いため、別の工夫を取り入れる必要がある。
• クラスタリング手法を用いた自動階層分けにより、CNN-RNNの
適用範囲の広大化と分類精度向上を目指す。
Reference
• Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao Guo,
Michael S. Lew (2017) CNN-RNN: a large-scale hierarchical
image classification framework. Multimedia Tools and
Applications: 77(8) April 2018. pp10251–10271
• Translation with a Sequence to Sequence Network and
Attention — PyTorch Tutorials 0.4.1 documentation
https://pytorch.org/tutorials/intermediate/seq2seq_translatio
n_tutorial.html

More Related Content

What's hot

What's hot (20)

モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

CNN-RNN: a large-scale hierarchical image classification framework

  • 1. CNN-RNN: a large-scale hierarchical image classification framework 2018/8/3 DLゼミ 町田 稜平
  • 2. Abstract • 論文URL: https://link.springer.com/article/10.1007/s11042-017-5443- x • Author: Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao Guo, Michael S. Lew • Multimedia Tools and Applications: 77(8) April 2018 • 従来のCNNの構造にわずかな修正を加えることにより階層的な 構造をもつラベルを学習 • 単純な分類タスクにおける正解率も増加
  • 3. What is the hierarchical labels? • ImageNetなどの大規模なデータセットにおいては、 画像に対するラベルが意味的な階層構造を持つことが多い。
  • 4. Example of hierarchical label 右側の画像に対する階層的なラベル Animal Bird Apodiform bird Hummingbird Coarse label (大局的なラベル) Fine label (局所的なラベル) 従来の方法では、Fine Labelの情 報しか利用できない
  • 5. The purpose of this paper ①階層的なラベルを学習するDNN構造の開発 単純な分類タスクとは異なり、より明快な階層的ラベルを出力 Animal Dog Basenji input image deep neural network hierarchical label
  • 6. The purpose of this paper ②単純な分類タスクにおける精度向上 Fine labelだけでなく、Coarse labelの情報も利用することで、誤 判別のリスクを抑える 例: 右の画像を「トリケラトプス」と判定することは 困難でも、「恐竜」であることさえ分かれば、恐竜以 外の誤判別のリスクが無くなる。
  • 7. The purpose of this paper ③Coarse labelのみのデータを学習プロセスに組み込む 右下の画像は、「魚」というラベルを割り当てるのは容易でも、 「ミヤコテングハギ」というラベルを割り当てるのは専門的な知識 がないと困難 →Crowdsourcingなどにより収集したデ ータでは、Coarse Labelの情報だけ利用 したい場合がある
  • 8. Scheme 階層的なラベルを学習する方法として2種類のDNN構造を 提案。 • CNN-based generator 従来のCNNにおける最後の全結合層の構造を変化 • CNN-RNN generator CNNの出力層をRNNに置き換える いずれのネットワークもCNNの最終層を置き換えているだけなので、 fine-tuningが可能である。
  • 9. CNN based generator • 従来のCNNにおける最後の全結合層(出力層)の構造を変化 (変化パターンとしてさらに3通り提案) • Fine LabelとCoarse labelを別々に 生成し、それぞれの損失を合算 Course Loss Fine Loss
  • 11. Experiments on CIFAR-100 dataset • CIFAR-100のデータセットの学習用データ(5万枚)を利用 • もともと割り当てられた100classをさらにいくつか統合し20種 類のsuperclassに分類 → 2階層のデータセットを作成 • まずは学習効率が高いCFNネットワーク(2017)をベースとして 今回の提案モデルを比較 → CNN-RNNが圧倒的に高い精度 かさ増しあり
  • 12. Experiments on CIFAR-100 dataset • 次に、CIFAR-100に対して高い精度を出している3つの 先行研究をベースとして、 1. fine labelのみ 2. coarse labelのみ 3. CNN-RNN を用いた3通りの学習 による比較を行った。 → いずれのモデルにおいても、CNN-RNNが最も高い精度を発揮
  • 13. Experiments on CIFAR-100 dataset • 最後に、様々な先行研究のモデルを 用いて誤判別率を計算 • その結果、wider-ResnetとCNN- RNNを組み合わせたモデルが最も低 い誤判別率を実現
  • 14. Experiments on ImageNet 2012 dataset ImageNet 2012 dataset: • ILSVRC 2012で用いられたデータセット • カテゴリ数: 約1000種類 • 画像枚数: 学習用120万枚、テスト用5万 枚、評価用10万枚 各カテゴリの階層の深さは異なるため、 LSTMモジュールの値域に<EOS> (end of state)を含めることにより可変長の階層を 学習
  • 15. Experiments on ImageNet 2012 dataset Resnet-150を用いた学習結果 • 可変長の階層構造も学習す ることが可能 • Fine Labelが間違っていて も、Coarse Labelが正しい ような画像が存在
  • 16. Infer fine label from coarse label 定義: Sfine: coarse labelとfine labelを両方含むデータの集合 Scoarse: coarse labelのみが与えられたデータの集合 以下のプロセスに従って、Scoarseを学習プロセスに組み込むことが できる。 ①最初にSfineのみを用いて学習 ②Scoarseのfine labelを予測し、その結果を学習データに含めて再学 習する
  • 17. Experiments on ImageNet 2010 dataset 最初にこの方法が有効であることを示すため、以下の3つの 学習方法を比較する。 ①学習済みVGGNetにより入力画像の特徴抽出を行い、機械学習に より分類 ②VGGNetを分類機として学習 ③VGGNetを分類機として学習後、testデータのcoarseラベルだけ 与えてfine labelを推測
  • 18. Experiments on ImageNet 2010 dataset ①学習済みVGGNetにより入力画像の特徴抽出を行い、 機械学習により分類 ②VGGNetを分類機として学習 ③VGGNetを分類機として学習後、testデータのcoarseラベルだけ 与えてfine labelを推測 ① ② ③
  • 19. Experiments on ImageNet 2010 dataset CNN-RNNでは、coarse labelが与えられると非常に高い精 度でfine labelを予測できることがわかった。 さらに実践的な応用のため、以下の3種類の学習の比較を行う。 : Sfineのみを用いて学習 : Sfineのみを用いて学習後、Scoarseのfine labelを予測し、 その結果を学習用データに含めて再学習 : Scoarseの正解ラベルを利用し、すべてSfineとして扱う
  • 20. Experiments on ImageNet 2010 dataset 学習に用いる画像枚数をデータセット全体の0.1倍、0.2倍、 0.5倍の3通りで実験 • Sfineが全体の1割しか含まれてい ない場合: Scoarseを用いても精度はほとんど上 昇が見られなかった • Sfineが全体の半分ほど含まれて いる場合: Scoarseを用いると、すべて正解ラベ ルを利用した場合と同程度の精度 を達成した
  • 21. Conclusion • 従来のCNNの構造をわずかに変化させることによって、 階層構造を持ったラベルの学習が可能になった • CNNのみを用いた手法とRNNを組み合わせた手法では、RNNを 組み合わせた手法が圧倒的に高い精度を発揮した。 • また、fine labelやcoarse labelの単純な分類精度だけ見ても、 先行研究より高い精度を発揮した。 • coarse labelのみが与えられたデータを学習プロセスに組み込む ことで、分類精度をさらに向上させることができた。
  • 22. Future prospects • 小規模なデータセットにおいては階層的なラベル構造 を持たないことが多いため、別の工夫を取り入れる必要がある。 • クラスタリング手法を用いた自動階層分けにより、CNN-RNNの 適用範囲の広大化と分類精度向上を目指す。
  • 23. Reference • Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao Guo, Michael S. Lew (2017) CNN-RNN: a large-scale hierarchical image classification framework. Multimedia Tools and Applications: 77(8) April 2018. pp10251–10271 • Translation with a Sequence to Sequence Network and Attention — PyTorch Tutorials 0.4.1 documentation https://pytorch.org/tutorials/intermediate/seq2seq_translatio n_tutorial.html