Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Multi stream convolutional neural network

207 views

Published on

ICCV2019読み会@京都の資料

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Multi stream convolutional neural network

  1. 1. ICCV 2019読み会@京都 Multi Stream Convolutional Neural Network @ ICCV 2019 Kyoto December 16, 2019 株式会社エクサウィザーズ 藤井亮宏
  2. 2. 自己紹介 名前 : 藤井亮宏(アキヒロ) ExaWizardsにおける仕事内容 • Machine Learning Engineer • 画像分類 • 物体検知 • 時系列解析 • 異常検知 • ML系のイベント主催 • CVPR, AAAI等の重要国際会議 • GAN等の⽣成モデルに絞った勉強会 @AkiraTOSEI @akihiro_f ML関係のことを週1投稿 (祝 🎂8回連続成功) 論⽂の⼀⾔紹介とか
  3. 3. Summary このスライドでは、「ドメイン知識を用いてネットワーク構造の工夫をした手 法(と藤井が勝手に思っている) 」@ICCV2019を紹介します。 1. SlowFast Networks for Video Recognition 変化が激しい部分とあまり変化しない部分を分けて処理する(@動 画) 2. Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution 変化が激しい部分とあまり変化しない部分を分けて処理する(@画 像)
  4. 4. DLで良いモデルを作るには? 特徴量抽出とモデル構築両方を工夫する必要がある。 時系列Tableデータ 特徴量抽出の⼯夫 (特徴量エンジニアリング) モデル構造の選択 • 特徴量C(=特徴量A/特徴量B) を追加 • 全特徴量の平均を新たな特 徴量として追加 etc… • 線形回帰 • GBDT • LSTM • Transformer Encoder • Conv1D etc… 重要な情報をモデルに⼊れ 込めるようにする 重要な情報を読み取れるモ デルを選択する
  5. 5. 特徴量エンジニアリング 動画像における特徴量付加の例 https://papers.nips.cc/paper/5353-two-stream-convolutional-networks-for-action- recognition-in-videos.pdf Optical Flowを使って、 動きの情報を付加する 位置情報を付与する https://arxiv.org/abs/1807.03247
  6. 6. 特徴量を上手くとるために モデル構造工夫の例 https://arxiv.org/pdf/1802.03268.pdf https://arxiv.org/pdf/1805.08318.pdf 画像全体を参照できる Self-Attentionを使う 最適なネットワーク構 造を探索する
  7. 7. Two stream Convolutional Neural Network 今日紹介するのは、『(ドメイン知識による)情報の付加』を『ネットワークの 工夫』で処理する手法を紹介する 動画⾏動検知で、動きの 速い部分と遅い部分を分 けて処理した⽅がよい ドメイン知識 ネットワーク構造へ の反映 画像において、帯域的な 特徴(低周波成分)と局所的 な特徴(⾼周波成分)を分け て処理した⽅がよい
  8. 8. 1つ目の論文 SlowFast Networks for Video Recognition 著者: Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He 研究機関: Facebook AI Research (FAIR) 概要: 動画を⾼周波成分(⾼FPS)と低周波 成分(低FPS) にわけて処理する⼿法 を提案。Optical Flowを使⽤しない ためEnd-to-Endで学習可能で、 Kinetics-400(動画の⾏動検知)で State-of-the-art
  9. 9. Key Insight “時間変化するもの”と”時間変化しにくいもの”があるので、それを分けて処理 すると精度があがるのでは? `rm –r *`コマンドを間違えて実⾏したときの表情変化 時間変化するもの • ⽬/⼝等の顔のパーツ • 顔⾊ 時間変化しないもの • ⼈物⾃体の特徴 • 服の⾊ • 髪型 時間⽅向の畳み込み 時間⽅向の畳み込み ⾏動の例
  10. 10. Method ResNet50における実装例 • Slow/Fastで時系列⽅向の Frame数は8倍異なる • 処理時間を合わせるため、 Fastの⽅はチャネル数を 1/8にしている
  11. 11. Results ImageNetで事前学習したり、Optical Flowを使ったモデルよりもよい精度
  12. 12. Results SlowFastを使うと、時系列的なサンプリング密度を高めたものより、高速で高 精度なネットワークが構築できる (Input fame数 x stride)
  13. 13. 2つ目の論文 Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution 著者: Yunpeng Chen, Haoqi Fan , Bing Xu , Zhicheng Yan , Yannis Kalantidis, Marcus Rohrbach, Shuicheng Yan , Jiashi Feng 研究機関: Facebook AI, National University of Singapore, Yitu Technology 概要: 画像の⾼周波成分と低周波成分を わけて処理する⼿法を提案。同じ パラメータ数でも⾼速かつ⾼精度 になる。
  14. 14. Key Insight 画像は高周波成分と低周波成分に分解可能。 1. それぞれで処理したら精度上がるのでは? 2. 低周波成分は空間的に畳み込みの回数減らしてもいいのでは? High FrequencyLow Frequency ぼやけた画像 エッジ画像 異なる⼤きさの画像を同じKernel sizeで処理することで、明⽰的に処理を分けられる 適⽤範囲が狭い=⾼周波成分を処理 適⽤範囲が広い=低周波成分を処理 ⾼周波の 処理 低周波の 処理
  15. 15. Method 高周波・低周波成分に分けて処理をする 縮⼩した画像 元画像 Octave Convの概念図 Octave ConvのKernel • 素のConvとカーネルの形を合わせている= 通常のConvの代替としてそのまま使える • αで⾼周波・低周波のパラメータ⽐率を調整
  16. 16. Results Image Netにおける結果
  17. 17. Results 動画における行動検知の結果
  18. 18. Summary このスライドでは、「ドメイン知識を用いてネットワーク構造の工夫をした手 法(と藤井が勝手に思っている) 」@ICCV2019を紹介します。 1. SlowFast Networks for Video Recognition 変化が激しい部分とあまり変化しない部分を分けて処理する(@動 画) 2. Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution 変化が激しい部分とあまり変化しない部分を分けて処理する(@画 像)

×