SlideShare a Scribd company logo
論文紹介
Ambient Sound Provides Supervision for
Visual Learning
2016/12/3 @CV勉強会
酒井 俊樹
自己紹介
名前:酒井 俊樹
所属:NTTドコモ サービスイノベーション部
仕事:画像認識API/サービスの研究開発
● 局所特徴量を用いた画像認識
https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol23_1/vol23_1_004jp.pdf
● Deep Learningを用いた画像認識
https://www.nttdocomo.co.jp/binary/pdf/corporate/technology/rd/technical_journal/bn/vol24_1/vol24_1_007jp.pdf
● 画像認識API
https://dev.smt.docomo.ne.jp
本発表は個人で行うものであり、所属組織とは関係ありません。 2
論文概要
Ambient Sound Provides Supervision for Visual Learning
● 著者:Andrew Owens et al.(MIT)
概要
● 画像データを収集する際の”教師ラベル作成”の手間を軽減したい
● 動画データに付いている音声情報を教師信号の代わりに利用
○ 画像中のオブジェクトやシーンに反応するようなニューロンが学習された
○ 他の教師なし学習手法と同程度もしくは上の Performanceの学習が可能に
3
画像認識におけるDeep Learning
● Deep Learning
○ 2012年以降、画像認識分野で用いられる機械学習技術
○ 画像+教師ラベルを入力として画像分類、回帰、物体検出などのタスクを学習
○ 学習データから、タスク遂行のための特徴量抽出もデータから学習
○ ☹学習に多量のデータが必要
● Deep Learningベースの画像特徴量
○ 学習したDeep Learningのネットワークの中間層の活性を画像特徴量として用いる事ができる
(http://deeplearning.net/tutorial/lenet.htmlより)
(A tutorial on deep learning at icml 2013より)
4
Unsupervised Learning Methods
● 人手による教師データは、有用だが高コスト
→教師なし学習の手法が検討されてきた
○ 教師データがなくても、 Deep Learningネットワーク内部の「特徴量」は学習できる
● Self Supervision/ natural supervision
○ 自然に得られる/付随して得られる信号を教師データとして、予測問題を学習し、
画像特徴量を得る
○ 例1)egomotion[1]
■ スマホのジャイロセンサー等で記録できる
カメラ自身の動きを、連続して撮影した
2枚の画像から予測
5
Unsupervised Learning Methods
● 例2)Patch base[4]
○ 画像から切り取ったパッチ間の
位置関係を予測する
6
● 例3)Tracking[35]
○ 教師なしのトラッキング手法でビデオ内の
オブジェクトをトラッキング
○ 同じビデオ内のブジェクトと、
他のビデオから得られたオブジェクト
前者の方が距離が近くなるようにCNNを学習
本論文のアイディア
● 音声情報をnatural supervisionの教師データとして用いる
○ 画像が撮影された際の音声は、画像に関連する情報を持っている
■ 車の騒音→車がいることがわかる
■ 話し声→人がいっぱいいる場所 /カフェ
○ 画像から音声を予測する学習器は、内部的に
オブジェクトやシーンを構成する要素を学習していると考えられる
○ 画像のTransformationに対して、音声信号は独立している
■ 照明条件の変化や、カメラの角度などに影響を受けない
音声情報はYouTubeのビデオ等、動画データを集めれば、
自然に付いているもの
人の話し声
→人がいる
波の音/風の音
→海沿いの外
7
目標
● 以下を示す
○ 画像を入力として音声信号の予測タスクで得られた
特徴量が、物体/シーンの認識に有用であること
○ 学習された特徴量が、特に画像中の物体に
特異的に反応すること
■ シーン認識の学習をした networkのニューロンが、
object detectorになっていることを
先行研究が示している
8
特徴量として
用いる
音声x画像(動画)の先行研究
● 動画から、直接音声を予測する先行研究[30]
○ ドラムスティックで叩いている映像から、叩く音を予測する
○ これは、視覚的に予測できる音だけを予測することに特化している
○ https://youtu.be/JpZUZ9ZDECE
○
● 音源の定位
● 画像と音声の同期
9
音声信号を利用する上での課題
● 視覚情報と音声情報はルーズにしか関係してない
○ 画像上に写っていないものが音源の可能性がある
○ 画像と音声のタイミングを取ることが難しい
(音声信号のサンプルをhttp://www.ykw.elec.keio.ac.jp/suuri.htmlより)
?
10
音声信号の特徴量化
● Sound Textureを利用(McDermott and Simoncelli, 2011)
○ 数秒間の音声の要約情報 (今回は3.75sec)
11
3つの特徴量
音声信号の特徴量化
1. バンドパスフィルタにかける
○ バンドパスフィルタ
■ 特定の周波数帯の信号だけを取り出す filter
○ 周波数帯の異なる32個のバンドパスフィルタを利用
○ ヒトの蝸牛管の受容体のレスポンスを模す
(https://ja.wikipedia.org/wiki/耳より)
12
(http://anasynth.ircam.fr/home/system/files/attachment_uploads/lagrange/private/mcdermott
Casa11.pdfより)
バンドパスフィルタ
音声信号の特徴量化
● Cochleagramが得られる
13
音声信号の特徴量化
2. 各フィルタの包絡線(envelope)を求める
○ 特定の周波数帯の信号だけを取り出す filter
○ 振幅変調の逆を行うイメージ
○ ヒルベルト変換で求める
14(https://ja.wikipedia.org/wiki/振幅変調より)
振
幅
変
調
(http://anasynth.ircam.fr/home/system/files/attachment_uploads/lagrange/privat
e/mcdermottCasa11.pdfより)
音声信号の特徴量化
15
音声信号の特徴量化
3. 以下の4つの特徴量を求め、結合
a. 各周波数チャネルのenvelopeごとに
もう一度バンドパスフィルタ
(modulation filter)をかける
○ 包絡線の変調の周波数成分を取り出す
○ modulation filterは0.5to200Hzの間で
10個(logスケール上で均等な幅に )
○ envelope数 x modulation filter数の出力
○ それぞれ二乗平均を取る
(modulation power)
16
音声信号の特徴量化
3. 以下の4つの特徴量を求め、結合
b. 各周波数チャネルのenvelopeごとに平均と分散を計算
・marginal moment
・各周波数成分の強度と変化の大きさ
c. 各周波数チャネルごとにピアソンの相関係数を求める
・各周波数成分間の相関
d. 各envelopeの強度のmedianを取る→normを取る
17
画像から音声を予測する
● 入力は「動画」ではなく「画像」
○ 学習した特徴量を、「画像」認識タスクに転用することを目指して
● 音声特徴量そのものを予測するのではなく、分類課題として学習
○ 既存のオブジェクト分類やシーン分類のモデルと比較するため
18
● clustering audio features
○ 音声情報でクラスタリング
→クラスタの番号を予測する分類
● Binary coding model
○ 各sound特徴量を30の主成分に分解
○ 主成分の値を、binary codeに変換
○ 複数のカテゴリに属しているような状
態
(https://ja.wikipedia.org
/wiki/主成分分析より)
実験
● 学習データ
○ 360,000 video from flickr dataset
○ 各ビデオから10frameずつ取り出す→1.8M traing images
● Deep Learningのネットワーク
○ Caffenet (AlexNetの変形)
○ mini batch: 256
○ 320,000 iter
19
結果:conv層のニューロンの可視化
● conv5層の出力を元に、receptive fieldを可視化
○ receptive field: 各ニューロンが画像上のどこに反応しているか
20
21
22
結果:conv層のニューロンの可視化
● conv5 layerの出力を元に、receptive fieldを可視化
○ receptive field: 各ニューロンが画像上のどこに反応しているか
○ 利用した手法: synthetic visualization
■ 200,000枚の画像をテストセットして利用
■ 各neuronが最も反応する画像を 60枚ずつ抽出
■ 60枚中60%について、同じobjectに反応していたら、object detectorとする
○ 提案手法では91/256がobject detectorだった
23
結果:conv層のニューロンの可視化
● 各ニューロンが反応したオブジェクの名前をsun databaseを元につけてみる
24
シーンを認識する教師あり
学習のタスクの方が、
detectorは多く学習された
他の教師なし学習手法
よりはdetectorが多く
学習された
*は特異的な音を出す
オブジェクト
結果:conv層のニューロンの可視化
● 実際にオブジェクトに関連する音声が入っている事を確認
○ 各object detectorについて、
■ ニューロンが反応する動画、 30clipを視聴
■ そのニューロンがselectiveなオブジェクトの音がしているかを調べた
25
結果:学習した特徴量の利用
● 物体認識
○ データ:PASCAL VOC
○ CNNのpool5, fc6, fc7を特徴量として利用
○ global max poolingも実施
(全conv layerについて、画像上の位置の同じ
ニューロンをmax poolingした特徴量)
○ 特徴量をLinear SVMにかけて予測
26
● シーン認識
○ データ:SUN397
○ Soundのmodel間の差異は縮小
・教師あり>教師なし
・(Sound)binary > cluster > spect
※spectは、画像撮影時の音声
スペクトラムを直接学習した場合
→特徴量化の効果が示せた
・(教師なし)sound>他の手法
27
結果:学習した特徴量の利用
● Fast R-CNNの事前学習に使ってみた
○ 教師ありの手法が最も良かった
○ 教師なし学習の中では
■ Tracking(Motion)とは同程度の精度
■ Patch baseが最も良かった
● 音声ベースのクラスタと画像ベースのクラスタ、教師データとして
優れているのはどちらか(p.25の図中Texton-CNN)
○ visual texton histogramsを使ってクラスタリング
○ 音声ベースの方がシーン認識精度、オブジェクト認識精度が上
■ 画像ベースのtextonではlow lavelなlabelingしか学習できない?
■ 音声を使うと、visual transformationに関係ない教師信号になる
28
まとめと所感
● 画像と音声信号を元に、CNNを学習する方法を提案
● 動画データであれば、音声信号は多くの場合付いているという点で、
利用できる場面が多い
● やはり教師あり学習で行った特徴量表現とは差がある
29

More Related Content

Viewers also liked

20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
Kyohei Unno
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisited
Kyohei Unno
 
20160329.dnn講演
20160329.dnn講演20160329.dnn講演
20160329.dnn講演
Hayaru SHOUNO
 
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
 
20160717 dikf
20160717 dikf20160717 dikf
20160717 dikf
Takuya Minagawa
 
はじパタ8章 svm
はじパタ8章 svmはじパタ8章 svm
はじパタ8章 svmtetsuro ito
 
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
Takuya Minagawa
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
Takuya Minagawa
 
Cpp cv04
Cpp cv04Cpp cv04
Mastering open cv kinectv1 marker based ar
Mastering open cv kinectv1 marker based arMastering open cv kinectv1 marker based ar
Mastering open cv kinectv1 marker based ar
Satoshi Fujimoto
 
20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン
Takuya Minagawa
 
第2回cv勉強会@九州 LSD-SLAM
第2回cv勉強会@九州   LSD-SLAM第2回cv勉強会@九州   LSD-SLAM
第2回cv勉強会@九州 LSD-SLAM
Satoshi Fujimoto
 
Cvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depthCvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depth
tomoaki0705
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
Takuya Minagawa
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
Preferred Networks
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
Koichi Hamada
 

Viewers also liked (17)

20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisited
 
20160329.dnn講演
20160329.dnn講演20160329.dnn講演
20160329.dnn講演
 
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
 
20160717 dikf
20160717 dikf20160717 dikf
20160717 dikf
 
はじパタ8章 svm
はじパタ8章 svmはじパタ8章 svm
はじパタ8章 svm
 
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
第34回CV勉強会「コンピュテーショナルフォトグラフィ」発表資料
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
 
Cpp cv04
Cpp cv04Cpp cv04
Cpp cv04
 
Mastering open cv kinectv1 marker based ar
Mastering open cv kinectv1 marker based arMastering open cv kinectv1 marker based ar
Mastering open cv kinectv1 marker based ar
 
Random Forestsとその応用
Random Forestsとその応用Random Forestsとその応用
Random Forestsとその応用
 
20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン20160525はじめてのコンピュータビジョン
20160525はじめてのコンピュータビジョン
 
第2回cv勉強会@九州 LSD-SLAM
第2回cv勉強会@九州   LSD-SLAM第2回cv勉強会@九州   LSD-SLAM
第2回cv勉強会@九州 LSD-SLAM
 
Cvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depthCvim saisentan-cvpr-hyper depth
Cvim saisentan-cvpr-hyper depth
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
 
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京
 

Similar to 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)

東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
 
CV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer NetworkCV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer Network
Toshiki Sakai
 
【デブサミ2010】アジリティを向上させる開発ツールの進化
【デブサミ2010】アジリティを向上させる開発ツールの進化【デブサミ2010】アジリティを向上させる開発ツールの進化
【デブサミ2010】アジリティを向上させる開発ツールの進化
智治 長沢
 
TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003
Dan Imagineer
 
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017]  MAI 001[Japan Tech summit 2017]  MAI 001
[Japan Tech summit 2017] MAI 001
Microsoft Tech Summit 2017
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
Shohei Hido
 
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
NVIDIA Japan
 
可能性をひらくインクルーシブデザイン
可能性をひらくインクルーシブデザイン可能性をひらくインクルーシブデザイン
可能性をひらくインクルーシブデザイン
Concent, Inc.
 
ビットバンクでのネイティブアプリケーション開発におけるCI_CD環境
ビットバンクでのネイティブアプリケーション開発におけるCI_CD環境ビットバンクでのネイティブアプリケーション開発におけるCI_CD環境
ビットバンクでのネイティブアプリケーション開発におけるCI_CD環境
bitbank, Inc. Tokyo, Japan
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
 
凄い WordPress 2017 OSC Nagoya 2017
凄い WordPress 2017 OSC Nagoya 2017凄い WordPress 2017 OSC Nagoya 2017
凄い WordPress 2017 OSC Nagoya 2017
takashi ono
 
Azure のApp Center でアプリの 使用状況を分析する
Azure のApp Center でアプリの 使用状況を分析するAzure のApp Center でアプリの 使用状況を分析する
Azure のApp Center でアプリの 使用状況を分析する
Yusuke Kojima
 
Google I/O 2017超速報告~最新Google動向 ワイヤレスジャパン2017 AコースAndroid 資料公開
Google I/O 2017超速報告~最新Google動向 ワイヤレスジャパン2017 AコースAndroid 資料公開Google I/O 2017超速報告~最新Google動向 ワイヤレスジャパン2017 AコースAndroid 資料公開
Google I/O 2017超速報告~最新Google動向 ワイヤレスジャパン2017 AコースAndroid 資料公開
嶋 是一 (Yoshikazu SHIMA)
 
Dojojag shima dis-tver-20170524
Dojojag shima dis-tver-20170524Dojojag shima dis-tver-20170524
Dojojag shima dis-tver-20170524
嶋 是一 (Yoshikazu SHIMA)
 
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Toshiki Sakai
 
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
Yamato OKAMOTO
 
パーソナルデータ利活用を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータ利活用を変える!オープンソース分散型PDS「Personium」を使ってみよう!パーソナルデータ利活用を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータ利活用を変える!オープンソース分散型PDS「Personium」を使ってみよう!
泰史 栃折
 
大容量ファイルを爆速で転送! 世界を飛び回る! AsperaとSoftLayerの最強コラボ!
大容量ファイルを爆速で転送! 世界を飛び回る! AsperaとSoftLayerの最強コラボ!大容量ファイルを爆速で転送! 世界を飛び回る! AsperaとSoftLayerの最強コラボ!
大容量ファイルを爆速で転送! 世界を飛び回る! AsperaとSoftLayerの最強コラボ!
softlayerjp
 

Similar to 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会) (20)

東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
CV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer NetworkCV勉強会CVPR2019読み会: Video Action Transformer Network
CV勉強会CVPR2019読み会: Video Action Transformer Network
 
【デブサミ2010】アジリティを向上させる開発ツールの進化
【デブサミ2010】アジリティを向上させる開発ツールの進化【デブサミ2010】アジリティを向上させる開発ツールの進化
【デブサミ2010】アジリティを向上させる開発ツールの進化
 
TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003
 
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017]  MAI 001[Japan Tech summit 2017]  MAI 001
[Japan Tech summit 2017] MAI 001
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
 
可能性をひらくインクルーシブデザイン
可能性をひらくインクルーシブデザイン可能性をひらくインクルーシブデザイン
可能性をひらくインクルーシブデザイン
 
ビットバンクでのネイティブアプリケーション開発におけるCI_CD環境
ビットバンクでのネイティブアプリケーション開発におけるCI_CD環境ビットバンクでのネイティブアプリケーション開発におけるCI_CD環境
ビットバンクでのネイティブアプリケーション開発におけるCI_CD環境
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
凄い WordPress 2017 OSC Nagoya 2017
凄い WordPress 2017 OSC Nagoya 2017凄い WordPress 2017 OSC Nagoya 2017
凄い WordPress 2017 OSC Nagoya 2017
 
Azure のApp Center でアプリの 使用状況を分析する
Azure のApp Center でアプリの 使用状況を分析するAzure のApp Center でアプリの 使用状況を分析する
Azure のApp Center でアプリの 使用状況を分析する
 
Google I/O 2017超速報告~最新Google動向 ワイヤレスジャパン2017 AコースAndroid 資料公開
Google I/O 2017超速報告~最新Google動向 ワイヤレスジャパン2017 AコースAndroid 資料公開Google I/O 2017超速報告~最新Google動向 ワイヤレスジャパン2017 AコースAndroid 資料公開
Google I/O 2017超速報告~最新Google動向 ワイヤレスジャパン2017 AコースAndroid 資料公開
 
Dojojag shima dis-tver-20170524
Dojojag shima dis-tver-20170524Dojojag shima dis-tver-20170524
Dojojag shima dis-tver-20170524
 
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
Cv勉強会cvpr2018読み会: Im2Flow: Motion Hallucination from Static Images for Action...
 
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
NeurIPS2018読み会@PFN a unified feature disentangler for multi domain image tran...
 
パーソナルデータ利活用を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータ利活用を変える!オープンソース分散型PDS「Personium」を使ってみよう!パーソナルデータ利活用を変える!オープンソース分散型PDS「Personium」を使ってみよう!
パーソナルデータ利活用を変える!オープンソース分散型PDS「Personium」を使ってみよう!
 
大容量ファイルを爆速で転送! 世界を飛び回る! AsperaとSoftLayerの最強コラボ!
大容量ファイルを爆速で転送! 世界を飛び回る! AsperaとSoftLayerの最強コラボ!大容量ファイルを爆速で転送! 世界を飛び回る! AsperaとSoftLayerの最強コラボ!
大容量ファイルを爆速で転送! 世界を飛び回る! AsperaとSoftLayerの最強コラボ!
 

論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)