SlideShare a Scribd company logo
1 of 101
画像キャプションの自動生成
東京大学 大学院情報理工学系研究科
牛久 祥孝
losnuevetoros
自己紹介
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3 NTT コミュニケーション科学基礎研究所
2016.4~ 東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
教員のおしごと:授業
学生の姿勢
学生の姿勢(理想)
学生の姿勢(現実)
CaptionBot
https://www.captionbot.ai/
CaptionBot:
I think it's a group of people sitting at a table
and they seem 😐😐😐😐😐😐😐😐😐😐😐😐😐😐.
画像キャプション生成例 [Ushiku+, ICCV 2015]
Group of people sitting at a table with a dinner.
画像キャプション生成例 [Ushiku+, ICCV 2015]
Tourists are standing on the middle of a flat desert.
画像キャプション生成例 [Ushiku+, ICCV 2015]
1K SBU images
Is a train station in the lake in the small.
10K SBU images
All the lake in the water is a shot.
100K SBU images
View of the lake in the water in a boat.
1M SBU images
It is a picture of the boat in the water.
1K SBU images
Stained glass window in Aanbouw Cofferdam for a field.
10K SBU images
Window in the ossuary glass windows in St. Louis Missouri.
100K SBU images
Stained glass in the tower of the church in St..
1M SBU images
Stained glass window in the church in St. Vitus Cathedral.
ユーザー生成コンテンツの爆発的増加
• Web、特に画像投稿・共有サービスでは…
– Flickr 画像100億枚 2015年5月時点
– Instagram 画像400億枚 2015年9月時点
– Facebook 画像2500億枚 2013年9月時点
Pōhutukawa blooms this
time of the year in New
Zealand. As the flowers
fall, the ground
underneath the trees look
spectacular.
大量に収集可能:
画像と関連する文章の対
画像キャプション生成
入力画像を説明する自然文を出力する問題
• 一般的な対象:できるだけ多くの訓練サンプル
→Webにあるような画像+文のみのデータ
• 新規の文も生成できるような柔軟性
本講演の目的
• 画像キャプション生成という分野を俯瞰する
– 歴史的な流れ
– アプローチの体系
– 視覚×言語の研究としての広がり
もくじ
おおよそ歴史順
1. 画像の内容を認識すること
2. 画像キャプションの自動生成の始まり
3. 既存のキャプションを再利用せよ
4. 新たなキャプションを生成するには
5. ところで、どう評価するの?
6. 深層学習の襲来
7. 今後の展望・派生研究のひろがり
1. 画像の内容を認識すること
2. 画像キャプション自動生成の始まり
そもそもの画像認識のはじまり
• 線画認識 [Clowes, 1971]
• 知識ベース
[Ohta, 1985][Draper+, IJCV 1989][Matsuyama+Hwang, 1990]
– 物体ごとに人手でルールを記述
– フレーム問題が立ちはだかる
• モデルベース
[Binford, 1971][Brooks, 1981][Basri, IJCV 1996]
– 3次元の幾何形状を予め用意
– 全ての対象の明確な
形状の定義はやっぱり無理
自然言語処理に習う
2000年代:統計的機械学習への移行
• 領域ベース
– word-image-translation model [Duygulu+, ECCV 2002]
– 画像の各領域とラベルとの対応を学習
– 機械翻訳における自動対応付けから着想
機械翻訳における単語の対応([永田ら、2008]より)
sun, sea, sky sun, sea, sky
自然言語処理に習う
2000年代:統計的機械学習への移行
• 局所特徴ベース
– Bag of Visual Words [Csurka+, 2004][Fei-Fei+Perona, CVPR 2005]
– 似た局所特徴を同一の単語とみなす
– 文書分類における Bag of Words モデルから着想
– 情報幾何を取り入れた精緻化 [Perronnin+, ECCV 2010]
Cf. 原田達也. “大規模画像データを用いた一般画像認識”
http://www.isi.imi.i.u-tokyo.ac.jp/~harada/pdf/SSII_harada20120608.pdf
画像を理解できるようになった?
people, table, dinner
関係性の欠如
解決するべき最大のボトルネック
単語がバラバラに推定されても…
それらの関係性がわからない
画像を理解できるようになった?
people, table, dinner
関係性の欠如
Group of people sitting at a table with a dinner.
画像キャプションの自動生成へ
1. 画像の内容を認識すること
2. 画像キャプションの自動生成の始まり
3. 既存のキャプションを再利用せよ
I2T [Yao+, Proc. of the IEEE 2010]
I2T [Yao+, Proc. of the IEEE 2010]
種々の外部データベース
インタラクティブな画像の分解
道路の監視カメラなど
ごく限られたドメインのみへの適用
画像+記事→キャプション [Feng+Lapata, ACL 2010]
• 学習データ:記事+画像+キャプションのセット
• 入力=記事+画像 出力=キャプション
• 既存文の再利用
• 新規文の生成
× 3361
King Toupu IV died at the age
of 88 last week.
入力が異なるものの
その後の2大アプローチを実践
画像+記事→キャプション [Feng+Lapata, ACL 2010]
• 学習データ:記事+画像+キャプションのセット
• 入力=記事+画像 出力=キャプション
• 既存文の再利用
• 新規文の生成
× 3361
King Toupu IV died at the age
of 88 last week.
入力が異なるものの
その後の2大アプローチを実践
再利用?新規生成?
• 再利用
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small white dog standing on a leash.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small white dog standing on a leash.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
実は…
キャプショニング
||
キャプション候補に正確なスコアを与える問題
また自然言語処理に習う
• 機械翻訳
– フランス語𝐟から英語𝐞への翻訳
– 生成モデルによる翻訳
𝐞 = arg max
𝐞
𝑃(𝐞|𝐟) = arg max
𝐞
𝑃 𝐞 𝑃(𝐟|𝐞)
– 識別モデル(対数線形モデル)による翻訳
𝐞 = arg max
𝐞
𝑃 𝐞 𝐟 = arg max
𝐞
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝐞, 𝐟)
英語の
文法モデル
英語→仏語の
翻訳モデル
翻訳モデル、言語モデル、歪みモデル、単語長、など
あらゆるモデルを導入可能
ℎ1 = log 𝑃(𝐞) , ℎ2 = log 𝑃 𝐟 𝐞 , 𝜆1 = 𝜆2 = 1なら生成モデルと同じ
また自然言語処理に習う
• キャプション生成は画像から言語への「翻訳」
– 画像𝒊から言語𝒍への翻訳
– 識別モデル(対数線形モデル)による翻訳
𝒍 = arg max
𝒍
𝑃 𝒍 𝒊 = arg max
𝒍
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝒍, 𝒊)
• アプローチの違い=スコアのモデルの違い
– 再利用:各既存文を用いるスコア
– テンプレート:
各空欄へ各単語を利用するスコア
– 非テンプレート:
文法の正しさのスコア+各単語を用いるスコア
2. 画像キャプションの自動生成の始まり
3. 既存のキャプションを再利用せよ
4. 新たなキャプションを生成するには
Every picture tells a story [Farhadi+, ECCV 2010]
• データセット:
画像+<object, action, scene>+キャプション
1. 画像の<object, action, scene>をMRFで推定
2. <object, action, scene>が同じキャプションを検
索して利用
<Horse, Ride, Field>
Every picture tells a story [Farhadi+, ECCV 2010]
Im2Text [Ordonez+, NIPS 2011]
• 手法:オーソドックスなリランキング
• 貢献
– 100万画像+キャプション(SBUデータセット)
– データを増やす効果を確認
cf. 80M tiny images [Torralba+, TPAMI 2008]
その他の既存文再利用アプローチ
• その後も継続して新規手法が提案されてい
る
– 正準相関分析の利用[Hodosh+, JAIR 2013][Gong+, ECCV 2014]
– 文章要約技術の応用[Mason+Charniak, ACL 2014]
– 係り受け木+RNN[Socher+, TACL 2014]
– RCNNによる画像領域と係り受けの対応[Karpathy+,
NIPS 2014]
– 分散表現によるリランキング[Yagcioglu, ACL 2015]
分散表現:word2vec [Mikolov+, NIPS 2013]など
単語の「足し引き」が可能な表現
– WordNetのような意味的階層性をモデル化した
CNN [Vendrov+, ICLR 2016]
永遠に解決されない問題
データセットにない組み合わせの事物は
表現できない
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力
データセット
閑話休題
Descriptive Camera [Richardson, 2012]
レシート?
閑話休題
写真を撮ると…
閑話休題
キャプションがレシートで出てくる!
Looks like a cupboard which is ugly and old having name plates
on it with a study lamp attached to it.
閑話休題
キャプションがレシートで出てくる!
Looks like a cupboard which is ugly and old having name plates
on it with a study lamp attached to it.
当時の牛久
(博士2年)
画像キャプションの自動生成が
・こんなに正確に
・こんなに詳細に
できるなんて!!!
自分のD論詰んだ!!!
実は…
[http://s3.amazonaws.com/pix-media/blog/328/mechanical-turk.jpg]
Looks like a cupboard which is
ugly and old having name
plates on it with a study lamp
attached to it.
実は…
[http://s3.amazonaws.com/pix-media/blog/328/mechanical-turk.jpg]
Looks like a cupboard which is
ugly and old having name
plates on it with a study lamp
attached to it.
当時の牛久
(博士2年)
画像キャプションの手動生成
だった!
…よかった~
3. 既存のキャプションを再利用せよ
4. 新たなキャプションを生成するには
5. ところで、どう評価するの?
テンプレートの誘惑
• 既存文の使いまわしでは表現に限界
→単語レベルの認識結果をどうやって新規文に?
• 主にコンピュータビジョン系の研究だと…
– 翻訳等で用いられる文生成手法への知見がない
– そうだ、テンプレートをつくってしまおう…
people, table, dinner
Group of people sitting at a table with a dinner.
?
テンプレートを用いたキャプション生成
• Baby Talk [Kulkarni+, CVPR 2011]
• Choosing Linguistics [Gupta+, AAAI 2012][Verma+, CVPR 2013]
– 類似画像の形態素解析済みフレーズを利用
テンプレートに頼らない新規文生成
𝑀種のスコアの合計値が最大になる文を探すには
𝑙 = arg max
𝑙
𝑃 𝑙 𝑖 = arg max
𝑙 𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝑙, 𝑖)
例えば、1万語彙から10単語の文を生成すると…
1単語目:1万通り
2単語目:1億通り
…
10単語目:1正(1040
)通り
出力𝒍の文法スコアや単語𝑤を利用するスコア
マルチスタックビームサーチ
1. 𝑡単語分だけ文を生成して評価
2. 上位𝑘個の候補文のみ残す
3. 𝑡 → 𝑡 + 1として1.へ
• 探索手法の一つ
• 現在流行しているRNNによる文生成でも利用
1 word 2 words 3 words
stack
The
Cat
Mat
On
Is
The cat
The mat
On cat
Mat is
On the
The cat is
The cat on
On the mat
Mat is on
On cat is
The cat is on
The cat on the
Is on the mat
The mat is on
Mat on cat is
4 words
既存説明文群の再構成による説明文生成
部分的に利用可能な単語列(フレーズ)が
存在するはず!
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
Cf. フレーズベース機械翻訳
入力画像
データセット内の説明文つき画像
[Ushiku+, ACM MM 2011]
説明文を利用した類似画像検索の高精度化
• 画像の見た目と内容の間のセマンティックギャップ
• 説明文を利用した画像間類似度の改善
画像・長文からの潜在空間獲得による画像間類似度の改善
[牛久ら, 情報処理学会誌52巻12号, 2011]
𝒙 𝒛~𝒩, 𝒚 𝒛~𝒩 (𝒩は正規分布)
• KLD(𝑝(𝒛|𝒙 = 𝒙 𝑞)||𝑝(𝒛|𝒙 = 𝒙t, 𝒚 = 𝒚t))
を偽距離として再近傍探索
• 正規分布のパラメータを最尤推定
→確率的正準相関分析 [Bach and Jordan, 2005]
入力
(画像特徴𝒙 𝑞)
どれが
類似?
説明文つき画像群
(𝑡番目のペアの画像特徴𝒙 𝑡、説明文特徴𝒚 𝑡とする)
𝒙 𝒚
𝒛
画像 説明文
潜在変数
Training Dataset
A woman posing
on a red scooter.
White and gray
kitten lying on
its side.
A white van
parked in an
empty lot.
A white cat rests
head on a stone.
Silver car parked
on side of road.
A small gray dog
on a leash.
A black dog
standing in a
grassy area.
A small white dog
wearing a flannel
warmer.
Input Image
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
Nearest Captions
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
A small white dog standing on a leash.
Collective Generation of Natural Image Descriptions
1. 入力画像に物体検出、シーン認識などを適用
2. データセットの類似画像からフレーズを収集
– 名詞句(例:the brown cow)
– 動詞句(例:boy running)
– 前置詞句(例:in the sky や at the market)
3. 他のフレーズと繋いでキャプションを生成
– 名詞句ひとつにつき1文
– フレーズの組み合わせは整数計画問題
[Feng+, ACL 2012]
データセットのとある画像とキャプション
入力
Hard rock casino
exotic car show in
June
名詞句候補
マルチキーフレーズ推定アプローチ
当時の問題=使用候補であるフレーズの精度が悪い
キーフレーズを独立なラベルとして扱うと…
マルチキーフレーズの推定=一般画像認識
文生成は[Ushiku+, ACM MM 2011]と同じ
[Ushiku+, ACM MM 2012]
文の終わり
Midge [Mitchel+, EACL 2012]
• 各種認識結果から木構造を生成
– 物体検出およびAttribute認識結果
– 動作やポーズの認識結果
– 物体間の位置関係
• 木構造を組み合わせてキャプションの形へ
物体の名詞に関する局所的な木構造
統合
最終的な文を生成する木構造
出力:
People with a bottle at the table
ここまでのまとめ
• 既存キャプションの再利用
• テンプレートを利用した新規キャプション生成
× 表現能力に問題あり
• テンプレートに依らない新規キャプション生成
✔ 新規にキャプションを生成可能
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力
データセット
ここまでのまとめ
• 新規キャプションを生成する関連研究
– 物体の名前、個数、位置関係を推定して羅列
[Kulkarni+, CVPR 2011]
– <物体, 動作, 光景>+前置詞の学習
[Yang+, EMNLP 2011]
– 物体検出、アトリビュート認識、動作認識
[Mitchel+, EACL 2012]
× 特定の認識タスク向けのデータセットが必要
• 提案手法
– 既存文を組み合わせる[Ushiku+, ACM MM 2011]
– キーとなるフレーズを推定して組み合わせる[Ushiku+, ACM
MM 2011]
✔ 画像とキャプションのペアのみ使用
4. 新たなキャプションを生成するには
5. ところで、どう評価するの?
6. 深層学習の襲来
どれがどれくらい良いキャプションなのか?
CoSMoS [Ushiku et al., ICCV 2015]
Group of people sitting at a table with a dinner.
Corpus-Guided [Yang et al., EMNLP 2011]
Three people are showing the bottle on the street
Midge [Mitchel et al., EACL 2012]
people with a bottle at the table
アンケートによる比較:相対的な良さの評価
• 毎回ほかの手法と比較してもらわなければならない
• 絶対的なキャプションの良さの評価がほしい
定量評価指標
機械翻訳では…
• テスト文に複数の参照訳が付随(通常5文)
• これらの参照訳と近い訳文が「良い」
One jet lands at an airport while another takes off next to it.
Two airplanes parked in an airport.
Two jets taxi past each other.
Two parked jet airplanes facing opposite directions.
two passenger planes on a grassy plain
キャプション生成の評価でも同様の流れ
PASCAL Sentenceの画像と参照キャプションの例
データセット
Webからクロールしてきたもの
• SBU Captioned Image [Ordonez+, NIPS 2011]
100万枚のFlickr画像、1キャプション/画像
• YFCC-100M [Thomee+, 2015]
1億枚のFlickr画像+動画、一部の画像にキャプション
• Déjà Images [Chen+, ACL 2015]
1つのキャプションに複数の画像が紐づいている
データセット
クラウドソーシングを用いたもの
• PASCAL Sentence, Flickr 8k/30k (すべてUIUCから)
それぞれ1000/8000/30000枚の画像、5キャプション/画像
• Abstract Scene Dataset[Zitnick+Parikh, CVPR 2013]
10000枚のクリップアート、6キャプション/画像
• MS COCO [Lin+, 2014]
10万超の画像、5キャプション/画像
• MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014]
500枚の画像に100,000の矩形領域+キャプション
• PASCAL-50S, ABSTRACT-50S[Vedantam+, CVPR 2015]
より人間らしい評価のために作成、50キャプション/画像
定量評価指標
• Precisionに基づく評価
– システムが出力したキャプション中のn-gramが
参照キャプション中に含まれる割合
– BLEU [PapineniL, ACL 2002]
– NIST [Doddington, HLT 2002]
短い文へのペナルティ
短い文へのペナルティ
N-gramのPrecisionの累積積
N-gramのPrecisionの累積和
定量評価指標
• Recallに基づく評価
– 参照キャプション中のn-gramがシステムが、出力し
たキャプション中に含まれる割合
– Rouge [Lin, 2004]
• ランキングに基づく評価
– 既存文の検索はまさにランキング問題
– 実は新規文生成でも各文を目的関数で評価できる
→ランキング問題として新規文生成手法も評価可能
𝐥 = arg max
𝐥
𝑃 𝐥 𝐢 = arg max
𝐥
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝐥, 𝐢)
Precisionベース評価の試練
• BLEUバッシング
– 「BLEUは人の評価と相関しない」 [Hodosh+, JAIR 2013]
– 確かに機械翻訳でも疑問の声はある
– しかしキャプション生成分野では…
ほぼ全てでunigramやbigramのBLEUを利用
(BLEUは4-gramでの利用が一般的)
• NISTパッシング
– BLEUの改良版
– Rougeの原著でも、Rouge=NIST>BLEUという結果
– しかしキャプション生成分野では…
BLEUを叩くだけで誰もNISTを使わない
Consensus-based Image Description Evaluation
• METEOR(RecallとPrecision両方を重視[Elliott+Keller,
EMNLP 2013])を参考にしたもの
• CIDEr:画像キャプション生成の評価用に考案
[Vedantam+, CVPR 2015]
TF-IDF(実はNISTとよく似ている)
n-gramでの
CIDErの累積和
n-gramでの
PrecisionとRecallの
調和平均(F値)
5. ところで、どう評価するの?
6. 深層学習の襲来
7. 今後の展望・派生研究の広がり
2012年:一般物体認識における激震
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年:一般物体認識における激震
[Tomohiro Mito, Deep learning, slideshare, 2013]
2012年:一般物体認識における激震
[Tomohiro Mito, Deep learning, slideshare, 2013]
ISIってなんだよどこのチームだよ
同webサイトをみると・・・
ぼくら
深層学習
またまた自然言語処理に習う
機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]
• RNNで問題になっていた勾配の消失を
LSTM[Hochreiter+Schmidhuber, 1997]で解決
→文中の離れた単語間での関係を扱えるように
• LSTMを4層つなぎ、end-to-endで機械学習
→state-of-the-art並み(英仏翻訳)
“ABC”という単語列から”WXYZ”という単語列への翻訳
入力
出力
Google NIC[Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet[Szegedy+, CVPR 2015]
• LSTM[Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
生成された説明文の例
LRCN[Donahue+, CVPR 2015]
• CNN+stacked LSTM
– 動作認識(下図左)
– 画像説明文生成(下図中央)
– 動画説明文生成(下図右)
生成された説明文の例
Visual-Semantic Alignments
[Karpathy+Fei-Fei, CVPR 2015]
• 画像説明文生成はCNN+Bidirectional RNN
– 他の手法とほぼ同一
– 並列でVisual Semantic
Alignmentを提案
画像領域と文の一部とのアライメント
Image-sentence score(右図)
画像領域𝐼𝑖・説明文単語𝑆𝑡で、
– 𝒗𝑖 = CNN 𝐼𝑖 ∈ ℝℎ
– 𝒔 𝑡 = BRNN 𝑆𝑡 ∈ ℝℎ
から 𝑖 𝑡 𝒗𝑖
⊤
𝒔 𝑡 を計算
対応する画像・説明文ペアの score
> 非対応ペアの score になるよう学習
アライメントの例
そのほかのCVPR2015論文でも…
• DMSM [Fang+] (著者12人)
– CNNと対数線形モデル
– Multiple Instance
Learningで物体検出
– キャプション候補のリ
ランキング
• Mind’s Eye [Chen+Zitnick]
– CNNとRNN
お互いにとても似ている
Methods in CVPR2015 CNN(画像特徴量) RNN(文生成)
Google NIC GoogLeNet(22層CNN) LSTM
LRCN VGG Net(19層CNN) Stacked LSTMs
Visual-Semantic Alignment AlexNet(7層CNN) BRNN → LSTM
Mind’s Eye VGG Net RNN
DMSM AlexNet 対数線形モデル
表:Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較
[Ushiku+, ACM MM 2012]と比べると
入力画像
[Ushiku+, ACM MM 2012]では:
Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では:
CNN(オンライン学習なのは一緒)
CVPR 2015 の各論文では:
RNNとビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012]では:
キーフレーズと文法モデル、
ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に
• いずれも画像+キャプションのみから学習可能
• 全体の流れは非常に似ている
“キーフレーズ”
唯一の大きな違い
• 深層学習以前の新規キャプション生成
何らかの語句に変換してから文生成器へ
• 深層学習による新規キャプション生成
画像特徴量を直接文生成器へ
ところが最近では…
• CNNで事物の認識まで済ませてRNNで文生成
[Wu+, CVPR 2016][You+, CVPR 2016]
→画像特徴量の段階でRNNに渡すより高性能!
• 深層学習以前のアプローチとより類似
[You+, CVPR 2016][Wu+, CVPR 2016]
6. 深層学習の襲来
7. 今後の展望・派生研究の広がり
画像キャプション生成の精緻化
• 画像認識
– InceptionモデルやResNetなど、より高精度なCNN
• 自然言語処理
– 画像認識側が完璧になったと仮定した文生成 [Gupta+
Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+, *Sem 2014][Yao+,
ICLR workshop 2016]
• 2分野が融合して新たに生まれたものの例:
– Show, Attend and Tell [Xu+, ICML 2015]
– 画像+キャプションから注視モデルも学習!
MS COCO Captioning Challenge
• CVPR 2015で行われた競争型ワークショップ
– 1位:Google
• 基本的にはGoogle NIC
• 後の[Bengio+, NIPS2015]において…
RNNの学習にCurriculum Learning [Bengio+, ICML 2009]
を導入していたことが判明
– 2位:MSR
• CVPR2015で発表された論文の通り、
CNN+RNN以外の工夫もしている
• のちにRNNによる文生成も検討
[Devlin+, IJCNLP 2015]
キャプション生成そのものは終わった?
• 深層学習のおかげで画像認識は人間並み…?
– ILSVRC 2015 における1000クラス画像認識では…
人間(5%)より ResNet(4%弱)が上
– MS COCO Captioning Challenge では…
M1:人間並みかそれ以上のキャプションの割合
M2:チューリングテストをパスしたキャプションの割合
M3:正確さの5段階評価(5が最良)
M4:詳細さの5段階評価(5が最良)
M5:既存キャプションによく似たキャプションの割合
キャプション生成そのものは終わった?
• 深層学習のおかげで画像認識は人間並み…?
– ILSVRC 2015 における1000クラス画像認識では…
人間(5%)より ResNet(4%弱)が上
– MS COCO Captioning Challenge では…
M1:人間並みかそれ以上のキャプションの割合
M2:チューリングテストをパスしたキャプションの割合
M3:正確さの5段階評価(5が最良)
M4:詳細さの5段階評価(5が最良)
M5:既存キャプションによく似たキャプションの割合
× キャプション生成は深層学習によって終わった
 キャプション生成への深層学習の単純な適用は終わった
定性的な発展
• より細かいキャプション生成
[Lin+, BMVC 2015] [Johnson+, CVPR 2016]
• アルバムのような系列画像にキャプション生成
[Park+Kim, NIPS 2015][Huang+, NAACL 2016]
定性的な発展
• 感性語Sentiment Termを重視したキャプション生成
[Mathews+, AAAI 2016][Andrew+, BMVC 2016]←Ours!
ニュートラルな文
ポジティブな文
(生成した例)
定性的な発展
• ここまで英語キャプション生成だったが…
– 日本語[Miyazaki+Shimizu, ACL2016]
– 中国語[Li+, ICMR 2016]
– トルコ語[Unal+, SIU 2016]
Çimlerde ko¸ san bir köpek
金色头发的小女孩
柵の中にキリンが一頭
立っています。
派生研究の広がり
視覚と言語の高度な知能システム
1. 動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成
動画キャプション生成
• 深層学習前:物体検出やトラッキングに依存
[Yu+Siskind, ACL 2013]
• CNN+RNNによるend-to-endな学習手法が台頭
– LRCN [Donahue+, CVPR 2015]
– Video to Text [Venugopalan+, ICCV 2015]
– 3-D CNN [Yao+, ICCV 2015]
• データセットも増えつつある
– MPII Movie Description dataset [Rohrbach+, CVPR 2015]
– MS VDC [Chen+Dolan, ACL 2011]
[Yao+, ICCV 2015]
言語横断型の研究
• IAPR-TC12 [Grubinger+, 2006]
– 英&独の説明文が付与されている
– 主に画像×タグの理解を進める研究に利用される
• 画像は機械翻訳の精度に寄与[Calixto+,2012]
– 英語でsealとあるけど、
・stampに近いsealなのか?
・sea animalのsealなのか?
がわからず誤ったポルトガル語に翻訳
– (実験してないけど)画像があれば防げるはず!
言語横断型の研究
• 画像を介した言語横断関連文書検索
[Funaki+Nakayama, EMNLP 2015]
• 画像を介した言語横断キャプション翻訳
[Elliott+, 2015] [Hitschler+, ACL 2016]
• データセットも出始める
– 1000枚画像+日英キャプション[Funaki+Nakayama,
EMNLP 2015]
– 30,000枚画像+英独キャプション[Elliot+, WMT 2016]
画像に関する質問に答えるQAシステム
Visual Question Answering
• Visual Turing Challenge [MalinowskiL+Fritz, 2014]
• VQA Challenge
– CVPR 2016 併設のコンペティション
– 原田・牛久研究室:Abstract Image 部門で世界1位
[Malinowski+,
ICCV 2015]
キャプションを入力して画像を生成
• Attention モデルの利用[Mansimov+, ICLR 2016]
• DCGAN [Radford+, 2016] の利用[Reed+, ICML 2016]
1単語だけ変えた場合 ありえないシチュエーション
This small bird
has a pink breast
and crown, and
black primaries
and secondaries.
A man in a
set suit riding
a surfboard
on a wave.
CUB(鳥200種類のみの
データセット)で学習
MS COCOで学習
画像キャプション生成のまとめ
入力画像を説明する自然文を出力する問題
• 一般的な対象:できるだけ多くの訓練サンプル
→Webにあるような画像+文のみのデータ
• 新規の文も生成できるような柔軟性
本講演の目的
• 画像キャプション生成という分野を俯瞰する
– 歴史的な流れ、アプローチの体系
• 視覚×言語の新たなステージへ

More Related Content

What's hot

What's hot (20)

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
MS COCO Dataset Introduction
MS COCO Dataset IntroductionMS COCO Dataset Introduction
MS COCO Dataset Introduction
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 

Viewers also liked

Pythonで自然言語処理
Pythonで自然言語処理Pythonで自然言語処理
Pythonで自然言語処理
moai kids
 

Viewers also liked (17)

Pythonで自然言語処理
Pythonで自然言語処理Pythonで自然言語処理
Pythonで自然言語処理
 
SNS とゲーム理論 ~人はなぜ投稿するのか?~
SNS とゲーム理論~人はなぜ投稿するのか?~SNS とゲーム理論~人はなぜ投稿するのか?~
SNS とゲーム理論 ~人はなぜ投稿するのか?~
 
ネットコミュニケーションにおけるリスク分析
ネットコミュニケーションにおけるリスク分析ネットコミュニケーションにおけるリスク分析
ネットコミュニケーションにおけるリスク分析
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain Adaptation
 
Deep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPUDeep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPU
 
GREE 流!AWS をお得に使う方法
GREE 流!AWS をお得に使う方法GREE 流!AWS をお得に使う方法
GREE 流!AWS をお得に使う方法
 
Office365のID基盤活用とセキュリティ上の注意点
Office365のID基盤活用とセキュリティ上の注意点Office365のID基盤活用とセキュリティ上の注意点
Office365のID基盤活用とセキュリティ上の注意点
 
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出
 
【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017
 
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識形態素解析も辞書も言語モデルもいらないend-to-end音声認識
形態素解析も辞書も言語モデルもいらないend-to-end音声認識
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
交渉力について
交渉力について交渉力について
交渉力について
 
AWS Black Belt Online Seminar 2017 IoT向け最新アーキテクチャパターン
AWS Black Belt Online Seminar 2017 IoT向け最新アーキテクチャパターンAWS Black Belt Online Seminar 2017 IoT向け最新アーキテクチャパターン
AWS Black Belt Online Seminar 2017 IoT向け最新アーキテクチャパターン
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation
 
AWSからのメール送信
AWSからのメール送信AWSからのメール送信
AWSからのメール送信
 
Introduction to Chainer
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
 

Similar to 画像キャプションの自動生成

大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
Yoichi Shirasawa
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Takuya Azumi
 

Similar to 画像キャプションの自動生成 (20)

画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
 
視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vec
 
Opencv object detection_takmin
Opencv object detection_takminOpencv object detection_takmin
Opencv object detection_takmin
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
 
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 

More from Yoshitaka Ushiku

More from Yoshitaka Ushiku (13)

機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
 

Recently uploaded

Recently uploaded (8)

MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その1) 2024/05/17の勉強会で発表されたものです。
 
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイルLoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
LoRaWAN無位置ロープ型水漏れセンサー WL03A-LB/LSカタログ ファイル
 
情報を表現するときのポイント
情報を表現するときのポイント情報を表現するときのポイント
情報を表現するときのポイント
 
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
2024年5月17日 先駆的科学計算フォーラム2024 機械学習を用いた新たなゲーム体験の創出の応用
 
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアルLoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
LoRaWAN無位置ロープ式水漏れセンサーWL03A 日本語マニュアル
 
Keywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltdKeywordmap overview material/CINC.co.ltd
Keywordmap overview material/CINC.co.ltd
 
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
Hyperledger Fabricコミュニティ活動体験& Hyperledger Fabric最新状況ご紹介
 
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdfネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
ネットワーク可視化 振る舞い検知(NDR)ご紹介_キンドリル202405.pdf
 

画像キャプションの自動生成

Editor's Notes

  1. The training dataset is pairs of an image and a caption. At first, the similarity of images and the similarity of captions are combined and concept space is generated. When an image is input, its coordinate in the space is estimated and neighbor pairs are retrieved. Then captions of retrieved pairs are scored according to the distance to the input image. And each phrase of each caption is scored according to how discriminative. Finally, highly socred phrases are combined and a caption for the input image is generated.
  2. Existing works to generate sentences from images can be divided into 2 groups. Some works use similar images sentence while the others generate new sentences. What they have in common is that we must prepare the dataset with (叩け)
  3. https://www.captionbot.ai/