SlideShare a Scribd company logo
画像キャプションの自動生成
東京大学 大学院情報理工学系研究科
牛久 祥孝
自己紹介
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3 NTT コミュニケーション科学基礎研究所
2016.4~ 東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
Descriptive Camera[Richardson, 2012]
Descriptive Camera[Richardson, 2012]
写真を撮ると…
Descriptive Camera[Richardson, 2012]
キャプションが出てくる!
Looks like a cupboard which is ugly and old having name plates
on it with a study lamp attached to it.
実は…
[http://s3.amazonaws.com/pix-media/blog/328/mechanical-turk.jpg]
Looks like a cupboard which is
ugly and old having name
plates on it with a study lamp
attached to it.
画像キャプション生成例 [Ushiku+, ICCV 2015]
Group of people sitting at a table with a dinner.
画像キャプション生成例 [Ushiku+, ICCV 2015]
Tourists are standing on the middle of a flat desert.
画像キャプション生成例 [Ushiku+, ICCV 2015]
1K SBU images
Is a train station in the lake in the small.
10K SBU images
All the lake in the water is a shot.
100K SBU images
View of the lake in the water in a boat.
1M SBU images
It is a picture of the boat in the water.
1K SBU images
Stained glass window in Aanbouw Cofferdam for a field.
10K SBU images
Window in the ossuary glass windows in St. Louis Missouri.
100K SBU images
Stained glass in the tower of the church in St..
1M SBU images
Stained glass window in the church in St. Vitus Cathedral.
ユーザー生成コンテンツの爆発的増加
• Web、特に画像投稿・共有サービスでは…
– Flickr 画像100億枚 2015年5月時点
– Instagram 画像400億枚 2015年9月時点
– Facebook 画像2500億枚 2013年9月時点
Pōhutukawa blooms this
time of the year in New
Zealand. As the flowers
fall, the ground
underneath the trees look
spectacular.
大量に収集可能:
画像と関連する文章の対
画像キャプション生成
入力画像を説明する自然文を出力する問題
• 一般的な対象:できるだけ多くの訓練サンプル
→Webにあるような画像+文のみのデータ
• 新規の文も生成できるような柔軟性
本講演の目的
• 画像キャプション生成という分野を俯瞰する
– 歴史的な流れ
– アプローチの体系
– 視覚×言語の研究としての広がり
もくじ
おおよそ歴史順
1. 画像の内容を認識すること
2. 画像キャプションの自動生成の始まり
3. 既存のキャプションを再利用せよ
4. 新たなキャプションを生成するには
5. ところで、どう評価するの?
6. 深層学習の襲来
7. 今後の展望・派生研究のひろがり
1. 画像の内容を認識すること
2. 画像キャプション自動生成の始まり
そもそもの画像認識のはじまり
• 線画認識 [Clowes, 1971]
• 知識ベース
[Ohta, 1985][Draper+, IJCV 1989][Matsuyama+Hwang, 1990]
– 物体ごとに人手でルールを記述
– フレーム問題が立ちはだかる
• モデルベース
[Binford, 1971][Brooks, 1981][Basri, IJCV 1996]
– 3次元の幾何形状を予め用意
– 全ての対象の明確な
形状の定義はやっぱり無理
自然言語処理に習う
2000年代:統計的機械学習への移行
• 領域ベース
– word-image-translation model [Duygulu+, ECCV 2002]
– 画像の各領域とラベルとの対応を学習
– 機械翻訳における自動対応付けから着想
機械翻訳における単語の対応([永田ら、2008]より)
sun, sea, sky sun, sea, sky
自然言語処理に習う
2000年代:統計的機械学習への移行
• 局所特徴ベース
– Bag of Visual Words [Csurka+, 2004][Fei-Fei+Perona, CVPR 2005]
– 似た局所特徴を同一の単語とみなす
– 文書分類における Bag of Words モデルから着想
– 情報幾何を取り入れた精緻化 [Perronnin+, ECCV 2010]
Cf. 原田達也. “大規模画像データを用いた一般画像認識”
http://www.isi.imi.i.u-tokyo.ac.jp/~harada/pdf/SSII_harada20120608.pdf
画像を理解できるようになった?
people, table, dinner
関係性の欠如
解決するべき最大のボトルネック
単語がバラバラに推定されても…
それらの関係性がわからない
画像を理解できるようになった?
people, table, dinner
関係性の欠如
Group of people sitting at a table with a dinner.
画像キャプションの自動生成へ
1. 画像の内容を認識すること
2. 画像キャプションの自動生成の始まり
3. 既存のキャプションを再利用せよ
I2T [Yao+, Proc. of the IEEE 2010]
I2T [Yao+, Proc. of the IEEE 2010]
種々の外部データベース
インタラクティブな画像の分解
道路の監視カメラなど
ごく限られたドメインのみへの適用
画像+記事→キャプション [Feng+Lapata, ACL 2010]
• 学習データ:記事+画像+キャプションのセット
• 入力=記事+画像 出力=キャプション
• 既存文の再利用
• 新規文の生成
× 3361
King Toupu IV died at the age
of 88 last week.
入力が異なるものの
その後の2大アプローチを実践
画像+記事→キャプション [Feng+Lapata, ACL 2010]
• 学習データ:記事+画像+キャプションのセット
• 入力=記事+画像 出力=キャプション
• 既存文の再利用
• 新規文の生成
× 3361
King Toupu IV died at the age
of 88 last week.
入力が異なるものの
その後の2大アプローチを実践
再利用?新規生成?
• 再利用
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small white dog standing on a leash.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
また自然言語処理に習う
• 機械翻訳
– フランス語𝐟から英語𝐞への翻訳
– 生成モデルによる翻訳
𝐞 = arg max
𝐞
𝑃(𝐞|𝐟) = arg max
𝐞
𝑃 𝐞 𝑃(𝐟|𝐞)
– 識別モデル(対数線形モデル)による翻訳
𝐞 = arg max
𝐞
𝑃 𝐞 𝐟 = arg max
𝐞
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝐞, 𝐟)
英語の
文法モデル
英語→仏語の
翻訳モデル
翻訳モデル、言語モデル、歪みモデル、単語長、など
あらゆるモデルを導入可能
ℎ1 = log 𝑃(𝐞) , ℎ2 = log 𝑃 𝐟 𝐞 , 𝜆1 = 𝜆2 = 1なら生成モデルと同じ
また自然言語処理に習う
• キャプション生成は画像から言語への「翻訳」
– 画像𝒊から言語𝒍への翻訳
– 識別モデル(対数線形モデル)による翻訳
𝒍 = arg max
𝒍
𝑃 𝒍 𝒊 = arg max
𝒍
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝒍, 𝒊)
• アプローチの違い=モデルの違い
– 再利用:各既存文を用いるスコア
– テンプレート:
各空欄へ各単語を利用するスコア
– 非テンプレート:
文法の正しさのスコア+各単語を用いるスコア
2. 画像キャプションの自動生成の始まり
3. 既存のキャプションを再利用せよ
4. 新たなキャプションを生成するには
Every picture tells a story [Farhadi+, ECCV 2010]
• データセット:
画像+<object, action, scene>+キャプション
1. 画像の<object, action, scene>をMRFで推定
2. <object, action, scene>が同じキャプションを検
索して利用
<Horse, Ride, Field>
Every picture tells a story [Farhadi+, ECCV 2010]
Im2Text [Ordonez+, NIPS 2011]
• 手法:オーソドックスなリランキング
• 貢献
– 100万画像+キャプション(SBUデータセット)
– データを増やす効果を確認
cf. 80M tiny images [Torralba+, TPAMI 2008]
その他の既存文再利用アプローチ
• その後も継続して新規手法が提案されてい
る
– 正準相関分析の利用[Hodosh+, JAIR 2013][Yunchao+, ECCV
2014]
– 文章要約技術の応用[Mason+Charniak, ACL 2014]
– 係り受け木+RNN[Socher+, TACL 2014]
– RCNNによる画像領域と係り受けの対応[Karpathy+,
NIPS 2014]
– 分散表現によるリランキング[Yagcioglu, ACL 2015]
分散表現:word2vec [Mikolov+, NIPS 2013]など
単語の「足し引き」が可能な表現
– WordNetのような意味的階層性をモデル化した
CNN [Vendrov+, ICLR 2016]
永遠に解決されない問題
データセットにない組み合わせの事物は
表現できない
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力
データセット
3. 既存のキャプションを再利用せよ
4. 新たなキャプションを生成するには
5. ところで、どう評価するの?
テンプレートの誘惑
• 既存文の使いまわしでは表現に限界
→単語レベルの認識結果をどうやって新規文に?
• 主にコンピュータビジョン系の研究だと…
– 翻訳等で用いられる文生成手法への知見がない
– そうだ、テンプレートをつくってしまおう…
people, table, dinner
Group of people sitting at a table with a dinner.
?
テンプレートを用いたキャプション生成
• Baby Talk [Kulkarni+, CVPR 2011]
• Choosing Linguistics [Gupta+, AAAI 2012][Verma+, CVPR 2013]
– 類似画像の形態素解析済みフレーズを利用
テンプレートに頼らない新規文生成
𝑀種のスコアの合計値が最大になる文を探すには
𝑙 = arg max
𝑙
𝑃 𝑙 𝑖 = arg max
𝑙 𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝑙, 𝑖)
例えば、1万語彙から10単語の文を生成すると…
1単語目:1万通り
2単語目:1億通り
…
10単語目:1正(1040
)通り
出力𝒍の文法スコアや単語𝑤を利用するスコア
マルチスタックビームサーチ
1. 𝑡単語分だけ文を生成して評価
2. 上位𝑘個の候補文のみ残す
3. 𝑡 → 𝑡 + 1として1.へ
• 探索手法の一つ
• 現在流行しているRNNによる文生成でも利用
1 word 2 words 3 words
stack
The
Cat
Mat
On
Is
The cat
The mat
On cat
Mat is
On the
The cat is
The cat on
On the mat
Mat is on
On cat is
The cat is on
The cat on the
Is on the mat
The mat is on
Mat on cat is
4 words
既存説明文群の再構成による説明文生成
部分的に利用可能な単語列(フレーズ)が
存在するはず!
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
Cf. フレーズベース機械翻訳
入力画像
データセット内の説明文つき画像
[Ushiku+, ACM MM 2011]
説明文を利用した類似画像検索の高精度化
• 画像の見た目と内容の間のセマンティックギャップ
• 説明文を利用した画像間類似度の改善
画像・長文からの潜在空間獲得による画像間類似度の改善
[牛久ら, 情報処理学会誌52巻12号, 2011]
𝒙 𝒛~𝒩, 𝒚 𝒛~𝒩 (𝒩は正規分布)
• KLD(𝑝(𝒛|𝒙 = 𝒙 𝑞)||𝑝(𝒛|𝒙 = 𝒙t, 𝒚 = 𝒚t))
を偽距離として再近傍探索
• 正規分布のパラメータを最尤推定
→確率的正準相関分析 [Bach and Jordan, 2005]
入力
(画像特徴𝒙 𝑞)
どれが
類似?
説明文つき画像群
(𝑡番目のペアの画像特徴𝒙 𝑡、説明文特徴𝒚 𝑡とする)
𝒙 𝒚
𝒛
画像 説明文
潜在変数
Training Dataset
A woman posing
on a red scooter.
White and gray
kitten lying on
its side.
A white van
parked in an
empty lot.
A white cat rests
head on a stone.
Silver car parked
on side of road.
A small gray dog
on a leash.
A black dog
standing in a
grassy area.
A small white dog
wearing a flannel
warmer.
Input Image
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
Nearest Captions
A small white dog wearing a flannel warmer.
A small gray dog on a leash.
A black dog standing in a grassy area.
A small white dog standing on a leash.
Collective Generation of Natural Image Descriptions
1. 入力画像に物体検出、シーン認識などを適用
2. データセットの類似画像からフレーズを収集
– 名詞句(例:the brown cow)
– 動詞句(例:boy running)
– 前置詞句(例:in the sky や at the market)
3. 他のフレーズと繋いでキャプションを生成
– 名詞句ひとつにつき1文
– フレーズの組み合わせは整数計画問題
[Feng+, ACL 2012]
データセットのとある画像とキャプション
入力
Hard rock casino
exotic car show in
June
名詞句候補
マルチキーフレーズ推定アプローチ
当時の問題=使用候補であるフレーズの精度が悪い
キーフレーズを独立なラベルとして扱うと…
マルチキーフレーズの推定=一般画像認識
文生成は[Ushiku+, ACM MM 2011]と同じ
[Ushiku+, ACM MM 2012]
文の終わり
Midge [Mitchel+, EACL 2012]
• 各種認識結果から木構造を生成
– 物体検出およびAttribute認識結果
– 動作やポーズの認識結果
– 物体間の位置関係
• 木構造を組み合わせてキャプションの形へ
物体の名詞に関する局所的な木構造
統合
最終的な文を生成する木構造
出力:
People with a bottle at the table
ここまでのまとめ
• 既存キャプションの再利用
• テンプレートを利用した新規キャプション生成
× 表現能力に問題あり
• テンプレートに依らない新規キャプション生成
✔ 新規にキャプションを生成可能
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力
データセット
ここまでのまとめ
• 新規キャプションを生成する関連研究
– 物体の名前、個数、位置関係を推定して羅列
[Kulkarni+, CVPR 2011]
– <物体, 動作, 光景>+前置詞の学習
[Yang+, EMNLP 2011]
– 物体検出、アトリビュート認識、動作認識
[Mitchel+, EACL 2012]
× 特定の認識タスク向けのデータセットが必要
• 提案手法
– 既存文を組み合わせる[Ushiku+, ACM MM 2011]
– キーとなるフレーズを推定して組み合わせる[Ushiku+, ACM
MM 2011]
✔ 画像とキャプションのペアのみ使用
4. 新たなキャプションを生成するには
5. ところで、どう評価するの?
6. 深層学習の襲来
どれがどれくらい良いキャプションなのか?
CoSMoS [Ushiku et al., ICCV 2015]
Group of people sitting at a table with a dinner.
Corpus-Guided [Yang et al., EMNLP 2011]
Three people are showing the bottle on the street
Midge [Mitchel et al., EACL 2012]
people with a bottle at the table
アンケートによる比較:相対的な良さの評価
• 毎回ほかの手法と比較してもらわなければならない
• 絶対的なキャプションの良さの評価がほしい
定量評価指標
機械翻訳では…
• テスト文に複数の参照訳が付随(通常5文)
• これらの参照訳と近い訳文が「良い」
One jet lands at an airport while another takes off next to it.
Two airplanes parked in an airport.
Two jets taxi past each other.
Two parked jet airplanes facing opposite directions.
two passenger planes on a grassy plain
キャプション生成の評価でも同様の流れ
PASCAL Sentenceの画像と参照キャプションの例
データセット
Webからクロールしてきたもの
• SBU Captioned Image [Ordonez+, NIPS 2011]
100万枚のFlickr画像、1キャプション/画像
• YFCC-100M [Thomee+, 2015]
1億枚のFlickr画像+動画、一部の画像にキャプション
• Déjà Images [Chen+, ACL 2015]
1つのキャプションに複数の画像が紐づいている
データセット
クラウドソーシングを用いたもの
• PASCAL Sentence, Flickr 8k/30k (すべてUIUCから)
それぞれ1000/8000/30000枚の画像、5キャプション/画像
• Abstract Scene Dataset[Zitnick+Parikh, CVPR 2013]
10000枚のクリップアート、6キャプション/画像
• MS COCO[Lin+, 2014]
10万超の画像、5キャプション/画像
• MSR Dense Visual Annotation Corpus [Yatskar+, *SEM 2014]
500枚の画像に100,000の矩形領域+キャプション
• PASCAL-50S, ABSTRACT-50S[Vedantam+, CVPR 2015]
より人間らしい評価のために作成、50キャプション/画像
定量評価指標
• Precisionに基づく評価
– システムが出力したキャプション中のn-gramが
参照キャプション中に含まれる割合
– BLEU [PapineniL, ACL 2002]
– NIST [Doddington, HLT 2002]
短い文へのペナルティ
短い文へのペナルティ
N-gramのPrecisionの累積積
N-gramのPrecisionの累積和
定量評価指標
• Recallに基づく評価
– 参照キャプション中のn-gramがシステムが、出力し
たキャプション中に含まれる割合
– Rouge [Lin, 2004]
• ランキングに基づく評価
– 既存文の検索はまさにランキング問題
– 実は新規文生成でも各文を目的関数で評価できる
→ランキング問題として新規文生成手法も評価可能
𝐥 = arg max
𝐥
𝑃 𝐥 𝐢 = arg max
𝐥
𝑚=1
𝑀
𝜆 𝑚ℎ 𝑚(𝐥, 𝐢)
Precisionベース評価の試練
• BLEUバッシング
– 「BLEUは人の評価と相関しない」 [Hodosh+, JAIR 2013]
– 確かに機械翻訳でも疑問の声はある
– しかしキャプション生成分野では…
ほぼ全てでunigramやbigramのBLEUを利用
(BLEUは4-gramでの利用が一般的)
• NISTパッシング
– BLEUの改良版
– Rougeの原著でも、Rouge=NIST>BLEUという結果
– しかしキャプション生成分野では…
BLEUを叩くだけで誰もNISTを使わない
Consensus-based Image Description Evaluation
• METEOR(RecallとPrecision両方を重視[Elliott+Keller,
EMNLP 2013])を参考にしたもの
• CIDEr:画像キャプション生成の評価用に考案
[Vedantam+, CVPR 2015]
TF-IDF(実はNISTとよく似ている)
n-gramでの
CIDErの累積和
n-gramでの
PrecisionとRecallの
調和平均(F値)
5. ところで、どう評価するの?
6. 深層学習の襲来
7. 今後の展望・派生研究の広がり
2012年:一般物体認識における激震
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年:一般物体認識における激震
[Tomohiro Mito, Deep learning, slideshare, 2013]
2012年:一般物体認識における激震
[Tomohiro Mito, Deep learning, slideshare, 2013]
ISIってなんだよどこのチームだよ
同webサイトをみると・・・
ぼくら
深層学習
またまた自然言語処理に習う
機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]
• RNNで問題になっていた勾配の消失を
LSTM[Hochreiter+Schmidhuber, 1997]で解決
→文中の離れた単語間での関係を扱えるように
• LSTMを4層つなぎ、end-to-endで機械学習
→state-of-the-art並み(英仏翻訳)
“ABC”という単語列から”WXYZ”という単語列への翻訳
入力
出力
Google NIC[Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet[Szegedy+, CVPR 2015]
• LSTM[Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
生成された説明文の例
LRCN[Donahue+, CVPR 2015]
• CNN+stacked LSTM
– 動作認識(下図左)
– 画像説明文生成(下図中央)
– 動画説明文生成(下図右)
生成された説明文の例
Visual-Semantic Alignments
[Karpathy+Fei-Fei, CVPR 2015]
• 画像説明文生成はCNN+Bidirectional RNN
– 他の手法とほぼ同一
– 並列でVisual Semantic
Alignmentを提案
画像領域と文の一部とのアライメント
Image-sentence score(右図)
画像領域𝐼𝑖・説明文単語𝑆𝑡で、
– 𝒗𝑖 = CNN 𝐼𝑖 ∈ ℝℎ
– 𝒔 𝑡 = BRNN 𝑆𝑡 ∈ ℝℎ
から 𝑖 𝑡 𝒗𝑖
⊤
𝒔 𝑡 を計算
対応する画像・説明文ペアの score
> 非対応ペアの score になるよう学習
アライメントの例
そのほかのCVPR2015論文でも…
• DMSM [Fang+] (著者12人)
– CNNと対数線形モデル
– Multiple Instance
Learningで物体検出
– キャプション候補のリ
ランキング
• Mind’s Eye [Chen+Zitnick]
– CNNとRNN
お互いにとても似ている
Methods in CVPR2015 CNN(画像特徴量) RNN(文生成)
Google NIC GoogLeNet(22層CNN) LSTM
LRCN VGG Net(19層CNN) Stacked LSTMs
Visual-Semantic Alignment AlexNet(7層CNN) BRNN → LSTM
Mind’s Eye VGG Net RNN
DMSM AlexNet 対数線形モデル
表:Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較
MS COCO Captioning Challenge
• CVPR 2015で行われた競争型ワークショップ
– 1位:Google
• 基本的にはGoogle NIC
• 後の[Bengio+, NIPS2015]において…
RNNの学習にCurriculum Learning [Bengio+, ICML 2009]
を導入していたことが判明
– 2位:MSR
• CVPR2015で発表された論文の通り、
CNN+RNN以外の工夫もしている
• のちにRNNによる文生成も検討
[Devlin+, IJCNLP 2015]
[Ushiku+, ACM MM 2012]と比べると
入力画像
[Ushiku+, ACM MM 2012]では:
Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では:
CNN(オンライン学習なのは一緒)
CVPR 2015 の各論文では:
RNNとビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012]では:
キーフレーズと文法モデル、
ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に
• いずれも画像+キャプションのみから学習可能
• 全体の流れは非常に似ている
“キーフレーズ”
6. 深層学習の襲来
7. 今後の展望・派生研究の広がり
画像キャプション生成の精緻化
• 画像認識
– InceptionモデルやResNetなど、より高精度なCNN
• 自然言語処理
– 画像認識側が完璧になったと仮定した文生成 [Gupta+
Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+, *Sem 2014][Yao+,
ICLR workshop 2016]
• 2分野が融合して新たに生まれたものの例:
– Show, Attend and Tell [Xu+, ICML 2015]
– 画像+キャプションから注視モデルも学習!
キャプション生成そのものは終わった?
• 深層学習のおかげで画像認識は人間並み…?
– ILSVRC 2015 における1000クラス画像認識では…
人間(5%)より ResNet(4%弱)が上
– MS COCO Captioning Challenge では…
M1:人間並みかそれ以上のキャプションの割合
M2:チューリングテストをパスしたキャプションの割合
M3:正確さの5段階評価(5が最良)
M4:詳細さの5段階評価(5が最良)
M5:既存キャプションによく似たキャプションの割合
キャプション生成そのものは終わった?
• 深層学習のおかげで画像認識は人間並み…?
– ILSVRC 2015 における1000クラス画像認識では…
人間(5%)より ResNet(4%弱)が上
– MS COCO Captioning Challenge では…
M1:人間並みかそれ以上のキャプションの割合
M2:チューリングテストをパスしたキャプションの割合
M3:正確さの5段階評価(5が最良)
M4:詳細さの5段階評価(5が最良)
M5:既存キャプションによく似たキャプションの割合
× キャプション生成は深層学習によって終わった
 キャプション生成への深層学習の単純な適用は終わった
定性的な発展
• より細かいキャプション生成[Johnson+, CVPR 2016]
• アルバムのような系列画像にキャプション生成
[Park+Kim, NIPS 2015][Huang+, NAACL 2016]
定性的な発展
• Sentiment [Mathews+, AAAI 2016]
• 単画像により多くのキャプションを生成
[Lin+, BMVC 2015]
ニュートラルな文
ポジティブな文
(生成した例)
派生研究の広がり
視覚と言語の高度な知能システム
1. 動画キャプション生成
2. 言語横断
3. 画像に関する質問への応答
4. キャプションからの画像生成
動画キャプション生成
• 深層学習前:物体検出やトラッキングに依存
[Yu+Siskind, ACL 2013]
• CNN+RNNによるend-to-endな学習手法が台頭
– LRCN [Donahue+, CVPR 2015]
– Video to Text [Venugopalan+, ICCV 2015]
– 3-D CNN [Yao+, ICCV 2015]
• データセットも増えつつある
– MPII Movie Description dataset [Rohrbach+, CVPR 2015]
– MS VDC [Chen+Dolan, ACL 2011]
[Yao+, ICCV 2015]
言語横断型の研究
• IAPR-TC12 [Grubinger+, 2006]
– 英&独の説明文が付与されている
– 主に画像×タグの理解を進める研究に利用される
• 画像は機械翻訳の精度に寄与[Calixto+,2012]
– 英語でsealとあるけど、
・stampに近いsealなのか?
・sea animalのsealなのか?
がわからず誤ったポルトガル語に翻訳
– (実験してないけど)画像があれば防げるはず!
言語横断型の研究
• 画像を介した言語横断関連文書検索
[Funaki+Nakayama, EMNLP 2015]
• 画像を介した言語横断キャプション翻訳
[Elliott+, 2015] [Hitschler+, ACL 2016]
• データセットも出始める
– 1000枚画像+日英キャプション[Funaki+Nakayama,
EMNLP 2015]
– 30,000枚画像+英独キャプション[Elliot+, WMT 2016]
画像に関する質問に答えるQAシステム
Visual Question Answering
• Visual Turing Challenge [MalinowskiL+Fritz, 2014]
• VQA Challenge
– CVPR 2016 併設のコンペティション
– 原田・牛久研究室:Abstract Image 部門で世界1位
[Malinowski+,
ICCV 2015]
キャプションを入力して画像を生成
• Attention モデルの利用[Mansimov+, ICLR 2016]
• DCGAN [Radford+, 2016] の利用[Reed+, ICML 2016]
1単語だけ変えた場合 ありえないシチュエーション
This small bird
has a pink breast
and crown, and
black primaries
and secondaries.
A man in a
set suit riding
a surfboard
on a wave.
CUB(鳥200種類のみの
データセット)で学習
MS COCOで学習
画像キャプション生成のまとめ
入力画像を説明する自然文を出力する問題
• 一般的な対象:できるだけ多くの訓練サンプル
→Webにあるような画像+文のみのデータ
• 新規の文も生成できるような柔軟性
本講演の目的
• 画像キャプション生成という分野を俯瞰する
– 歴史的な流れ、アプローチの体系
• 視覚×言語の新たなステージへ

More Related Content

What's hot

視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
Yoshitaka Ushiku
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Yoshitaka Ushiku
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Yoshitaka Ushiku
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
株式会社メタップスホールディングス
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Yoshitaka Ushiku
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...Yuya Unno
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
株式会社メタップスホールディングス
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
Yusuke Uchida
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
Yuya Unno
 
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
Mathematical Systems Inc.
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
Koichiro Mori
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
Hiroyoshi Komatsu
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
Yuya Unno
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vec
DeNA
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 

What's hot (20)

視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
Skip gram shirakawa_20141121
Skip gram shirakawa_20141121Skip gram shirakawa_20141121
Skip gram shirakawa_20141121
 
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vec
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
 

Viewers also liked

最近の重要な論文の紹介 - テキストとの対応付けによる映像の理解に関連して(ステアラボ人工知能シンポジウム2017)
最近の重要な論文の紹介 - テキストとの対応付けによる映像の理解に関連して(ステアラボ人工知能シンポジウム2017)最近の重要な論文の紹介 - テキストとの対応付けによる映像の理解に関連して(ステアラボ人工知能シンポジウム2017)
最近の重要な論文の紹介 - テキストとの対応付けによる映像の理解に関連して(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
 
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
群衆の知を引き出すための機械学習(第4回ステアラボ人工知能セミナー)
群衆の知を引き出すための機械学習(第4回ステアラボ人工知能セミナー)群衆の知を引き出すための機械学習(第4回ステアラボ人工知能セミナー)
群衆の知を引き出すための機械学習(第4回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
深層学習を利用した映像要約への取り組み(第7回ステアラボ人工知能セミナー)
深層学習を利用した映像要約への取り組み(第7回ステアラボ人工知能セミナー)深層学習を利用した映像要約への取り組み(第7回ステアラボ人工知能セミナー)
深層学習を利用した映像要約への取り組み(第7回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
Stair Captions and Stair Actions(ステアラボ人工知能シンポジウム2017)
Stair Captions and Stair Actions(ステアラボ人工知能シンポジウム2017)Stair Captions and Stair Actions(ステアラボ人工知能シンポジウム2017)
Stair Captions and Stair Actions(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
 
Higher-order Factorization Machines(第5回ステアラボ人工知能セミナー)
Higher-order Factorization Machines(第5回ステアラボ人工知能セミナー)Higher-order Factorization Machines(第5回ステアラボ人工知能セミナー)
Higher-order Factorization Machines(第5回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
JSAI Cup2017報告会
JSAI Cup2017報告会JSAI Cup2017報告会
第1回ステアラボ人工知能セミナー(オープニング)
第1回ステアラボ人工知能セミナー(オープニング)第1回ステアラボ人工知能セミナー(オープニング)
第1回ステアラボ人工知能セミナー(オープニング)
STAIR Lab, Chiba Institute of Technology
 
Computer Vision meets Fashion (第12回ステアラボ人工知能セミナー)
Computer Vision meets Fashion (第12回ステアラボ人工知能セミナー)Computer Vision meets Fashion (第12回ステアラボ人工知能セミナー)
Computer Vision meets Fashion (第12回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
ヒューマンコンピュテーションのための専門家発見(ステアラボ人工知能シンポジウム2017)
ヒューマンコンピュテーションのための専門家発見(ステアラボ人工知能シンポジウム2017)ヒューマンコンピュテーションのための専門家発見(ステアラボ人工知能シンポジウム2017)
ヒューマンコンピュテーションのための専門家発見(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
 
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
 

Viewers also liked (16)

最近の重要な論文の紹介 - テキストとの対応付けによる映像の理解に関連して(ステアラボ人工知能シンポジウム2017)
最近の重要な論文の紹介 - テキストとの対応付けによる映像の理解に関連して(ステアラボ人工知能シンポジウム2017)最近の重要な論文の紹介 - テキストとの対応付けによる映像の理解に関連して(ステアラボ人工知能シンポジウム2017)
最近の重要な論文の紹介 - テキストとの対応付けによる映像の理解に関連して(ステアラボ人工知能シンポジウム2017)
 
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
知識グラフの埋め込みとその応用 (第10回ステアラボ人工知能セミナー)
 
群衆の知を引き出すための機械学習(第4回ステアラボ人工知能セミナー)
群衆の知を引き出すための機械学習(第4回ステアラボ人工知能セミナー)群衆の知を引き出すための機械学習(第4回ステアラボ人工知能セミナー)
群衆の知を引き出すための機械学習(第4回ステアラボ人工知能セミナー)
 
深層学習を利用した映像要約への取り組み(第7回ステアラボ人工知能セミナー)
深層学習を利用した映像要約への取り組み(第7回ステアラボ人工知能セミナー)深層学習を利用した映像要約への取り組み(第7回ステアラボ人工知能セミナー)
深層学習を利用した映像要約への取り組み(第7回ステアラボ人工知能セミナー)
 
Stair Captions and Stair Actions(ステアラボ人工知能シンポジウム2017)
Stair Captions and Stair Actions(ステアラボ人工知能シンポジウム2017)Stair Captions and Stair Actions(ステアラボ人工知能シンポジウム2017)
Stair Captions and Stair Actions(ステアラボ人工知能シンポジウム2017)
 
Higher-order Factorization Machines(第5回ステアラボ人工知能セミナー)
Higher-order Factorization Machines(第5回ステアラボ人工知能セミナー)Higher-order Factorization Machines(第5回ステアラボ人工知能セミナー)
Higher-order Factorization Machines(第5回ステアラボ人工知能セミナー)
 
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
高次元空間におけるハブの出現 (第11回ステアラボ人工知能セミナー)
 
JSAI Cup2017報告会
JSAI Cup2017報告会JSAI Cup2017報告会
JSAI Cup2017報告会
 
第1回ステアラボ人工知能セミナー(オープニング)
第1回ステアラボ人工知能セミナー(オープニング)第1回ステアラボ人工知能セミナー(オープニング)
第1回ステアラボ人工知能セミナー(オープニング)
 
Computer Vision meets Fashion (第12回ステアラボ人工知能セミナー)
Computer Vision meets Fashion (第12回ステアラボ人工知能セミナー)Computer Vision meets Fashion (第12回ステアラボ人工知能セミナー)
Computer Vision meets Fashion (第12回ステアラボ人工知能セミナー)
 
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
ヒューマンコンピュテーションのための専門家発見(ステアラボ人工知能シンポジウム2017)
ヒューマンコンピュテーションのための専門家発見(ステアラボ人工知能シンポジウム2017)ヒューマンコンピュテーションのための専門家発見(ステアラボ人工知能シンポジウム2017)
ヒューマンコンピュテーションのための専門家発見(ステアラボ人工知能シンポジウム2017)
 
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
時系列ビッグデータの特徴自動抽出とリアルタイム将来予測(第9回ステアラボ人工知能セミナー)
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 

Similar to 画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)

東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
MayuOtani
 
ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習
kunihikokaneko1
 
Interop2017
Interop2017Interop2017
Interop2017
tak9029
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
kunihikokaneko1
 
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
Takashi YAMAMURA
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Yoshitaka Ushiku
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
 
時系列データの扱い方
時系列データの扱い方時系列データの扱い方
時系列データの扱い方
Yutaka Terasawa
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
Kuniyuki Takahashi
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)Akisato Kimura
 
人類のデータを使って学習する 人工主体の公共的役割を考える
人類のデータを使って学習する 人工主体の公共的役割を考える人類のデータを使って学習する 人工主体の公共的役割を考える
人類のデータを使って学習する 人工主体の公共的役割を考える
Hiro Hamada
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Takuya Azumi
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
Shunsuke Nakamura
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
 

Similar to 画像キャプションの自動生成(第3回ステアラボ人工知能セミナー) (20)

東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
 
ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習
 
Interop2017
Interop2017Interop2017
Interop2017
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)ae-10. 中間まとめ(ディープラーニング)
ae-10. 中間まとめ(ディープラーニング)
 
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
【文献紹介】Multi-modal Summarization for Asynchronous Collection of Text, Image, A...
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
時系列データの扱い方
時系列データの扱い方時系列データの扱い方
時系列データの扱い方
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
人類のデータを使って学習する 人工主体の公共的役割を考える
人類のデータを使って学習する 人工主体の公共的役割を考える人類のデータを使って学習する 人工主体の公共的役割を考える
人類のデータを使って学習する 人工主体の公共的役割を考える
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 

More from STAIR Lab, Chiba Institute of Technology

リアクティブプログラミングにおける時変値永続化の試み (第2回ステアラボソフトウェア技術セミナー)
リアクティブプログラミングにおける時変値永続化の試み (第2回ステアラボソフトウェア技術セミナー)リアクティブプログラミングにおける時変値永続化の試み (第2回ステアラボソフトウェア技術セミナー)
リアクティブプログラミングにおける時変値永続化の試み (第2回ステアラボソフトウェア技術セミナー)
STAIR Lab, Chiba Institute of Technology
 
制約解消によるプログラム検証・合成 (第1回ステアラボソフトウェア技術セミナー)
制約解消によるプログラム検証・合成 (第1回ステアラボソフトウェア技術セミナー)制約解消によるプログラム検証・合成 (第1回ステアラボソフトウェア技術セミナー)
制約解消によるプログラム検証・合成 (第1回ステアラボソフトウェア技術セミナー)
STAIR Lab, Chiba Institute of Technology
 
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
企業化する大学と、公益化する企業。そして、人工知能の社会実装に向けて。(ステアラボ人工知能シンポジウム)
企業化する大学と、公益化する企業。そして、人工知能の社会実装に向けて。(ステアラボ人工知能シンポジウム)企業化する大学と、公益化する企業。そして、人工知能の社会実装に向けて。(ステアラボ人工知能シンポジウム)
企業化する大学と、公益化する企業。そして、人工知能の社会実装に向けて。(ステアラボ人工知能シンポジウム)
STAIR Lab, Chiba Institute of Technology
 
メテオサーチチャレンジ報告 (2位解法)
メテオサーチチャレンジ報告 (2位解法)メテオサーチチャレンジ報告 (2位解法)
メテオサーチチャレンジ報告 (2位解法)
STAIR Lab, Chiba Institute of Technology
 
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
文法および流暢性を考慮した頑健なテキスト誤り訂正 (第15回ステアラボ人工知能セミナー)
文法および流暢性を考慮した頑健なテキスト誤り訂正 (第15回ステアラボ人工知能セミナー)文法および流暢性を考慮した頑健なテキスト誤り訂正 (第15回ステアラボ人工知能セミナー)
文法および流暢性を考慮した頑健なテキスト誤り訂正 (第15回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 

More from STAIR Lab, Chiba Institute of Technology (7)

リアクティブプログラミングにおける時変値永続化の試み (第2回ステアラボソフトウェア技術セミナー)
リアクティブプログラミングにおける時変値永続化の試み (第2回ステアラボソフトウェア技術セミナー)リアクティブプログラミングにおける時変値永続化の試み (第2回ステアラボソフトウェア技術セミナー)
リアクティブプログラミングにおける時変値永続化の試み (第2回ステアラボソフトウェア技術セミナー)
 
制約解消によるプログラム検証・合成 (第1回ステアラボソフトウェア技術セミナー)
制約解消によるプログラム検証・合成 (第1回ステアラボソフトウェア技術セミナー)制約解消によるプログラム検証・合成 (第1回ステアラボソフトウェア技術セミナー)
制約解消によるプログラム検証・合成 (第1回ステアラボソフトウェア技術セミナー)
 
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
グラフ構造データに対する深層学習〜創薬・材料科学への応用とその問題点〜 (第26回ステアラボ人工知能セミナー)
 
企業化する大学と、公益化する企業。そして、人工知能の社会実装に向けて。(ステアラボ人工知能シンポジウム)
企業化する大学と、公益化する企業。そして、人工知能の社会実装に向けて。(ステアラボ人工知能シンポジウム)企業化する大学と、公益化する企業。そして、人工知能の社会実装に向けて。(ステアラボ人工知能シンポジウム)
企業化する大学と、公益化する企業。そして、人工知能の社会実装に向けて。(ステアラボ人工知能シンポジウム)
 
メテオサーチチャレンジ報告 (2位解法)
メテオサーチチャレンジ報告 (2位解法)メテオサーチチャレンジ報告 (2位解法)
メテオサーチチャレンジ報告 (2位解法)
 
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
 
文法および流暢性を考慮した頑健なテキスト誤り訂正 (第15回ステアラボ人工知能セミナー)
文法および流暢性を考慮した頑健なテキスト誤り訂正 (第15回ステアラボ人工知能セミナー)文法および流暢性を考慮した頑健なテキスト誤り訂正 (第15回ステアラボ人工知能セミナー)
文法および流暢性を考慮した頑健なテキスト誤り訂正 (第15回ステアラボ人工知能セミナー)
 

Recently uploaded

TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 

Recently uploaded (14)

TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 

画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)

Editor's Notes

  1. The training dataset is pairs of an image and a caption. At first, the similarity of images and the similarity of captions are combined and concept space is generated. When an image is input, its coordinate in the space is estimated and neighbor pairs are retrieved. Then captions of retrieved pairs are scored according to the distance to the input image. And each phrase of each caption is scored according to how discriminative. Finally, highly socred phrases are combined and a caption for the input image is generated.
  2. Existing works to generate sentences from images can be divided into 2 groups. Some works use similar images sentence while the others generate new sentences. What they have in common is that we must prepare the dataset with (叩け)
  3. https://www.captionbot.ai/