Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Learning Transferable Visual Models
From Natural Language Supervision
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
平田航大
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 著者
• Alec Radford, JongWook Kim, Chris Hallacy, Aditya Ramesh, Gabriel
Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin,
Jack Clark, Gretchen Krueger, Ilya Sutskever
– OpenAI
• 発表
– arXiv
• 論文リンク
– https://arxiv.org/pdf/2103.00020
• コード
– https://github.com/openai/CLIP
論文情報 2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• 大規模データセットの作成、事前学習を行い、
zero-shot 条件下でも性能を発揮する
分類モデル CLIP を提案
– NLP 分野で成功している大規模事前学習を CV に
も応用した
• 「ラベル」ではなく、「自然言語」と画像を
結びつけることで分類タスクにおける高い拡
張性を実現
GPT, BERT など
airplane
a photo of a airplane
a airplane
…
従来 提案手法
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
発表で扱う範囲
1. Introduction and Motivating Work
2. Approach
3. Experiments
4. Comparison to Human Performance
9. Conclusion
提案モデル、学習法
などに主眼を置くため
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. 一般的な分類器は「ラベル」から学習される
ため、学習できる概念が狭い
– ベンチマークでの性能と実際のタスクでの
性能の乖離
2. ラベル付きデータを作成するにはコスト
がかかる
背景 – 現状の問題 5
筆者らの改善案
画像を説明する自然言語から直接、表現を
学習する
これにより、
1. に対して、学習できる概念が広がる
2. に対して、Web 上などから収集するデータから学習可能になる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
背景 – モチベーション
• 従来手法
– NLP 分野では Web 上などから大規模データを
収集、事前学習を行ったモデルが成功
• CV 分野にも応用できないだろうか?
– CV 分野では自然言語から学習する分類器の研究
は盛んではない
• 他の教師あり手法に及ぶ結果が出ていなかった
Ex) [1] では ImageNet に対して 11.5% の精度
• 筆者らの考え
– 従来手法ではデータの規模が小さく、モデルの
性能を十分に引き出せていない
[1] Li, A., Jabri, A., Joulin, A., and van der Maaten, L. Learning visual n-grams from web data. In
Proceedings of the IEEE International Conference on Computer Vision, pp. 4183–4192, 2017
大規模な (画像, テキスト) データの作成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• データセット
– WebImageText(WIT)
• インターネット上から収集した4億組の (画像, テキスト)
データ
– 従来研究では20万組程度であった
• GitHub (https://github.com/google-research-
datasets/wit) から入手可能
• モデル
– 画像エンコーダ、テキストエンコーダから成る
• 画像エンコーダ
– ResNet, VisionTransformer
• テキストエンコーダ
– Transformer
手法 7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 学習部分
モデル概要 8
入力テキスト群
入力画像群
テキストと画像を同じ
空間に埋め込む
真の (画像, テキスト) ペアの類似度が
最大になるように学習
Figure 1 より引用
バッチサイズ :
32, 768
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 推論部分
モデル概要 9
ラベルとなるテキストを生成
入力画像 最も類似度の高いペアを
出力
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. タスク学習能力の検証
– Zero-shot 転移学習による結果から検証
2. 表現学習の精度検証
– 他のモデルとベンチマークによる比較
実験 10
わからない単語が多く、
読み切れなかった
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 筆者らの調べではCLIP と同様のアプローチを
とっている既存研究は [1] のみ
• 3つのデータセットでの性能を比較
Vision N-Gram[1] との比較 11
性能が向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
プロンプトエンジニアリング
• Zero-shot 学習の課題
1. 事前学習と転移先タスクの入力の違い
• 事前学習では画像を説明するフルテキスト、転移先のタスクではラベ
ルが入力される
2. 単語の多義性
Ex) “crane” : 「鶴」?「クレーン」?
• 筆者らの対応
– 入力を工夫(プロンプトエンジニアリング)
Ex) “A photo of a {label}.”
“a satellite photo of a {label}.”
– 80 のプロンプトをアンサンブル
ImageNet において、3.5% の
精度上昇
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 27のデータセット中16で
ResNet よりも高い性能
• 特に動画データ(Kinetics700,
UCF101)で高い性能
– WIT に含まれる動詞が概念の
獲得に寄与したのではないか
• 専門的、複雑、抽象的な
タスクでは低い性能
– 衛星画像(EuroSAT, RESISC45)
– リンパ節腫瘍(PatchCamelyon)
etc …
教師ありベースラインとの比較 13
CLIP と ResNet-50 の学習済みモデルを比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 4-shot 付近で zero-shot と一致するという
直観と反する結果に
zero-shot vs few-shot 14
複数データセットにおける zero-shot, few-shot の
精度平均を算出
仮説
• zero-shot では概念を自然言語から直
接学習できる
• (特に one-shot の場合) 複数の概念が
訓練データと結びついてしまう
このギャップを解消する
手法の検討が必要
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• データセットによってばらつきのある結果に
– FER2013 では184、EuroSAT, Flowers102 では0.9
zero-shot のデータ効率 15
zero-shot と同等の精度を出すために必要な
データ数を比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• ほとんどのデータセットで fully supervised モデルを
10-25% 下回る性能を示す
• zero-shot と fully supervised
モデル の性能には正の相関が
ある
->
zero-shot の性能上限 16
fully supervised モデルが、zero-shot の性能上限
を定める仮説を検証
※破線が理想的な zero-shot を表す
(y=x)
このギャップを解消する手法の研究が
必要である
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
Scaling-law の検証
• 個々のデータセットではかなりばらつきがみられる
– 分散の違いなどがノイズになっていると推測される
• 平均をとると Scaling-law に
則ていることが確かめられる
[2] で提案された Scaling-law が CLIP にも当ては
まることを確かめる
※ 薄い線が個々のデータセット、
濃い線が平均を表す
Transformer モデルの性能がパラメータ数、
データ数、計算量にべき乗則でスケーリ
ングされる
[2] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D.
Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2. 表現学習の精度検証
– 他のモデルとベンチマークによる比較
実験 18
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
表現学習の性能 19
• モデル規模を大きくするにしたがって、CLIP が他の
モデルよりも高い性能を発揮
– 最優秀モデル(CLIP ViT-L/14@336px)
は他のモデルを2.5-5% 以上上回る
結果
• 計算効率の面でも他のモデル
を上回る
線形分類器を head につけ、表現学習の性能を27
データセットで他のモデルと比較
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
ImageNet SOTAモデルとの比較
• 27のデータセット中21で [3]
を上回る結果
• 両者の差は事前学習が
WIT or ImageNet であること
– CLIP が勝るデータセット
(SST2, Country211 etc) は
WIT が包含する概念の広さが
要因と考えられる
– [3]が勝るデータセット
(CIFAR系など) は WIT に画質に
関するデータの水増しが
行われていないことに起因する
Noisy Student EfficientNet-L2 [3] との比較
[3] Xie, Q., Luong, M.-T., Hovy, E., and Le, Q. V. Self-training with noisy student improves imagenet classification. In
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10687–10698, 2020
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 人間は zero-shot -> one-shot 間の正答の上昇幅が
大きい
– CLIP は one-shot ではむしろ性能悪化していたので、
逆の結果
• CLIP には少数ショットの活用に問題があることが
示唆される
人間との比較 21
CLIP の展望を探るために、Oxford IIT Pets dataset
における人間とCLIP の性能を比較
約20% の
Accuracy 向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• WIT と評価用データセットのオーバーラップ
に関する実験
• Natural Distribution Shiftに対するロバスト性
• 現状の CLIP の限界
• 社会的インパクト
今回扱わなかった内容 22
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• Web スケールのデータセットを作成し、
zero-shot でタスクを解くモデル CLIP を提案
• 複数のデータセットに対する実験を通して、
モデルのタスク学習性能、表現学習の性能に
ついて考察
• 現状、少数ショットの活用などに課題があり、
今後の研究対象である
まとめ 23

2021 09 29_dl_hirata

  • 1.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Learning Transferable Visual Models From Natural Language Supervision 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 平田航大
  • 2.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 著者 • Alec Radford, JongWook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever – OpenAI • 発表 – arXiv • 論文リンク – https://arxiv.org/pdf/2103.00020 • コード – https://github.com/openai/CLIP 論文情報 2
  • 3.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • 大規模データセットの作成、事前学習を行い、 zero-shot 条件下でも性能を発揮する 分類モデル CLIP を提案 – NLP 分野で成功している大規模事前学習を CV に も応用した • 「ラベル」ではなく、「自然言語」と画像を 結びつけることで分類タスクにおける高い拡 張性を実現 GPT, BERT など airplane a photo of a airplane a airplane … 従来 提案手法
  • 4.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 発表で扱う範囲 1. Introduction and Motivating Work 2. Approach 3. Experiments 4. Comparison to Human Performance 9. Conclusion 提案モデル、学習法 などに主眼を置くため
  • 5.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. 一般的な分類器は「ラベル」から学習される ため、学習できる概念が狭い – ベンチマークでの性能と実際のタスクでの 性能の乖離 2. ラベル付きデータを作成するにはコスト がかかる 背景 – 現状の問題 5 筆者らの改善案 画像を説明する自然言語から直接、表現を 学習する これにより、 1. に対して、学習できる概念が広がる 2. に対して、Web 上などから収集するデータから学習可能になる
  • 6.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 背景 – モチベーション • 従来手法 – NLP 分野では Web 上などから大規模データを 収集、事前学習を行ったモデルが成功 • CV 分野にも応用できないだろうか? – CV 分野では自然言語から学習する分類器の研究 は盛んではない • 他の教師あり手法に及ぶ結果が出ていなかった Ex) [1] では ImageNet に対して 11.5% の精度 • 筆者らの考え – 従来手法ではデータの規模が小さく、モデルの 性能を十分に引き出せていない [1] Li, A., Jabri, A., Joulin, A., and van der Maaten, L. Learning visual n-grams from web data. In Proceedings of the IEEE International Conference on Computer Vision, pp. 4183–4192, 2017 大規模な (画像, テキスト) データの作成
  • 7.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • データセット – WebImageText(WIT) • インターネット上から収集した4億組の (画像, テキスト) データ – 従来研究では20万組程度であった • GitHub (https://github.com/google-research- datasets/wit) から入手可能 • モデル – 画像エンコーダ、テキストエンコーダから成る • 画像エンコーダ – ResNet, VisionTransformer • テキストエンコーダ – Transformer 手法 7
  • 8.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 学習部分 モデル概要 8 入力テキスト群 入力画像群 テキストと画像を同じ 空間に埋め込む 真の (画像, テキスト) ペアの類似度が 最大になるように学習 Figure 1 より引用 バッチサイズ : 32, 768
  • 9.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 推論部分 モデル概要 9 ラベルとなるテキストを生成 入力画像 最も類似度の高いペアを 出力
  • 10.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. タスク学習能力の検証 – Zero-shot 転移学習による結果から検証 2. 表現学習の精度検証 – 他のモデルとベンチマークによる比較 実験 10 わからない単語が多く、 読み切れなかった
  • 11.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 筆者らの調べではCLIP と同様のアプローチを とっている既存研究は [1] のみ • 3つのデータセットでの性能を比較 Vision N-Gram[1] との比較 11 性能が向上
  • 12.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 プロンプトエンジニアリング • Zero-shot 学習の課題 1. 事前学習と転移先タスクの入力の違い • 事前学習では画像を説明するフルテキスト、転移先のタスクではラベ ルが入力される 2. 単語の多義性 Ex) “crane” : 「鶴」?「クレーン」? • 筆者らの対応 – 入力を工夫(プロンプトエンジニアリング) Ex) “A photo of a {label}.” “a satellite photo of a {label}.” – 80 のプロンプトをアンサンブル ImageNet において、3.5% の 精度上昇
  • 13.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 27のデータセット中16で ResNet よりも高い性能 • 特に動画データ(Kinetics700, UCF101)で高い性能 – WIT に含まれる動詞が概念の 獲得に寄与したのではないか • 専門的、複雑、抽象的な タスクでは低い性能 – 衛星画像(EuroSAT, RESISC45) – リンパ節腫瘍(PatchCamelyon) etc … 教師ありベースラインとの比較 13 CLIP と ResNet-50 の学習済みモデルを比較
  • 14.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 4-shot 付近で zero-shot と一致するという 直観と反する結果に zero-shot vs few-shot 14 複数データセットにおける zero-shot, few-shot の 精度平均を算出 仮説 • zero-shot では概念を自然言語から直 接学習できる • (特に one-shot の場合) 複数の概念が 訓練データと結びついてしまう このギャップを解消する 手法の検討が必要
  • 15.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • データセットによってばらつきのある結果に – FER2013 では184、EuroSAT, Flowers102 では0.9 zero-shot のデータ効率 15 zero-shot と同等の精度を出すために必要な データ数を比較
  • 16.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ほとんどのデータセットで fully supervised モデルを 10-25% 下回る性能を示す • zero-shot と fully supervised モデル の性能には正の相関が ある -> zero-shot の性能上限 16 fully supervised モデルが、zero-shot の性能上限 を定める仮説を検証 ※破線が理想的な zero-shot を表す (y=x) このギャップを解消する手法の研究が 必要である
  • 17.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 Scaling-law の検証 • 個々のデータセットではかなりばらつきがみられる – 分散の違いなどがノイズになっていると推測される • 平均をとると Scaling-law に 則ていることが確かめられる [2] で提案された Scaling-law が CLIP にも当ては まることを確かめる ※ 薄い線が個々のデータセット、 濃い線が平均を表す Transformer モデルの性能がパラメータ数、 データ数、計算量にべき乗則でスケーリ ングされる [2] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., and Amodei, D. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020
  • 18.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2. 表現学習の精度検証 – 他のモデルとベンチマークによる比較 実験 18
  • 19.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 表現学習の性能 19 • モデル規模を大きくするにしたがって、CLIP が他の モデルよりも高い性能を発揮 – 最優秀モデル(CLIP ViT-L/14@336px) は他のモデルを2.5-5% 以上上回る 結果 • 計算効率の面でも他のモデル を上回る 線形分類器を head につけ、表現学習の性能を27 データセットで他のモデルと比較
  • 20.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 ImageNet SOTAモデルとの比較 • 27のデータセット中21で [3] を上回る結果 • 両者の差は事前学習が WIT or ImageNet であること – CLIP が勝るデータセット (SST2, Country211 etc) は WIT が包含する概念の広さが 要因と考えられる – [3]が勝るデータセット (CIFAR系など) は WIT に画質に 関するデータの水増しが 行われていないことに起因する Noisy Student EfficientNet-L2 [3] との比較 [3] Xie, Q., Luong, M.-T., Hovy, E., and Le, Q. V. Self-training with noisy student improves imagenet classification. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 10687–10698, 2020
  • 21.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 人間は zero-shot -> one-shot 間の正答の上昇幅が 大きい – CLIP は one-shot ではむしろ性能悪化していたので、 逆の結果 • CLIP には少数ショットの活用に問題があることが 示唆される 人間との比較 21 CLIP の展望を探るために、Oxford IIT Pets dataset における人間とCLIP の性能を比較 約20% の Accuracy 向上
  • 22.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • WIT と評価用データセットのオーバーラップ に関する実験 • Natural Distribution Shiftに対するロバスト性 • 現状の CLIP の限界 • 社会的インパクト 今回扱わなかった内容 22
  • 23.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • Web スケールのデータセットを作成し、 zero-shot でタスクを解くモデル CLIP を提案 • 複数のデータセットに対する実験を通して、 モデルのタスク学習性能、表現学習の性能に ついて考察 • 現状、少数ショットの活用などに課題があり、 今後の研究対象である まとめ 23