論文紹介 - 第1回(公開用).pptx

全体ゼミ論文紹介
第1回 - LION-5B の紹介 -
2023/04/24
D1 mantaroh

お品書き
1. 紹介する論文について
2. 論文概要
3. 論文の詳細
4. まとめ
5. Appendix

発表の前に
D1 mantarohです。
研究テーマは「機械学習を用いたターゲット別のWebデザインの生成及びWeb
アプリの自動生成に関する研究」です。
Web に関する技術が好きです。

紹介する論文について

LION-5B
紹介する論文
「LAION-5B: An open large-scale dataset for training next generation image-text
models 」
Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade W Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman,
Patrick Schramowski, Srivatsa R Kundurthy, Katherine Crowson, Ludwig Schmidt, Robert Kaczmarczyk, Jenia Jitsev
発表学会・時期・論文データ
- NeurIPS 2022 Datasets and Benchmarks
- 2022/06/06 Arxive

LION AI ？
LION AI は非営利団体の研究組織
「大規模な機械学習モデルやデータセット
、関連コードを一般に公開することを目的
とした、世界中のメンバーからなる非営利
団体」
寄付金と公益の研究費で活動しており得敵
の企業からの投資を受けない団体。
公式ページのAboutより
https://laion.ai/about/

概要を一言でいうと
マルチモーダルAIの学習で使う、データセット(2.3B)を公
開して、既存の CLIP(OpenAI) や GLIDE などのAIモデルの
置き換えとファインチューニングに成功した。
データはhttps://huggingface.co/laionからダウンロードを可
能とした

マルチモーダルAIモデル？
シングルモーダル
→ 入力データソースが1つ。例：ＣＮＮ(畳み込みニューラル)は画像だけを入
力とする
マルチモーダル
→入力データソースが複数。例：音声＋テキスト、音声＋画像など
→複数の種類のデータ(Modality)を扱うことが出来るAI

Modality
Modality = 様相性
研究分野の文脈で意味が変わってくる
→医学分野(薬学)：どういう薬を何から作るかという選択
→言語学：話している内容や聞き手に対する話し手の判断や態度に関する言語
表現の概念体系
→機械学習分野：数値／画像／テキスト／音声など複数種類のデータを組み合
わせて処理できる単一のAIモデル

マルチモーダルAIモデルの例
一つのデータソースでは推測が困
難な問題を複数のデータを使うこ
とで推測する
例：
・画像＋音声で「大声でたむろし
ている人」を推測
NTT DATA
マルチモーダルAIとは？身近な事例で解説します！より抜粋

マルチモーダルAIモデルの例 - CLIP -
2021年に Open AI が発表したマルチモーダ
ルAIモデルの事前学習方法
「Contrastive Language-Image Pre-training
」
「Contrastive Learning」を用いて画像＋テ
キストを学習させたマルチモーダルAIモデル
の事前学習方法
OpenAI CLIP ページ
https://openai.com/research/clip

LION-5B の研究目的
CLIP などのマルチモーダルAIモデルに必要となるデータセットで公開さ
れているものが存在しない
→良質な大規模データを公開することで、この分野の研究を進められる
はず
→画像＋テキストのデータセットを作る方法を提案
→CLIP の事前学習方法を用いて、LION-5Bを使うことでパフォーマンス
の改善が見込めるか検証する

データの収集方法の概要
以下のステップでデータを収集
1. Common Crawl からデータ取得
2. alt テキスト属性と、その画像タグを取得
3. alt 属性に含まれる言語データの言語検出
4. 画像の取得・後処理
5. 画像と alt テキストを CLIP に渡して類似性チェッ
ク
論文：LAION-5B: An open large-scale dataset for training next generation image-
text models Figure 2

1. Common Crawl からのデータ取得
Common Crawl は Amazon が主導となり、世界中の
Web データをクロールしたものを提供している。
2008 年より収集したデータを誰でも扱うことが可能
Common Crawl からデータを取得して解析を行った
Common Crawl トップページより

2. alt テキスト属性と、その画像タグを取得
Web ページの画像は alt 属性と呼ばれる画像を説明する
属性がある
本来の目的はアクセシビリティ(閲覧に障害がある人向け
の機能)向けに、Web リーダーで画像を認識させる機能
今回は、この alt テキスト属性と、画像を取得している
alt = alternative text for an image.
Mozilla Document Network (MDN) <img>: The Image Embed element
https://developer.mozilla.org/en-US/docs/Web/HTML/Element/img

3. alt 属性に含まれる言語データの言語検出
抽出した alt テキストデータを Google 開発の
CLD3(Compact Language Detector3)を用いて、英語・
英語外の言語・未検知(信頼性が低いデータ)の3種類に分
類
ここまでで得られた情報を PostgresSQL に格納し次ス
テップ以降で加工しやすいようにしておく
※ CLD3 は言語検出を目的としたニューラルネットワー
クモデル。現在試験的に開発中となっている
詳細は GitHub 参照：https://docs.ropensci.org/cld3/
Cld3 : R Wrapper for Google’s Compact Language Detector 3
https://docs.ropensci.org/cld3/

4. 画像の取得・後処理
● コンピュータリソースの最大化のため Python の Trio ライブラリを利用する。
● これによりパラレルでのダウンロードが可能となる。
● 費用の制限のため、1ワーカー当たり 2つの仮想CPU・1GBのRAM・10Mbps の帯域のインス
タンスを使いダウンロードする。
● 1ワーカーで 10,000 リンクの画像を取得するのに 10～15分。
● 今回は300ワーカーを使いパラレルにダウンロードを行った
● 画像ダウンロード後に後処理として、alt テキストが少ないデータや極端に小さい画像、悪意
のある画像、重複した画像は削除した

最終的なデータ
LION-5B は以下の 3つのサブデータから構成されている
- 2.32billion (23億2千)の英語イメージテキストペア
(LION-2B-en)
- 2.26billion (22億6千) の多言語サブセット
- 最も多い言語トップ5はロシア・フランス・ドイツ・スペイン・中国語
- 1.27billion (12億7千) の言語無しデータ

LION-5Bの検証
LION-5B のデータセットが有効か以下の手法で確認
- CLIP モデルのデータセット置き換え
- CLIP モデルの事前学習データとして LION-5B を利用する
- 置き換え後の
- 学習時間の比較
- ゼロショット分類のパフォーマンス測定
結果として、CLIP と同等もしくは同等以上のパフォーマンスを発揮した

LION-5Bの意義
LION-5B をリリースすることで、最先端の言語ビジョンモデルの訓練
と研究のためのオープンデータセットの規模をさらに押し上げた。
クローズドなデータで訓練したオリジナルモデルの強力なゼロショッ
ト性能と堅牢性に匹敵する様々な規模のCLIPモデルを訓練できること
を示した。
これにより今までデータセットにアクセスできなかった言語ビジョン
モデルの多言語大規模訓練と研究の機会を多くの研究者へ提供するこ
とができた。

参考文献
- LAION-5B: An open large-scale dataset for training next generation image-text models
- LION AI
- AT MARK IT 記事：マルチモーダルAI（Multimodal AI）とは？
- Wikipedia: Modality
- Chem-Station 記事：[スポンサーリンク] 一般的な話題創薬におけるモダリティの意味と具体例
- 英次郎 on the web: Modability
- NTT DATA：マルチモーダルAIとは？身近な事例で解説します！
- Learning Transferable Visual Models From Natural Language Supervision
- GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
- What are Diffusion Models?
- CLIP：言語と画像のマルチモーダル基盤モデル
- 【初学者向け】対照学習（Contrastive Learning）とは？
- Vision and Languageと分野を取り巻く深層学習手法の紹介

論文中の注釈
データセットの健全性：
現在の自動化されたフィルタリング機能は完ぺきとは言い難い。例えば暴力的な画像がフィルタリ
ングを通過したり、有害ではない画像がフィルタリングされるなど。
<中略>
このフィルタリングの複雑性や異なる文化の多様な意見を念頭に置いて、上記の分類器は完璧では
ないことに注意することが重要である

論文紹介 - 第1回(公開用).pptx

Recommended

Recommended

More Related Content

Similar to 論文紹介 - 第1回(公開用).pptx

Similar to 論文紹介 - 第1回(公開用).pptx (20)

Recently uploaded

Recently uploaded (14)

論文紹介 - 第1回(公開用).pptx

Editor's Notes