5. LION-5B
紹介する論文
「LAION-5B: An open large-scale dataset for training next generation image-text
models 」
Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade W Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman,
Patrick Schramowski, Srivatsa R Kundurthy, Katherine Crowson, Ludwig Schmidt, Robert Kaczmarczyk, Jenia Jitsev
発表学会・時期・論文データ
- NeurIPS 2022 Datasets and Benchmarks
- 2022/06/06 Arxive
6. LION AI ?
LION AI は非営利団体の研究組織
「大規模な機械学習モデルやデータセット
、関連コードを一般に公開することを目的
とした、世界中のメンバーからなる非営利
団体」
寄付金と公益の研究費で活動しており得敵
の企業からの投資を受けない団体。
公式ページのAboutより
https://laion.ai/about/
15. データの収集方法の概要
以下のステップでデータを収集
1. Common Crawl からデータ取得
2. alt テキスト属性と、その画像タグを取得
3. alt 属性に含まれる言語データの言語検出
4. 画像の取得・後処理
5. 画像と alt テキストを CLIP に渡して類似性チェッ
ク
論文:LAION-5B: An open large-scale dataset for training next generation image-
text models Figure 2
16. 1. Common Crawl からのデータ取得
Common Crawl は Amazon が主導となり、世界中の
Web データをクロールしたものを提供している。
2008 年より収集したデータを誰でも扱うことが可能
Common Crawl からデータを取得して解析を行った
Common Crawl トップページより
17. 2. alt テキスト属性と、その画像タグを取得
Web ページの画像は alt 属性と呼ばれる画像を説明する
属性がある
本来の目的はアクセシビリティ(閲覧に障害がある人向け
の機能)向けに、Web リーダーで画像を認識させる機能
今回は、この alt テキスト属性と、画像を取得している
alt = alternative text for an image.
Mozilla Document Network (MDN) <img>: The Image Embed element
https://developer.mozilla.org/en-US/docs/Web/HTML/Element/img
18. 3. alt 属性に含まれる言語データの言語検出
抽出した alt テキストデータを Google 開発の
CLD3(Compact Language Detector3)を用いて、英語・
英語外の言語・未検知(信頼性が低いデータ)の3種類に分
類
ここまでで得られた情報を PostgresSQL に格納し次ス
テップ以降で加工しやすいようにしておく
※ CLD3 は言語検出を目的としたニューラルネットワー
クモデル。現在試験的に開発中となっている
詳細は GitHub 参照:https://docs.ropensci.org/cld3/
Cld3 : R Wrapper for Google’s Compact Language Detector 3
https://docs.ropensci.org/cld3/
25. 参考文献
- LAION-5B: An open large-scale dataset for training next generation image-text models
- LION AI
- AT MARK IT 記事:マルチモーダルAI(Multimodal AI)とは?
- Wikipedia: Modality
- Chem-Station 記事:[スポンサーリンク] 一般的な話題 創薬におけるモダリティの意味と具体例
- 英次郎 on the web: Modability
- NTT DATA:マルチモーダルAIとは?身近な事例で解説します!
- Learning Transferable Visual Models From Natural Language Supervision
- GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
- What are Diffusion Models?
- CLIP:言語と画像のマルチモーダル基盤モデル
- 【初学者向け】対照学習(Contrastive Learning)とは?
- Vision and Languageと分野を取り巻く深層学習手法の紹介