【DL輪読会】事前学習用データセットについて

•Download as PPTX, PDF•

1 like•405 views

Deep Learning JP

2023/8/24 Deep Learning JP http://deeplearning.jp/seminar-2/

Technology

事前学習用データセットについて
Keno Harada, D1, the University of Tokyo

目次
主要なデータセットについて、どのような構成でどのくらいデー
タ量があるか
C4, mC4, MassiveText, RefineWeb, Dolma

最大級の公開データセット
“Dolma: An Open Corpus of 3 Trillion Tokens for Language Model Pretraining Research”
が現在作成中の言語モデル用の学習データセット
英語に特化したトークン数のデータセット

他データセットとの比較
“Dolma: An Open Corpus of 3 Trillion Tokens for Language Model Pretraining Research”
データセット最大フィルタリングも既存の論文に基づきを実践

大規模データセットでの事前学習の始まり
“”
年月のをもとに作られた英語データセット
前処理
「」「」「」「のような句読点で終わる行のみを採用
文以下のページを削除、単語以上ある行を残す
禁止単語リストの単語を含むページを削除
「」を含む行を削除
「」を含むページを削除
プログラミングにまつわる記号である「」を含むページを削除
文単位で重複判定し、重複分を削除
を使用し英語以外のページを削除

事前学習用データセットの質・量と下流タスクの性能の関係性
“”
ベースモデルでの学習
前処理の効果あまり違いな
い？
数多いと性能良い

中の課題が含まれる可能性
“”
中で一番数の多いであるの書類のうちは外から申請されたもの
外では母語での提出の後機械翻訳の使用も許可
をかけて読み込まれた書類もあり

中の課題フィルタリングによって除外されたデータセットが有用な
場合も
“”
フィルタで除外された文書で大部分がな文書は
残りの中には科学医学法律などにまつわる文書も
特定の性的指向をもつ人の文書も除外されている

のパイプラインを参考に作成したマルチリンガルデータセット
“”
のから抽出、言語からなるデータセット
英語圏の句読点を元にしたフィルタを外す
新たに文字以上からなる文がつ以上ある場合ページを残すフィルタを追加
という言語判定機を用いて以上の閾値で言語判定

データセットの課題
“”
各言語のデータセットからランダムにサンプルして質を評価
は言語コードと異なるデータが文字として意味がないものが
日本語は良いデータが

のみからのデータセットを構築
“”
同じパイプラインを通せば、のみからの日本語データが手に入りそう

の効果をタスクや判定生成で検証が存在
“”
に対して追加のダブり削除、施す
どちらのも分類器から出力されるスコアをもとに実施
で検証

時には多様性を確保しつつ、でを調整
“Llama 2: Open Foundation and Fine-Tuned Chat Models”

最大級の公開データセット
“Dolma: An Open Corpus of 3 Trillion Tokens for Language Model Pretraining Research”
の実装も一部公開

本発表のまとめ
事前学習データセットについてどのように集められ、より良い学習のための工夫の概
観を掴んだ
実際に前処理して学習させてみたくなってきましたよね？？？
そんなあなたへ: LLM講義の演習・課題で思う存分楽しめます

What's hot

【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement LearningDeep Learning JP

Triplet Loss 徹底解説tancoro

タクシー運行最適化を実現する機械学習システムの社会実装RyuichiKanoh

[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribut...Deep Learning JP

推薦アルゴリズムの今までとこれからcyberagent

[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP

【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP

【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge

【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP

【DL輪読会】Code as Policies: Language Model Programs for Embodied ControlDeep Learning JP

SSII2021 [OS2-01] 転移学習の基礎：異なるタスクの知識を利用するための機械学習の方法SSII

CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura

初めてのグラフカットTsubasa Hirakawa

[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP

SSII2021 [TS3] 機械学習のアノテーションにおけるデータ収集〜精度向上のための仕組み・倫理や社会性バイアス〜SSII

勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh

画像認識と深層学習Yusuke Uchida

Deep Learning による視覚×言語融合の最前線Yoshitaka Ushiku

最適輸送の解き方joisino

0から理解するニューラルネットアーキテクチャサーチ（NAS）MasanoriSuganuma

What's hot (20)

【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning

Triplet Loss 徹底解説

タクシー運行最適化を実現する機械学習システムの社会実装

[DL輪読会]Invariance Principle Meets Information Bottleneck for Out-of-Distribut...

推薦アルゴリズムの今までとこれから

[DL輪読会]Flow-based Deep Generative Models

【DL輪読会】時系列予測 Transfomers の精度向上手法

【メタサーベイ】基盤モデル / Foundation Models

【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models

【DL輪読会】Code as Policies: Language Model Programs for Embodied Control

SSII2021 [OS2-01] 転移学習の基礎：異なるタスクの知識を利用するための機械学習の方法

CVPR2016 reading - 特徴量学習とクロスモーダル転移について

初めてのグラフカット

[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision

SSII2021 [TS3] 機械学習のアノテーションにおけるデータ収集〜精度向上のための仕組み・倫理や社会性バイアス〜

勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)

画像認識と深層学習

Deep Learning による視覚×言語融合の最前線

最適輸送の解き方

0から理解するニューラルネットアーキテクチャサーチ（NAS）

Recently uploaded

Utilizing Ballerina for Cloud Native IntegrationsWSO2

知識ゼロの営業マンでもできた！超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.

新人研修　後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.

論文紹介：Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki

Amazon SES を勉強してみるその２2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452

論文紹介：Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki

Amazon SES を勉強してみるその３2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.

Recently uploaded (10)

Utilizing Ballerina for Cloud Native Integrations

知識ゼロの営業マンでもできた！超速で初心者を脱する、悪魔的学習ステップ3選.pptx

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス

新人研修　後半 2024/04/26の勉強会で発表されたものです。

論文紹介：Selective Structured State-Spaces for Long-Form Video Understanding

Amazon SES を勉強してみるその２2024/04/26の勉強会で発表されたものです。

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games

論文紹介：Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...

Amazon SES を勉強してみるその３2024/04/26の勉強会で発表されたものです。