事前学習用データセットについて
Keno Harada, D1, the University of Tokyo
目次
主要なデータセットについて、どのような構成でどのくらいデー
タ量があるか
C4, mC4, MassiveText, RefineWeb, Dolma
最大級の公開データセット
“Dolma: An Open Corpus of 3 Trillion Tokens for Language Model Pretraining Research”
が現在作成中の言語モデル用の学習データセット
英語に特化したトークン数のデータセット
他データセットとの比較
“Dolma: An Open Corpus of 3 Trillion Tokens for Language Model Pretraining Research”
データセット最大フィルタリングも既存の論文に基づきを実践
“”
年月分のを元に作られたデータセット
での前処理を元にを構築、多言語
大規模コーパスの大元データセット
定期的にサイトを巡回し、ページを取得
大規模データセットでの事前学習の始まり
“”
年月のをもとに作られた英語データセット
前処理
「」「」「」「のような句読点で終わる行のみを採用
文以下のページを削除、単語以上ある行を残す
禁止単語リストの単語を含むページを削除
「」を含む行を削除
「」を含むページを削除
プログラミングにまつわる記号である「」を含むページを削除
文単位で重複判定し、重複分を削除
を使用し英語以外のページを削除
事前学習用データセットの質・量と下流タスクの性能の関係性
“”
ベースモデルでの学習
前処理の効果あまり違いな
い?
数多いと性能良い
中の課題が含まれる可能性
“”
中で一番数の多いであるの書類のうちは外から申請されたもの
外では母語での提出の後機械翻訳の使用も許可
をかけて読み込まれた書類もあり
中の課題性能を測るベンチマークのデータセットが含まれる
“”
中の課題フィルタリングによって除外されたデータセットが有用な
場合も
“”
フィルタで除外された文書で大部分がな文書は
残りの中には科学医学法律などにまつわる文書も
特定の性的指向をもつ人の文書も除外されている
のパイプラインを参考に作成したマルチリンガルデータセット
“”
のから抽出、言語からなるデータセット
英語圏の句読点を元にしたフィルタを外す
新たに文字以上からなる文がつ以上ある場合ページを残すフィルタを追加
という言語判定機を用いて以上の閾値で言語判定
データセットの課題
“”
各言語のデータセットからランダムにサンプルして質を評価
は言語コードと異なるデータが文字として意味がないものが
日本語は良いデータが
超えの巨大データセット非公開
“”
によって性能向上を確認
はで学習
のみからのデータセットを構築
“”
同じパイプラインを通せば、のみからの日本語データが手に入りそう
の効果をタスクや判定生成で検証が存在
“”
に対して追加のダブり削除、施す
どちらのも分類器から出力されるスコアをもとに実施
で検証
時には多様性を確保しつつ、でを調整
“Llama 2: Open Foundation and Fine-Tuned Chat Models”
最大級の公開データセット
“Dolma: An Open Corpus of 3 Trillion Tokens for Language Model Pretraining Research”
の実装も一部公開
本発表のまとめ
事前学習データセットについてどのように集められ、より良い学習のための工夫の概
観を掴んだ
実際に前処理して学習させてみたくなってきましたよね???
そんなあなたへ: LLM講義の演習・課題で思う存分楽しめます

【DL輪読会】事前学習用データセットについて

Editor's Notes

  • #4 基盤モデルの概要 (20P) 事例集 言語モデルにおける基盤モデル Prompting (20P ~ 25P) In Context Learning Demonstrations Instruction Trigger token td,lr 攻撃的なセンテンスを出させるToken 推論能力 Chain of though prompting Self Consistency Toolの利用,外部知識の参照 Instruction Tuning RLFH Contamination How LLM learn from context? Scaling Law 概要 1例で詳解 冪乗則とは:Scale Free 対数での線形性を満たすようなデータは存在する Discramer:Power Low Region Emergent Ability Grokking 研究から開発へ GPT4の例 モデルの選択 LSTM vs. Transformer 失敗する例もあることに注意 言語モデル以外でのスケール則 Vision Language Model Efficient Net Etc. スケールさせる試み モデルの巨大化 PaLM, MoE:Constrained Routed Language Modelsのスケール則 データを増やす Chinchilla The Pile Dataset, Falcon 40B データの不足 Scaling Law with Dataset Distillation 有効計算量を増やす これって何かある?(目的関数を変える系はあるけど) エポックを増やすとどうなるか?