2023.9.1 Xiao
AIについて学んだこと
〜 生成AIとは? 〜
1
目次
• まえがき
• 生成AIとは?
• 生成モデルについて
• GPTを取り上げて説明
• LLMについて
• まとめ
2
まえがき
• 生成AIというものについて大まかに説明する。
• 今回のスライドでは、いろいろな単語が出てくるので、順番に説明していく。
3
生成AIとは?
• 生成AI
→ 学習済みのデータをもとに、入力されたことに対して応答する形で、
新しいデータを作成して出力することができるAI。
• ただのAIと何が違う?
→ オリジナルコンテンツ創造の可否。
→ 学習の目的が「創造すること」にある。
→ 学習したパターンをもとにしてAI自身がオリジナルコンテンツを生成する。
これまでのAI
→ 予測・分析・分類・特定・自動化が主。
4
生成AIとは?
生成AIの利用例①
• テキスト生成 ( ChatGPT, Bard, etc.. )
→ 長文の要約、文章生成、プログラミングコード生成 など。
• 画像生成 ( Stable Di
ff
usion, DALL•E2 etc.. )
→ テキストで指示するとイメージに沿ったオリジナル画像を生成。
5
生成AIとは?
生成AIの利用例②
• 動画生成 ( Gen-2, etc.. )
→ 画像と同じように、テキストで指示するとイメージに沿ったオリジナル動画を生成。
(現時点ではまだ、数秒ほどの短い動画)
• 音声生成 ( Voicebox, etc.. )
→ 音声入力やテキスト入力により、新たな音声を生成。
・ 例)1人の声を大量に学習させる。
↓
その人の声質と全く同じ声で、文章を自由に話す音声を生成することができる。
6
生成AIとは?
生成モデルについて
• 生成モデルとは?
→ 生成AIの頭脳。
→ オリジナルコンテンツの創造のために、
特定の分野のパターンを認識・処理できるようにトレーニングさせたもの。
• 生成モデル例
→ GPTシリーズ、VAE、GAN、拡張モデル etc..
* 生成モデルについて”GPTシリーズ”を取り上げて説明する。
7
生成モデルについて
• GPT(Generative Pre-trained Transformer)
→ OpenAIが開発した大規模言語モデル。
→ 超膨大な量のテキストデータを学習させて、
文章生成や言語理解の能力(次に来る単語の予測など)を身につけさせたモデル。
・GPT(Generative Pre-trained Transformer)
GPTとは?
GPTをはじめとする
言語モデルの仕組みを作る上で
ベースとなっているもの
8
生成モデルについて
Transformerについて①
• Transformerとは?
→ 「Attention Is All You Need」という論文の中に登場した
ニューラルネットワークモデルのこと。
• どんなモデル?
→ 処理が早く、精度が高い。汎用性高くて何にでも使えるという言語モデル。
→ 従来の言語モデルが抱えていた問題をあっさり解決してしまったモデル。
9
生成モデルについて
Transformerについて②
• 従来のモデルとは?
→ RNNを使ったモデル。
・RNN: リカレントニューラルネットワーク
(リカレント:回帰)
ある時点での状態を
次の状態の入力値として使う。
S
X
Y
S0 S1 S2 S3
X1 X2
X3
Y1 Y2 Y3
展開したもの
出力
入力
10
生成モデルについて
Transformerについて③
• 何が問題だったか?
・ 長期記憶が苦手。
・ 同時に複数の処理ができない。
・ 学習スピードが遅い。
・ 超膨大な量のデータの処理に向かない。
S0 S1 S2 S3
X1 X2
X3
Y1 Y2 Y3
出力
入力
11
生成モデルについて
従来モデルの学習スタイル(長文読解の例)
「走れメロス」冒頭部分
メロスは激怒した。必ず、かの邪智暴虐の王を除かなければならぬと決意した。メロスには政治がわからぬ。
メロスは、村の牧人である。笛を吹き、羊と遊んで暮して来た。けれども邪悪に対しては、人一倍に敏感であった。
きょう未明メロスは村を出発し、野を越え山越え、十里はなれた此のシラクスの市にやって来た。
メロスには父も、母も無い。女房も無い。十六の、内気な妹と二人暮しだ。
この妹は、村の或る律気な一牧人を、近々、花婿として迎える事になっていた。結婚式も間近かなのである。
メロスは、それゆえ、花嫁の衣裳やら祝宴の御馳走やらを買いに、はるばる市にやって来たのだ。
先ず、その品々を買い集め、それから都の大路をぶらぶら歩いた。メロスには竹馬の友があった。セリヌンティウスである。
今は此のシラクスの市で、石工をしている。その友を、これから訪ねてみるつもりなのだ。(以下省略)
【問題】 メロスが、”はるばる市にやって来た” のはなぜか?
【解答】 近々結婚式を挙げる妹に、花嫁の衣装や祝宴の御馳走などを買うため。
妹の結婚式のための
買い出しのはずが、、
セリヌンティウスに会うため?
従来モデル(RNN)の場合
12
生成モデルについて
Transformerの学習スタイル
• 従来のモデルの問題をTransformerがどのようにして解決したのか?
→ 「長文読解を、マーカーを引きながら読み進める!」
→ 「リスニング問題で、メモを取りながら聞く!」というイメージ。
単語や一節に重み付け(マーキング)していきながら読み進め、
どういう出力が一番いいか判断するという処理を行う。
→ リカレント層を取り除いて、Attention層 でモデルを構成
13
生成モデルについて
Transformerの学習スタイル(長文読解の例)
「走れメロス」冒頭部分
メロスは激怒した。必ず、かの邪智暴虐の王を除かなければならぬと決意した。メロスには政治がわからぬ。
メロスは、村の牧人である。笛を吹き、羊と遊んで暮して来た。けれども邪悪に対しては、人一倍に敏感であった。
きょう未明メロスは村を出発し、野を越え山越え、十里はなれた此のシラクスの市にやって来た。
メロスには父も、母も無い。女房も無い。十六の、内気な妹と二人暮しだ。
この妹は、村の或る律気な一牧人を、近々、花婿として迎える事になっていた。結婚式も間近かなのである。
メロスは、それゆえ、花嫁の衣裳やら祝宴の御馳走やらを買いに、はるばる市にやって来たのだ。
先ず、その品々を買い集め、それから都の大路をぶらぶら歩いた。メロスには竹馬の友があった。セリヌンティウスである。
今は此のシラクスの市で、石工をしている。その友を、これから訪ねてみるつもりなのだ。
【問題】 メロスが、”はるばる市にやって来た” のはなぜか?
【解答】 近々結婚式を挙げる妹に、花嫁の衣装や祝宴の御馳走などを買うため。
マーカー部分を判断材料とする。
買い出しか?
セリヌンティウスに会うためか?
Transformerの場合
14
生成モデルについて
Transformerの構造①
• Transformerの構造
→ ベースは「エンコーダ・デコーダ」モデル
エンコーダ
デコーダ
出典:”Attention Is All You Need”
15
生成モデルについて
Transformerの構造②
• エンコーダ
→ 入力された文章の構造を理解し、単語の位置情報を理解した
後、それぞれの単語や一節の関係を理解し、類似度や、重要度
を把握する。
Self-Attention層
入力文章内の照応関係(類似度や重要度)を獲得する層。
Positional Encoding層
単語の位置情報を埋め込む層。
出典:”Attention Is All You Need”
16
生成モデルについて
Transformerの構造③ • デコーダ
→ Attention層で重み付けして来たものに対して、最
終的にどういう出力がいいか判断して、出力する。
Self-Attention層(マスクあり)
入力文章内の照応関係(類似度や重要度)を獲得する層。
Positional Encoding層
単語の位置情報を埋め込む層。
Source-Target-Attention層
異なる文章同士の照応関係(類似度や重要度)を獲得する層。
出典:”Attention Is All You Need”
17
生成モデルについて
“Attention Is All You Need”
• Attention層自体は、すでに2015年あたりに登場。
→ RNNの「あまりにも長文になると精度が下がってしまう問題」を
解決するために使われてはいた。
→ リカレント層を取り除くという発想には至らなかった。
• リカレント層がなくてもAttention層だけで十分じゃないか!
→ “Attention Is All You Need”
18
Transformer
→ リカレント層を取り除いて、Attention層 でモデルを構成
生成モデルについて
Transformerモデルの発表
• “Attention Is All You Need” による Transformerモデルの発表
世界中の言語モデル研究・開発の光となる!
言語モデルに対し、より多くのデータを学習させることができるようになり、
著しく言語モデルの精度をあげることに成功!
19
LLMについて
LLMとは?
• Transformerの登場で、
モデルに対し、より多くのデータを学習させることができるようになった。
結果: モデルが超巨大化。
超巨大化した言語モデル
大規模言語モデル
LLM(Large Language Models)
20
LLMについて
LLMの代表的なモデル4つ
• BERT
→ Googleが発表した初期のLLM。双方のエンコードによるモデル。
• GPT
→ OpenAIが発表。
デコーダによる教師なしの事前学習の後、
各タスクに合わせてファインチューニングによる教師あり学習を行う2段階のモデル。
• PaLM
→ Googleが発表。とにかく大量のパラメータ数をもつモデル。
• LLaMA
→ Metaが発表。
他のLLMと比べて圧倒的にパラメータ数が少ないが、
他のLLMに匹敵する精度をもつモデル。 どのモデルもベースは ”Transformer”
次ページより、それぞれのモデルの特徴を簡単に説明する。
21
LLMについて
LLMの代表的なモデル4つ( BERT )
• BERT
→ Googleが発表した初期のLLM。双方のエンコードによるモデル。
• BERTのアルゴリズム
→ 従来の単一方向からの学習ではなく、
双方向からのエンコードによる学習でマスク部分を導き出す。
Itʼs already 2 p.m. He is ( ) . Itʼs already 2 p.m. He is ( ) .
22
LLMについて
LLMの代表的なモデル4つ( GPT )
• GPT
→ OpenAIが発表。
デコーダによる教師なしの事前学習の後、
各タスクに合わせてファインチューニングによる教師あり学習を行う2段階のモデル。
• ファインチューニングとは?
→ ファインチューニング: 微調整
→ 学習済みのモデルに、特定のタスクに関するデータを追加。
そのタスクに適応した表現・特徴を出力できるように再学習させるということ。
23
LLMについて
LLMの代表的なモデル4つ( GPT )
• ファインチューニング
例)「その映画のレビュー文は、Positive か Negative か?」(感情分析)
映画レビューのデータだけを学習させたモデルに、次の質問をしたい。
”この映画のレビュー内容を、Positive or Negative で分類してください。”
事前学習 : 映画レビューのデータを学習
ファインチューニング :「レビュー内容を、Positive or Negative に分類する」というタスクに関して、
より正しく分類できるように、モデルを微調整し、再学習してもらう。
24
LLMについて
LLMの代表的なモデル4つ( PaLM )
• PaLM
→ Googleが発表。とにかく大量のパラメータ数をもつモデル。
• PaLMの学習方法
→ Pathways という学習アプローチ。複数のTPU を相互接続して、並行学習をしていくような構成。
パラメータ数比較
・GPT-1 1億1700万個
・GPT-2 15億個
・GPT-3 1750億個
・PaLM 5400億個
・LLaMA 70億〜700億個
6144台のTPU v4 を使用して、データ処理
TPU(Tensor Processing Unit)
: Googleが開発したDeepLearningのためのデータ処理装置
25
LLMについて
パラメータとは?
• パラメータとは?
→ 一概に一言で、こういうものです!という説明はできない。
→ モデル内のニューロン、ニューロン同士を結合するシナプス、
シナプスにかかる重みとバイアス。
• パラメータ数
→ ニューロンの数、シナプスの数、重み、バイアス、全てを考慮して計算した数。
→ モデルの複雑さ・表現力を示す指標となるもの。
パラメータ数が多いとモデルはより複雑なパターン・関係性を学習することができる。
26
LLMについて
LLMの代表的なモデル4つ( LLaMA )
• LLaMA
→ Metaが発表。
他のLLMと比べて圧倒的にパラメータ数が少ないが、
他のLLMに匹敵する精度をもつモデル。
• 少ないパラメータ数で高精度のモデル
→ パラメータ数が少ない分、超膨大な量の学習データで学習させた。
→ Transformerの研究を重ね、より少ない計算量で学習する方法を実現させた。
パラメータ数比較
・GPT-3 1750億個
・PaLM 5400億個
・LLaMA 70億〜700億個
27
LLMについて
LLMの代表的なモデル4つ( LLaMA )
• LLaMA2の発表
→ 2023年7月発表。商用利用が可能になった。
LLaMA1
・ソースコードは一般公開。
・重み付けに関しては
特定のコミュニティを除き、確認不可。
・商用利用は不可、研究開発のみの利用が可能。
LLaMA2
・公式に商用利用可能。
・モデルの重み付けも公開。
28
LLMについて
LLMの代表的なモデル4つ( LLaMA )
• LLaMA2の発表
→ 2023年7月発表。商用利用が可能になった。
LLaMA2の発表後すぐに
・Stable Di
ff
usion(画像生成AI)を展開するStabilityAIが、
LLaMA2をファインチューニングして新しいLLMを開発! というニュース。
LLaMAをベースに、世界中の企業・個人が
新しいモデルを開発する流れに!
29
発表内容をおさらい
AI
生成AI
・テキスト生成(例:ChatGPT)
・画像生成
・動画生成
・音声生成 etc..
ChatGPT
GPTモデル
・Transformerという仕組みがベース
~~~~。
LLM
大規模言語モデル
GPT
LLaMA
PaLM
~~~、~~?
文章入力
30
まとめ
• 今回はAIの中の”生成AI”というものについて取り上げた。
• 生成モデルのベース”Transformer”の登場が、LLMの発展に大きく影響した。
• LLMは、現在もどんどん開発が進められていて、
大企業が次から次へとモデルを製作・発表。
• 次に現れるLLMは何か?
31
発表は以上です。
ご清聴ありがとうございました。
32

AIについて学んだこと ~ 生成AIとは? ~