大規模言語モデルとChatGPT

東京大学大学院情報理工学系研究科
創造情報学専攻准教授
中山英樹

 中山英樹
◦ 情報理工学系研究科創造情報学専攻准教授
 Beyond AI 研究推進機構兼務
 ニューロインテリジェンス国際研究機構兼務
◦ 産総研AIセンター招聘研究員
 研究領域
◦ コンピュータビジョン
◦ 自然言語処理
◦ マルチモーダル深層学習
2

3
a woman is slicing
some vegetables
a cat is trying to
eat the food
画像・動画像認識自然言語生成
（物語生成、対話など）
画像生成

4
Stable Diffusion
（画像生成）
ChatGPT
（テキスト生成、対話）
Stability AI
https://stablediffusionweb.com/#demo
OpenAI
https://chat.openai.com/chat
 深層学習の発達を背景に驚異的な成功
 莫大な計算機資源・Webデータを用い、熾烈な開発競争
Google Japan Blog
Google レンズ
（画像認識）

5
https://arxiv.org/abs/2303.18223
Zhao et al., A Survey of Large Language Models, 2023.

 1960年代から始まる長い歴史
6
大規模言語モデル
(Large Language Mode; LLM)
の登場
1966
ELIZA
1972
PARRY
1988
Jabberwacky
1995
A.L.I.C.E.
2001
SmarterChild
2010
Siri
2012
Google Now
2014
Cortana
Alexa
2022
ChatGPT
2023
Google Bard
https://en.wikipedia.org/wiki/ELIZA#
ELIZA [Joseph Weizenbaum, 1966]
2010年代にも
対話AIはブームに
疑問：なぜ「今」急激に進歩した？
答え：

 １．機械学習技術の発展（深層学習）
◦ 言語モデルを表現するための数理的道具立て
 ２．データ量の増加
◦ 莫大なWebデータから広範な知識の獲得
 ３．計算機性能の増加
◦ 大規模な言語モデル・膨大なデータを処理する計算基盤
7

 大規模言語モデルの基盤技術
◦ 言語モデルとは
◦ 深層学習による言語モデルの実装：ニューラル言語モデル
◦ 教師なし事前学習（GPT=Generative Pre-Training）
◦ 事前学習済みモデルの活用（Fine-tuning, プロンプティング）
◦ GPTからChatGPTへ
 現状の大規模言語モデル・チャットAIの課題やリスク
◦ 誤りや不適切な内容を含む情報の生成（ハルシネーション、バイアス）
◦ プライバシー・著作権の侵害
◦ 悪意ある攻撃に対する脆弱性
8

 人間が使うような、一般的な言語をコンピュータに処理させる技術の総称
 自然言語理解
◦ 自然言語処理の一分野であり、言語の意味を理解させることに主眼をおいた試み
◦ 対話、翻訳、要約など多くのタスクが含まれる
 基本的にはテキスト情報を扱う
◦ ある意味を持つトークン（基本的には単語）の系列
9
government of the people, by the people, for the people

 単語列（文）の生起確率を計算するモデル（確率分布モデル）
◦ その文が世の中に出現する確率はどれくらいか？を計算する
 良い言語モデルの動作イメージ ※確率値の大きさは適当です（実際はもっともっと小さい）
◦ P(私が犬を散歩に連れていく) = 0.3
◦ P(私や犬で散歩を連れていく) = 0.001
◦ P(犬が私を散歩に連れていく) = 0.0001
◦ P(私が象を散歩に連れていく) = 0.01
◦ P(A君が B君を殴った。B君は病院へ行った。）= 0.2
◦ P(A君が B君を殴った。A君は病院へ行った。）= 0.01
 これができると、さまざまな言語生成タスクへ応用可能
10
文法
意味・常識
論理

𝑃𝑃 𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑇𝑇
= �
𝑡𝑡
𝑇𝑇
𝑃𝑃 𝑦𝑦𝑡𝑡|𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1
 多くの場合、先頭の単語から順番に確率を計算する
以下、文中の𝑛𝑛番目の単語を𝑦𝑦𝑛𝑛, 文に含まれる単語数を𝑇𝑇とする
11
P(あるところにおじいさんとおばあさんがいた)
= P(ある)
×P(ところ | ある）
×P(に | ある、ところ）
×P(おじいさん | ある、ところ、に)
×P(と | ある、ところ、に、おじいさん)
×P(おばあさん | ある、ところ、に、おじいさん、と)
×P(が | ある、ところ、に、おじいさん、と、おばあさん)
×P(い | ある、ところ、に、おじいさん、と、おばあさん、が)
×P(た | ある、ところ、に、おじいさん、と、おばあさん、が、い)
例：「あるところにおじいさんとおばあさんがいた」
(あるところにおじいさんとおばあさんがいた)
(𝑇𝑇 = 9)
𝑦𝑦1 𝑦𝑦2 𝑦𝑦3 𝑦𝑦4 𝑦𝑦5 𝑦𝑦6 𝑦𝑦7 𝑦𝑦8 𝑦𝑦9
𝑦𝑦1
ある
𝑦𝑦2
ところ
𝑦𝑦3
に
𝑦𝑦4
おじいさん
全単語に
ついて積
をとるコンテキストのもとで
𝑡𝑡 番目の単語が生成
される確率
既に決定された
ひとつ前までの単語
（コンテキスト）
本質的にはこれ
があればよい！

 直前までの単語に基づき、次の単語の生成確率を表す条件付き確率モデルが本質
◦ 一般にはこれを言語モデルと呼ぶことが多い
◦ 最近の対話AIの進歩の最大の要因は、要するにこれの良い実現方法が開発されたということ
12
コンテキストのもとで𝑡𝑡 番目の
単語が生成される確率
既に決定された（=与えられた）
ひとつ前までの単語（コンテキスト）
 次の単語の予測を繰り返していけば、長期的な文章の生成も（原理的には）可能

 素朴な統計的発想：頻度を利用する（パターンを数え上げて表にする）
13
𝑃𝑃 おじいさん|ある, ところ, に =
「ある, ところ, に, おじいさん」が含まれる文書数
「ある, ところ, に」が含まれる文書数
 コンテキストが長くなると、現実的には不可能
◦ ×単語数に対して組み合わせ爆発
◦ ×ピッタリ一致する単語列がほぼ見つからなくなる（データスパースネス問題）
 古典的な言語モデルである𝑛𝑛 -gramでは、直近(𝑛𝑛 − 1) 単語だけ見るように妥協する
◦ ×もちろん、これでは長期的な関係性を表現することはできない！
𝑃𝑃 おばあさん|ある, ところ, に, おじいさん, と 𝑃𝑃 おばあさん|おじいさん, と
例：3-gramで近似

 ニューラルネットワークを用いた人工知能の構築技術の総称（第三世代）
◦ 脳(神経細胞)の働きを一部参考にした学習アルゴリズム
 特に、深く大規模な構造を備えていることが特徴
 データ量の増加、計算機能力の増大に伴い真の力を発揮できるようになった
◦ 画像認識、音声認識でまず大成功（2012年頃）
14
cat
cat
dog
horse

 機械学習（教師あり）
15
“cat”
( )
{ }
N
i
yi
i ,...,
1
,
, =
x
x y
未知のデータ（学習データに含まれない）を正しく認識させることが目標 (=汎化)
大量のラベル付き訓練データ
(x:画像，y:ラベル）
…
cat dog bird
( )
x
f

+
 線形識別平面を作ることに対応
 訓練サンプルが正しく識別されるように
少しずつパラメータを更新
16
𝑦𝑦
= 𝜎𝜎(𝑤𝑤1𝑥𝑥1 + 𝑤𝑤2𝑥𝑥2 + 𝑏𝑏)
𝑥𝑥2
𝑤𝑤1
𝑤𝑤2
𝑥𝑥1
𝜎𝜎(�)
入力2
入力1
出力 ×
×
×
×
×
×
×
×
𝑥𝑥1
𝑥𝑥2
𝑤𝑤1𝑥𝑥1 + 𝑤𝑤2𝑥𝑥2 + 𝑏𝑏 = 0
Δ𝜽𝜽
𝑦𝑦 > 0
𝑦𝑦 < 0
重み 𝑏𝑏
バイアス
活性化関数
𝜽𝜽 = (𝑤𝑤1, 𝑤𝑤2, 𝑏𝑏)
モデルパラメータ：
実質的には、傾き・切片の
２パラメータを有するモデル

 多層フィードフォワードネットワーク (1980～)
 多数の単純パーセプトロンを階層的に組み合わせる
◦ 非線形の境界が引けるようになる
◦ パラメータ最適化はNP困難だが、誤差逆伝播法で局所解へ収束
17
入力層出力層
cat
dog
horse
入力画像に対する
物体クラスの条件付確率
𝑃𝑃 物体クラス )

 多層ニューラルネットワークを用いて実装された言語モデル
 最新のLLMでは、パラメータ数が数兆個のものも！
 基本的には大きいだけで古典的なニューラルネットの延長にすぎないが、
アテンションなどの現代的な工夫も入っている
18
入力層出力層
おじいさん
おばあさん
おかあさん
𝑦𝑦1, 𝑦𝑦2, ⋯ , 𝑦𝑦𝑡𝑡−1
ある, ところ, に,
おじいさん, と

 系列情報の入出力を扱う一般的なネットワーク（1990年代に登場）
 1ステップ前の隠れ状態を再入力するネットワーク
 隠れ状態は、入力系列の記憶を全て保持したベクトルとなる
 理論的には、任意のタイムスケールでの入出力依存関係を表現可能
 LSTM, GRUなどのゲーティング機構を加えて誤差消失を防ぐことが多い
19
𝑊𝑊ℎℎ
𝐱𝐱𝑡𝑡
𝐲𝐲𝑡𝑡
𝐡𝐡𝑡𝑡
𝐡𝐡𝑡𝑡−1
𝑊𝑊𝑥𝑥𝑥
𝑊𝑊ℎ𝑦𝑦
𝐡𝐡𝑡𝑡 = 𝜎𝜎ℎ 𝑊𝑊ℎℎ𝐡𝐡𝑡𝑡−1 + 𝑊𝑊𝑥𝑥𝑥𝐱𝐱𝑡𝑡
𝐲𝐲𝑡𝑡 = 𝜎𝜎𝑦𝑦 𝑊𝑊ℎ𝑦𝑦𝐡𝐡𝑡𝑡
入力(系列データ)
隠れ状態
出力（系列データ）

20
【BOS】ある
単語埋め込み層
RNNの隠れ層
各単語のスコア
（条件付確率）
（先頭を示す特殊
なトークン）
𝑃𝑃 𝑦𝑦1|BOS 𝑃𝑃 𝑦𝑦2|BOS, ある
~
~
確率に基づき
単語を選択あるところ
ところにおじいさんと
𝑃𝑃(
)
𝑦𝑦3|BOS,
あるところ
𝑃𝑃(
)
𝑦𝑦4|BOS,
あるところに
𝑃𝑃(𝑦𝑦5|BOS,
あるところに
おじいさん)
あるところに
おじいさんと)
~
~
~
~
におじいさん
とおばあさん
 繰り返し構造は静的に展開できる（結局は長いフィードフォワードネットワーク）
 単語を一つずつ決定し、再帰的に入力
𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1までの
全て情報がココに、
一つのベクトルと
して蓄積される

 Sequence to sequence model [Sutskever+, NIPS’14]
◦ 二つのRNN (LSTM) を接続し、ソース言語の単語列をターゲット言語の単語列へ
変換するエンドツーエンドなネットワークを構成
◦ 翻訳先言語の言語モデル（デコーダ）を入力文の特徴ベクトルで条件づける
◦ 自然言語処理における深層学習の最初のブレークスルーの一つ
21
Sutskever et al., “Sequence to Sequence Learning with Neural Networks”, In Proc. of NIPS, 2014.
私が行く I
【BOS】 go
go
I 【EOS】
入力を集積するRNN（エンコーダ）出力用RNN（デコーダ）
RNNの隠れ層
入力文の
特徴ベクトル
条件付け

 単語数の分だけ深いネットワークとなるため、学習が困難
◦ 勾配消失・爆発問題など
 文全体を一つのベクトルで表すのは現実的には無理があった
◦ 順番情報など、複雑な構造を表現するのは難しい
22
【BOS】ある
RNNの隠れ層
𝑃𝑃(
)
𝑦𝑦3|BOS,
あるところ
𝑃𝑃(
)
𝑦𝑦4|BOS,
あるところに
あるところに
おじいさん)
あるところに
おじいさんと) 𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1までの
全て情報がココに、
一つのベクトルと
して蓄積される

[Vaswani+, 2017] エンコーダデコーダ
 Transformer [Vaswani+, 2017]
◦ RNNの再帰的な構造を廃止
◦ 基本的に、各単語のフィードフォワードと注意機構
（動的に重みづけを行う仕組み）のみの構造
◦ 本質的には、ベクトルの「集合」を操作するネットワーク
 主に機械翻訳のために開発
◦ エンコーダ・デコーダモデル
◦ このうち、デコーダの構造が言語モデルへ利用されるよう
になる [Radford+, 2018] (OpenAI, GPT-1)
23
https://arxiv.org/pdf/1706.03762.pdf
Vaswani et al., Attention Is All You Need, NIPS 2017.

24
【BOS】ある
~
~
確率に基づき
ところ
𝑃𝑃(
)
𝑦𝑦3|BOS,
あるところ
~
に
 隠れ層の横方向の結合がなくなった
 単語を再帰的に入力していくのは同じ
（実際にはもっと多層）
Radford et al., Improving Language Understanding by Generative Pre-Training, 2018. https://openai.com/research/language-unsupervised

25
【BOS】ある
~
~
確率に基づき
𝑃𝑃(
)
𝑦𝑦3|BOS,
あるところ
𝑃𝑃(
)
𝑦𝑦4|BOS,
あるところに
あるところに
おじいさん)
あるところに
おじいさんと)
~
~
~
~
におじいさん
とおばあさん
 隠れ層の横方向の結合がなくなった
 単語を再帰的に入力していくのは同じ
（実際にはもっと多層）
自己注意機構
𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1の情報を
動的に重みづけ、
和を取る
◦ 過去の全ての単語を参照する
◦ 𝑦𝑦𝑡𝑡を決めるにあたり、
特に重要な単語に重みがつく
Radford et al., Improving Language Understanding by Generative Pre-Training, 2018. https://openai.com/research/language-unsupervised

 英仏翻訳における、異なる入力文を与えたときの”it”に対する自己注意の分布
(エンコーダの第５層から第６層の間、8つあるattention headのうちの1つ)
26
https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
The animal didn’t cross the
street because it was too tired.
The animal didn’t cross the
street because it was too wide.
入力文
自己注意の重み

 多くの自然言語処理タスクで大幅な性能向上を実現
 現在の大規模言語モデルは基本的に全てトランスフォーマベース
◦ GPT = Generative Pretrained Transformer
27
Transformer
RNN (LSTM)
[Vaswani+, 2017]
[Sutskever+, 2014]
機械翻訳（英独翻訳）
におけるスコア

28
Dosovitskiy et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ICLR 2021.
n x n 分割した画像の各領域（=パッチ）
□: 畳込みニューラルネットワーク
〇: Transformer
大きさがパラメータ数に対応
120万
1400万 3億
 画像パッチを”単語”と見なし、Transformerを適用
◦ 画像認識分野でも主流になりつつある

29

30
【BOS】ある
正解の単語
（訓練データ）あるところ
𝑃𝑃(
)
𝑦𝑦3|BOS,
あるところ
𝑃𝑃(
)
𝑦𝑦4|BOS,
あるところに
あるところに
おじいさん)
あるところに
おじいさんと)
におじいさんとおばあさん
 大量のテキストデータ（コーパス）から、 𝑦𝑦1, ⋯ , 𝑦𝑦𝑡𝑡−1 → 𝑦𝑦𝑡𝑡 の事例を与えて学習
 人手によるラベリング（正解データ作り）は必要ない = 自己教師あり学習
 大規模データにより、広範な言語知識を獲得
できるだけ正解の単語の
確率が高くなるようにパラ
メータを学習

 BERT [Devlin et al., 2019]
◦ Bidirectional Encoder Representations from Transformers
31
（文A）おばあさんは川へ洗濯に行った。（文B）桃から赤ちゃんが生まれた。
自己教師ありタスク１：穴埋め問題
### は ### へ洗濯に行った。
おばあさん川
この事前学習法による言語モデルを
Masked Language Model と呼ぶ
自己教師ありタスク２：続き文判定
「おばあさんは川へ洗濯に行った。」
「桃から赤ちゃんが生まれた。」
と
は続く二つの文であるか否か？
生成タスクではないので、これだけでは
言語モデルにならないことに注意
Devlin et al., BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding, NAACL 2019.

 事前学習されたLLMを、最終的な目的タスクのデータで更に学習させる
◦ 主に教師あり学習が用いられる
 ゼロから学習するよりも格段に少ないデータでよい結果が得られる場合が多い
32
LLM
事前学習日本の首都は ### 東京
Pretrained
LLM
流用
Fine
tuning
目標タスクの
データ
例）自社サービスの
顧客コメント評判分析
とても満足しました。
よい製品です。
良好

 いろいろな実装方法がある
 どれが良いかは、目標とするタスクの性質やデータ量、許容できる計算コストによる
33
Pretrained LLM
（簡略図）
入力文
基本のFine-tuning
入力文
タスクに合った
出力層を追加
パターン1：
全体を学習
（ちょっと大変）
パターン2：
ここだけ学習
（元のLLMは
固定）
入力文
Adapter
途中の要所に小さ
い層を追加し、
そこだけ学習

 SQuADデータセットにおける結果 (質問応答タスク)
34
[Devlin et al., 2019]

 だいたい2010年代の終わり頃までに技術的には確立
◦ GPT-1 (2018), BERT (2018), GPT-2 (2019)
◦ 研究業界では注目されていたものの、実用的にはまだまだといった印象
 大ブレーク前夜：スケール則の発見 (OpenAI, 2020年1月)
◦ モデルのパラメータ数、データ量、計算量の対数に比例して精度向上（べき乗則）
◦ パラメータ数とデータ数の両方を大きくすることが大事
35
テスト損失
（小さいほどよい）
Kaplan et al., Scaling Laws for Neural Language Models, 2020.

 GPT-3 (OpenAI, 2020年5月)
◦ 1750億パラメータ (GPT-2の100倍以上!)
◦ プロンプティング(後述)：入力を工夫すれば、fine-tuningのようにモデルパラメータを
更新することなく、さまざまなタスクを解かせることが可能に
 超大規模言語モデルの開発競争が激化
36
丸の大きさが各モデルの
パラメータ数を示す
Credit: A. D. Thompson, 2023.
https://lifearchitect.ai/models/

 数千億～数兆トークンの学習データ (CommonCrawl等のWebデータ)
 数百～数千のGPU・TPU
 GPT-3の学習には、4.6万ドルかかるという試算も (V100クラウドインスタンス換算）
◦ Chuan Li, 2020. https://lambdalabs.com/blog/demystifying-gpt-3
37
https://arxiv.org/abs/2303.18223
Zhao et al., A Survey of Large Language Models, 2023.
（表１より、学習に要する計算量が分かるものを中心にごく一部を抜粋）
Chinchilla
scaling law
訓練データのトークン数
とモデルパラメータ数の
比率はおおよそ20:1が
よいとする経験則

 事前学習済みモデルが望んだ出力をしてくれるように、入力をお膳立てする
◦ モデル自体の追加学習は一切行わない（テスト入力時のテクニック）
◦ 基本的には、うまく「続きを書いてくれる」ように工夫
 基本：続きの単語を予測させる
◦ 言語モデルの基本動作
38
おじいさんは山へ芝刈りに、おばあさんは
 ゼロショット (zero-shot)
◦ タスクの説明(インストラクション)と入力を与える
次の文を英語に翻訳してください。「私は明日学校へ行きます。」答え：
次の文章を政治、スポーツ、文化のどれかへカテゴライズしてください。【入力文章】答え：
続きに答えが入りそうな形に整える
Brown et al., Language Models are Few-Shot Learners, NeurIPS 2020.
インストラ
クション
入力（処理して欲しい情報の本体）

 コンテキスト内学習 (In-context learning)
◦ インストラクションや前提条件、少数の事例(=少ショット)も入力に加える
◦ 少し込み入ったタスクで有効
39
要するに、入力に加えて必要な参照情報、
説明書、練習問題などを
全てまとめてLLMに放り込むということ
Brown et al., Language Models are Few-Shot Learners, NeurIPS 2020.
コンテキスト：既に決定された
（=与えられた）
ひとつ前までの単語
入力（本番の問題）
参照・前提情報
事例（練習問題）
全てをプロンプトに入れる

40

41
https://platform.openai.com/docs/model-index-for-researchers
https://platform.openai.com/docs/models/gpt-3-5
 実際のモデルは細分化されているので注意
◦ 細かいアップデートは頻繁にされている
GPT-3
データは
2019年10月までデータは
2021年9月まで
ChatGPT

 GPT-3を、目的とするタスクにおいて望ましい出力ができるように調整
◦ 教師あり学習 (Fine-tuning) + 人のフィードバックに基づく強化学習 (RLHF)
42
Ouyang et al., Training language models to follow instructions with human feedback, 2022.
ステップ1：
教示に基づくFine-tuning
ステップ2：人間評価による
報酬予測モデルの学習
ステップ3：報酬予測モデルを
用いた強化学習
人手で例題と答えを作成
教師あり学習で
GPTをFine-tuning
現時点のGPTが出した
複数の回答を人手で評価
（ランキング）
この情報に基づき
報酬予測モデルを訓練
報酬予測モデルにより
GPTの出力を評価・
フィードバック
ステップ2, 3は
交互に繰り返す
報酬予測モデルは、人間の
評価をシミュレートする別の
ネットワークだと思えばよい

 AIはリアルタイムにゲームの映像（状況）と得点（報酬）を観測する
 最初はでたらめな操作から始まり、徐々に高得点を得るよう操作方法を自動で学んでいく
43
https://youtu.be/V1eYniJ0Rnk より

 Google (DeepMind) の囲碁AIが世界トップ棋士に勝利 (2016年3月)
◦ 初期は人間の棋士のデータから教師あり学習し、自己対局に基づく強化学習へ移行
◦ 次世代のAlpha Zeroはルールのみ与えられゼロから学習
44
http://japan.cnet.com/news/service/35079593/
D. Silver et al., “Mastering the Game of Go with Deep Neural Networks and
Tree Search,” Nature, Vol. 529, No. 7587, pp.484-489, 2016.

 InstructGPTを対話タスクに向けて最適化したものがChatGPT
◦ より人間にとって自然なプロンプティングが可能に
 現時点で詳細な学習方法は非公開
 例題のセット (prompt dataset) や人間評価によるフィードバックが鍵
◦ 企業秘密？
45

 詳細な構成は現時点で非公開 (GPT-3よりかなり大規模という噂）
◦ モデルアーキテクチャ、モデルサイズ、訓練データ量、計算資源、etc.
◦ GPT-3と比較して大幅な性能向上の報告多数
 マルチモーダルな入力をサポート
46
OpenAI, GPT-4 Technical Report, 2023. https://cdn.openai.com/papers/gpt-4.pdf

47

 もっともらしく間違ったこと
（でたらめ）を述べることがある
 原因は現時点でよく分かっていないが、
複合的なものであるとされる
48
 一般に、AIが「自分はこれを知らない」
と判断するのは実はとても難しい

 社会的に不適切なバイアス・ステレオタイプを再生産する可能性
49
Weidinger et al., Ethical and social risks of harm from Language Models, 2021.

 データの漏洩
◦ LLMは学習データを丸覚えしている場合があり、それがそのまま出力されることがある
◦ 悪意のある人が情報を狙うリスクはもちろん、知らないうちに権利侵害する可能性がある
50
Carlini et al., Extracting Training Data from Large Language Models, USENIX 2021.
Web上のテキスト断片でプロンプティング
して、個人情報を取り出せた例
参考：画像生成AIの例
Carlini et al., Extracting Training Data from Diffusion Models, 2023.
https://arxiv.org/pdf/2012.07805.pdf https://arxiv.org/pdf/2301.13188.pdf

 プロンプトインジェクション
◦ LLMは指示と操作対象を区別しにくいことを利用し、誤動作を招くプロンプトを作る
51
https://twitter.com/goodside/status/1569128808308957185
(Goodside, 2022)
 悪意ある学習データの混入
◦ 2016年のMicrosoftのチャットボット”Tay”は、差別発言を学び公開停止に

 ChatGPTに至る技術の核：大規模言語モデル (LLM)
◦ 言語モデル：与えた文から次の単語を予測
 強力なLLMが実現できた理由
◦ １．機械学習技術の発展（深層学習、強化学習）
◦ ２．データ量の増加
◦ ３．計算資源の増加
 未解決課題も多い
◦ まだまだ完全に信頼できるレベルではない（ハルシネーション、バイアス）
◦ データ漏洩・セキュリティリスク
◦ 知識のアップデートや削除に難あり
52

 この先も現在のトレンドは持続可能か？
◦ スケール則によれば、訓練データ・計算資源を指数的に増やし続ける必要がある
◦ 既にスパコンレベルの計算資源が必要、巨大企業の独壇場に
◦ Webデータ、人手によるフィードバックの量は現実的には頭打ちが近い？
 社会への影響
◦ 人間の仕事の仕方を大きく変えることは間違いない
◦ ただし、人間に取って変わることはありえない
 LLM・対話AIはあくまで「続きや途中を補間してくれる」もの
 最初に何を与えるか、出てきた結果は適切か、はあくまで人が考えて判断すべき
 使い方次第でむしろ人によって差がつく（検索エンジンが登場した時と同様）
◦ AIに対する正しい理解・使い方を広めることが重要
53

大規模言語モデルとChatGPT

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 大規模言語モデルとChatGPT

Similar to 大規模言語モデルとChatGPT (20)

More from nlab_utokyo

More from nlab_utokyo (18)

大規模言語モデルとChatGPT