LLM は言葉の意味を理解しているのか?1. 巨大言語モデル (LLM) は言葉の意味が
まったく分かっていないかも?
― 「循環定義 (circular definition)」から考える ―
2023 年 8 月 5 日 (土)
小林 秀章
a 3-dimensional shape whose model was generated by a highly recursive
program. --q 2 --s 50 ― Midjourney
2. 循環定義 (circular definition) 禁止則
循環定義とは:
ある概念の定義文に、その概念自体の名称を用いること。
循環定義禁止則とは:
循環定義をしてはいけない。
その概念が絶対的に定まらなくなるので、定義として成立しない。
ダメな例:
「赤とは、赤く塗られた郵便ポストの色である」
4. 定義の連鎖
𝑊, 𝑊1, 𝑊2, 𝑊3, 𝑊11, ⋯ を単語とする。
単語 𝑊 の定義が単語の並び 𝑊1 𝑊2 𝑊3 ⋯ からなることを
𝑊 ≔ 𝑊1 𝑊2 𝑊3 ⋯
と表記することにする。
定義文 (右辺) で用いた単語をさらに定義していく。
𝑊 ≔ 𝑊1 𝑊2 𝑊3 ⋯
𝑊1 ≔ 𝑊11 𝑊12 𝑊13 ⋯
𝑊11 ≔ 𝑊111 𝑊112 𝑊113 ⋯
𝑊12 ≔ 𝑊121 𝑊122 𝑊123 ⋯
𝑊13 ≔ 𝑊131 𝑊132 𝑊133 ⋯
𝑊2 ≔ 𝑊21 𝑊22 𝑊23 ⋯
𝑊21 ≔ 𝑊211 𝑊212 𝑊213 ⋯
𝑊22 ≔ 𝑊221 𝑊222 𝑊223 ⋯
𝑊23 ≔ 𝑊231 𝑊232 𝑊233 ⋯
𝑊3 ≔ 𝑊31 𝑊32 𝑊33 ⋯
𝑊31 ≔ 𝑊311 𝑊312 𝑊313 ⋯
𝑊32 ≔ 𝑊321 𝑊322 𝑊323 ⋯
𝑊33 ≔ 𝑊331 𝑊332 𝑊333 ⋯
循環定義禁止則により、上位で定義された単語を下位の定義文で
使ってはならない。
6. 思考実験「中国語の部屋」
哲学者ジョン・サール (John Rogers Searle、1932年7月31日 - ) 氏が、
1980年に “Minds, Brains, and Programs (脳、心、プログラム)” という
論文の中で発表した思考実験。
ある小部屋の中に、英語以外の言語を理解できない人を閉じこめておく。
この小部屋には外部と紙きれのやりとりをするための小さい穴がひとつ
空いており、この穴を通して中の人に 1 枚の紙きれが差し入れられる。
そこには中国語で質問が書かれているが、彼にはまったく理解できない。
彼の仕事は、この意味不明な文字列に対して、やはり意味不明な中国語の
新たな文字列を書き加えてから、紙きれを外に返すことである。部屋には
1 冊のマニュアルが置いてあり、どういう文字列にはどういう文字列を
書き加えればよいか、すべて書いてある。彼は、質問も回答も
理解しないまま、マニュアルどおりに作業を繰り返している。それでも、
部屋の外からみると、中国語による、意味のかみ合った対話が成立している。
9. ■ THE SYMBOL GROUNDING PROBLEM
https://doi.org/10.48550/arXiv.cs/9906002
https://arxiv.org/abs/cs/9906002
スティーブン・ハルナッド (Steven Harnad)
(プリンストン大学)
"THE SYMBOL GROUNDING PROBLEM"
Physica D 42: pp.335-46 (1990年)
[v1] Tue, 1 Jun 1999 19:57:24 UTC (20 KB)
第一言語 (= 母国語) として中国語を学ばなくてはならないとしよう。
ところが、情報源としてただひとつあるのは中国語/中国語辞典
(中国語の国語辞典。中中辞典) 1 冊だけだったとしよう。
この辞書を読み通す旅は、結局のところ、さっぱり意味の分からない見出し語から、
やはりさっぱり意味の分からない説明文へと際限なく渡り歩くだけに終わるであろう。
意味のある何かに遭遇することは一度たりともなく。
決して地面に着地することなく、記号から記号へと巡回する空中メリーゴーランドから、
いったいどうやったら降りることができるというのか?
これが「記号接地問題 (symbol grounding problem)」だ。
(小林意訳)
11. じゃあ、ChatGPT は何ができていることになるのか?
巨大言語モデル (Large Language Model; LLM) が学習用に
巨大なコーパスが与えられるのは、中国語/中国語辞典が
1 冊与えられたのと同様、世界を理解するための手がかりが
何一つ得られないのではないか?
ひょっとして、実世界のことを何ひとつ理解してないってことない?
言葉の体系に閉じた世界でもっともらしいことを言ってるだけとか?
つまり、中国語の辞書を棒暗記して、統計をとっただけ、みたいなこと?
12. 「確率的オウム」
■ On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
https://doi.org/10.1145/3442188.3445922
On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell
FAccT '21: Proceedings of the 2021 ACM Conference
on Fairness, Accountability, and Transparency
March 2021, Pages 610-623
Contrary to how it may seem when we observe its output, an LM is
a system for haphazardly stitching together sequences of linguistic
forms it has observed in its vast training data, according to
probabilistic information about how they combine, but without
any reference to meaning: a stochastic parrot.
13. 国語辞典によると
いろ 【色】
光の波長の違い (色相) によって目の受ける種々の感じ。
原色のほか、それらの中間色があり、また、
明るさ (明度) や鮮やかさ (彩度) によっても異なって感じる。
色彩。「―が薄い」「暗い―」「落ち着いた―」
デジタル大辞泉 (小学館)
ヒトの身体に光の波長を区別するセンサーがあることが
言えたとしても、色の「クオリア」は言葉では説明できていない。
14. 思考実験「メアリーの部屋」
「メアリーの部屋 (Mary's Room)」とは、
フランク・ジャクソン (Frank Cameron Jackson、1943年 - ) が
「随伴現象的クオリア」"Epiphenomenal Qualia" (1982)、
さらに「メアリーが知らなかったこと」"What Mary Didn't Know"
(1986) という論文の中で提示した、哲学的思考実験である。
メアリーは聡明な科学者であるが、なんらかの事情により、白黒の部屋から
白黒のテレビ画面を通してのみ世界を調査させられている。彼女の専門は
視覚に関する神経生理学である。次のように想定してみよう。彼女は我々が
熟したトマトや空を見るときに生じる物理的過程に関して得られる全ての
物理情報を手にしており、また「赤い」や「青い」という言葉の使い方も
知っている。例えば、空からの特定の波長の光の集合が網膜を刺激すると
いうことを知っており、またそれによって神経中枢を通じて声帯が収縮し、
肺から空気が押し出されることで「空は青い」という文が発声される、
ということをすでに知っているのである。(中略) さて、彼女が白黒の
部屋から解放されたり、テレビがカラーになったとき、何が起こるだろうか。
彼女はなにか新しいことを学ぶだろうか?