「知能の構成的解明の研究動
向と今後の展望」についての
個人的見解:
Chain of thought promptingや
postdictionを中心として
岡 夏樹
2022.8.5
概要
• 深層学習以降のAI研究の流れの中で、特に、基盤モデルにおけ
るchain of thought promptingやfactual groundingに焦点を当
て、基盤モデルが論理的推論などの意識レベルの処理を学習し
たと言えるかについて考察する。
• 時間が許せば、深層学習によるpostdictionの可能性等について
も論じる。
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
五感に拡張
内部感覚も
無意識のうちに論理っぽい処理も
数学
プログラミング
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
意識+無意識
心のモデル1&2
感情
心
自然現象の高速シミュレーション
科学的発見
説明・納得
正しさの保証
常識を獲得 素朴な物理学
2017 Transformer
基盤モデル
音声認識
基盤モデルに
よる論理的な
処理 (2022)
• 算数の文章題と正答の例だ
けをいくつか見せて解かせ
ると、段階を踏んで推論す
る必要がある問題では答を
間違えることが多い。
• 順序だてて考える道筋の例
も見せて解かせると、正し
い答を出力できる可能性が
高まる(右図)。
著作権の関係で図を削除
https://arxiv.org/pdf/2204.
02311
の図8を参照
Large Language Models are Zero-Shot
Reasoners (2022)
Q: A juggler can juggle 16 balls. Half
of the balls are golf balls, and half of
the golf balls are blue. How many blue
golf balls are there?
A: Let’s think step by step.
Input:
Model
output:
There are 16 balls in total. Half of the
balls are golf balls. That means that
there are 8 golf balls. Half of the golf
balls are blue. That means that there
are 4 blue golf balls. ✓
Q: 同左
A: The answer
(arabic numerals)
is
8 X
Large Language Models are Zero-Shot
Reasoners (2022)
Q: A juggler can juggle 16 balls. Half
of the balls are golf balls, and half of
the golf balls are blue. How many blue
golf balls are there?
A: Let’s think step by step.
Input:
Model
output:
There are 16 balls in total. Half of the
balls are golf balls. That means that
there are 8 golf balls. Half of the golf
balls are blue. That means that there
are 4 blue golf balls. ✓
Q: 同左
A: The answer
(arabic numerals)
is
8 X
このモデルは
「段階を踏んで
考える」ことが
分かっているの
か?
Large Language Models are Zero-Shot
Reasoners (2022)
Q: A juggler can juggle 16 balls. Half
of the balls are golf balls, and half of
the golf balls are blue. How many blue
golf balls are there?
A: Let’s think step by step.
Input:
Model
output:
There are 16 balls in total. Half of the
balls are golf balls. That means that
there are 8 golf balls. Half of the golf
balls are blue. That means that there
are 4 blue golf balls. ✓
Q: 同左
A: The answer
(arabic numerals)
is
8 X
このモデルは
「段階を踏んで
考える」ことが
分かっているの
か?
参)First, やLet’s
think about this
logically.でも似
たような正答率
Large Language Models are Zero-Shot
Reasoners (2022)
Q: A juggler can juggle 16 balls. Half
of the balls are golf balls, and half of
the golf balls are blue. How many blue
golf balls are there?
A: Let’s think step by step.
Input:
Model
output:
There are 16 balls in total. Half of the
balls are golf balls. That means that
there are 8 golf balls. Half of the golf
balls are blue. That means that there
are 4 blue golf balls. ✓
Q: 同左
A: The answer
(arabic numerals)
is
8 X
このモデルは
「段階を踏んで
考える」ことが
分かっているの
か?
参)First, やLet’s
think about this
logically.でも似
たような正答率
「段階を踏んで考え
よう。」の後にどの
ような言葉が続きや
すいかは分かってい
るが、それは人が理
解している「段階を
踏んで考える」こと
の意味と一致してい
るか?
Large Language Models are Zero-Shot
Reasoners (2022)
Q: A juggler can juggle 16 balls. Half
of the balls are golf balls, and half of
the golf balls are blue. How many blue
golf balls are there?
A: Let’s think step by step.
Input:
Model
output:
There are 16 balls in total. Half of the
balls are golf balls. That means that
there are 8 golf balls. Half of the golf
balls are blue. That means that there
are 4 blue golf balls. ✓
Q: 同左
A: The answer
(arabic numerals)
is
8 X
このモデルは
「段階を踏んで
考える」ことが
分かっているの
か?
参)First, やLet’s
think about this
logically.でも似
たような正答率
「段階を踏んで考え
よう。」の後にどの
ような言葉が続きや
すいかは分かってい
るが、それは人が理
解している「段階を
踏んで考える」こと
の意味と一致してい
るか?
ろんり‐てき【論理的】(logical) ①論理学で
取り扱う対象についていう語。②論理の法則
にかなっていること。りづめ。③比喩的に事
物の法則的なつながりについていう語。←広
辞苑
⇒LLMsが理解する「論理的」は日常用語とし
ての③の意味だけで、①(論理学の用語として
の論理、すなわち、推論規則の適用による形
式的推論など)は理解していない。
無意識のうちに論理っぽい処理も
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
五感に拡張
内部感覚も
数学
プログラミング
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
意識+無意識
心のモデル1&2
感情
心
自然現象の高速シミュレーション
科学的発見
説明・納得
正しさの保証
常識を獲得 素朴な物理学
2017 Transformer
基盤モデル
音声認識
盤面の認識+報酬からの学習+先読み
28 January 2016
深層学習 意識処理の特徴である
かっちりした処理
+
深層学習+意識処理でチャンピオンを超
えた囲碁に倣うとすると、論理学や数学
のようなかっちりした処理は深層学習と
は別に設けるのが有望だろう
無意識のうちに論理っぽい処理も
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
五感に拡張
内部感覚も
数学
プログラミング
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
意識+無意識
心のモデル1&2
感情
心
自然現象の高速シミュレーション
科学的発見
説明・納得
正しさの保証
常識を獲得 素朴な物理学
2017 Transformer
基盤モデル
音声認識
Factual grounding
「意識処理+無意識処理」という構成にすることで、論理的推論
の正しさを保証したり、数式を用いた処理を正しく実行したり、
事実と違う話を作るのを防いだり、一貫した話をしたりすること
が可能になりそう。
→関連研究:LaMDAでは、計算器(calculator)、翻訳機、情報検
索システムを参照することでfactual groundingを目指した。ど
ういうときに外部システムを参照するか、外部システムからの答
をどう利用してユーザへの答を生成するかをfine-tuningにより
学習。
LaMDAによるfactual
groundingの例
次のアルゴリズムを意識処理
で実行していると見なせる
1. 深層学習モデルLaMDA
Baseで暫定応答を作る。
2. 文脈を含めたその暫定応答
を深層学習モデルLaMDA
Researchに入力し、その
出力の先頭の語に応じて
「外部ツールを参照しその
答を受けて2.を繰り返す」
か「ユーザに応答する」か
を切り替える。
Figure 3 omitted
無意識のうちに論理っぽい処理も
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
五感に拡張
内部感覚も
数学
プログラミング
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
意識+無意識
心のモデル1&2
感情
心
自然現象の高速シミュレーション
科学的発見
説明・納得
正しさの保証
常識を獲得 素朴な物理学
2017 Transformer
基盤モデル
音声認識
ヒトの「説明」は実際起こった処理の説
明にはなっていない
• 「意識処理+無意識処理」という構成で、得られた結論や動作
の「説明」をすることもできて、その結果、信頼が得られると
いう筋書きが成立しそうに思えるかもしれないが、ヒトの「説
明」は実際起こった処理の説明にはなっていないことが知られ
ている(以降のスライド)ので、その筋書きが適切かどうか疑
問。
There are a few postdictive perceptual phenomena known, in
which a stimulus presented later seems causally to affect the
percept of another stimulus presented earlier. …
… By extending the list of postdictive phenomena to memory,
sensory-motor and higher-level cognition, one may note that such
a postdictive reconstruction may be a general principle of neural
computation, ranging from milliseconds to months in a time scale,
from local neuronal interactions to long-range connectivity, in the
complex brain. …
Failure to Detect Mismatches Between Intention
and Outcome in a Simple Decision Task (2005)
TED: Do you really know
why you do what you do? |
Petter Johansson
Participants made choices between presented face pairs on the basis of
attractiveness, while the experimenter covertly manipulated the
relationship between choice and outcome. Participants offered
introspectively derived reasons for why they chose the way they did.
post hoc construction
The participants often came to prefer the alternative.
“She is radiant. I would
rather have approached
her at a bar than the
other one. I like
earrings!”
Pictures omitted
postdictionの傾向と妄想傾向
Fig. 1(A) Fig. 3(A)
Mistiming of thought and perception predicts delusionality
Figure omitted Figure omitted
postdictionの傾向と宗教性
Fig. 2
Postdiction in Visual Awareness and Intrinsic Religiosity
無神論者
キリスト教を深く信仰している人のうち、神の存在を経験すること等を強く肯定する人
Figure omitted
Benjamin Libet’s findings on postdictive process, and
backward referral (Libet, B.(2004). MindTime)
Figure omitted
Libet’s functional account of the backward referral in
the real world (Libet, B.(2004). MindTime)
Implicit and fast sensory-motor pathways
A boy runs
to the road
Brake
Aware of the boy
Report of
awareness
Backward referral
RP precedes the reportable
time (W) for appearance of
the subjective experience of
'wanting' or intending to act.
Figures omitted
無意識のうちに論理っぽい処理も
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
五感に拡張
内部感覚も
数学
プログラミング
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
意識+無意識
心のモデル1&2
感情
心
自然現象の高速シミュレーション
科学的発見
説明・納得
正しさの保証
常識を獲得 素朴な物理学
2017 Transformer
基盤モデル
音声認識
深層学習が今後向かう方向についての
参考文献
• The Consciousness Prior, Yoshua Bengio.
• How to represent part-whole hierarchies in a neural network,
Geoffrey Hinton.
• A Path Towards Autonomous Machine Intelligence, Yann
LeCun.
以下は、夏のオープンキャンパス2022の模擬授業時のスライド
の後半を再掲
授業の内容
1. 適切な(知的な)応答について考えてみよう:古くから使われ
ている基本技術を例として
2. AI研究の最前線
3. 社会はどのように変わるか
(従来型のAIと比べた)深層学習の特徴
1. (研究者・技術者が一所懸命分析してプログラムするのでな
く)何に注目したらよいかも含めてAIが学習する
2. 人と同等かそれを超える性能が出る(従来型のAIと大差)
3. 大規模化に応じて性能が上がる
⇒役に立つ
⇒これがないと競争に勝てない
Transformer
Decoder
Transformer
Decoder
Transformer
Decoder
Transformer
Decoder
Transformer
Decoder
Transformer
Decoder
Transformer
Decoder
Transformer
Decoder
Transformer
Decoder
1 2 3 4 5 6 7 … 95 96
…
…
GPT-3: Language Models are Few-Shot Learners, 2020
深層学習以降のAI研究の流れ
画像や音声を認識
2012 画像認識
音声認識
深層学習がぶっちぎり優勝した
ImageNet Challenge 2012
著作権の関係で図を削除
https://image-
net.org/static_files/files/ils
vrc2012.pdf
の6ページ参照
著作権の関係で図を削除
https://image-
net.org/static_files/files/ils
vrc2012.pdf
の21ページ参照
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
2016 翻訳
対話
2012 画像認識
音声認識
2017 Transformer
基盤モデル
自動翻訳字幕
AI(人工知能)研究の最前線
社会はどのように変わるだろう?
経営学部
岡 夏樹
宮崎産業経営大学 夏のオープンキャンパス 2022.7.17
自動翻訳字幕の例
https://youtu.be/mEHngI9H8BE
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
2016 翻訳
対話
2012 画像認識
音声認識
2017 Transformer
基盤モデル
盤面の認識+報酬からの学習+先読み
(深層学習)
28 January 2016
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
音声認識
2017 Transformer
基盤モデル
Text to Image (2022)
https://www.deepl.com/translator
著作権の関係で画像を削除
https://parti.research.goog
le/paper_images_green_wa
termark_outputs/figures/s
caling_comparison/kangar
oo_3.jpg
Flamingo: a Visual Language Model for
Few-Shot Learning (2022)
これは、月にいる2頭のテディベ
アの写真です。
彼らは何をしているのでしょうか?
会話をしているところです。
何を使っているのでしょう?
コンピュータのようです。
これは驚くべきことでしょうか?
そうですね、意外です。
なぜこの絵に驚くのでしょうか?
テディベアは普通、月にはいない
からです。
https://www.deepl.com/translator
著作権の関係で図を削除
https://storage.googleapis.
com/deepmind-
media/DeepMind.com/Blo
g/tackling-multiple-tasks-
with-a-single-visual-
language-
model/flamingo.pdf
の図1の左下の対話例を参
照。対話の翻訳結果
(https://www.deepl.com/tr
anslator
)は右の通り(左がシステム、
右が人)。
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
無意識のうちに論理的な処理も
数学
プログラミング
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
2017 Transformer
基盤モデル
音声認識
基盤モデルに
よる論理的な
処理 (2022)
• 算数の文章題と正答の例だ
けをいくつか見せて解かせ
ると、段階を踏んで推論す
る必要がある問題では答を
間違えることが多い。
• 順序だてて考える道筋の例
も見せて解かせると、正し
い答を出力できる可能性が
高まる(右図)。
著作権の関係で図を削除
https://arxiv.org/pdf/2204.
02311
の図8を参照
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
無意識のうちに論理的な処理も
数学
プログラミング
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
自然現象の高速シミュレーション
科学的発見
2017 Transformer
基盤モデル
音声認識
AlphaFold: a solution to a 50-year-old
grand challenge in biology (2020)
著作権の関係で図を削除
https://www.deepmind.co
m/blog/alphafold-a-
solution-to-a-50-year-old-
grand-challenge-in-biology
の図やビデオを参照
深層学習以降のAI研究の流れ
画像や音声を認識
言葉の続き具合を学習
言葉と画像の対応を学習
報酬が大きくなるよう試行錯誤
意識的な処理
2016 囲碁
五感に拡張
内部感覚も
無意識のうちに論理的な処理も
数学
プログラミング
2016 翻訳
対話
キャプション生成
言葉から画像生成
2012 画像認識
意識+無意識
心のモデル1&2
感情
心
自然現象の高速シミュレーション
科学的発見
説明・納得
正しさの保証
常識を獲得 素朴な物理学
2017 Transformer
基盤モデル
音声認識
授業の内容
1. 適切な(知的な)応答について考えてみよう:古くから使われ
ている基本技術を例として
2. AI研究の最前線
3. 社会はどのように変わるか
• AIが人を超えてもあまり変わらないのは…
• 影響があるのは…
AIが人を超えてもあまり変わらないのは
• (機械が発達しても、生身の体で運動することは価値があり、ス
ポーツとして残った。プロスポーツも。)
• 囲碁AIが人より強くなっても、趣味として残り、プロ棋士も変
わらず稼げている。AIから学ぶようになった。
• 芸術、芸能、創造、学習など好きでやることは、プロもアマも
大きな影響は受けない。AIから学ぶ/刺激されることで質が上
がる。
影響があるのは
• 業務としての文書作成、翻訳、通訳、プログラミング、絵やイ
ラストを描く、作曲する、演奏する等は、定型的なものから順
次AIに置き換わる。(趣味として好きでやることや芸術的な職業
は残る)
• 人と接する仕事(サービス業、営業、医療、育児・介護・教育、
…)は現状ではAIが不十分なため人がやるが、いずれ置き換わる
可能性。⇒AIが人を超える性能を持ったとしても、人がAIをど
う感じるか、信頼するかは別の問題。
影響があるのは(つづき)
• 安全・安心に関わることは、AIが人を上回ったら、しだいにAI
に置き換えられ、人がやることを禁止する方向へ。ただし、楽
しんでやることは残し、 。例:車
の自動運転、原発の運転、航空管制、医者の診断、欠陥が致命
的となるものの設計、…
• 経営判断、政治、司法、教育等、対象に重大な影響を及ぼす判
断・行為・設計もこれに準ずる?
影響があるのは(つづき)
• 安全・安心に関わることは、AIが人を上回ったら、しだいにAI
に置き換えられ、人がやることを禁止する方向へ。ただし、楽
しんでやることは残し、危ないとAIに切り替わる方式。例:車
の自動運転、原発の運転、航空管制、医者の診断、欠陥が致命
的となるものの設計、…
• 経営判断、政治、司法、教育等、対象に重大な影響を及ぼす判
断・行為・設計もこれに準ずる?
AIが人を超えてもあまり変わらないのは
• 芸術、芸能、創造、学習など好きでやること
影響があるのは
• 業務としてやることは、定型的なものから順次AIに置き換わる。
• 人と接する仕事は、現状では人がやるが、いずれ置き換わる可能性。
• 安全・安心に関わることは、人がやることを禁止する方向へ。ただし、
楽しんでやることは残し、危ないとAIに切り替わる方式。

(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中心として