ChatGPTは思ったほど賢くない

株式会社 Carnot
Data is beautiful.
ChatGPTは思ったほど賢くない
Machine Learning in 15 minutes
2023/1/28
Shoya Matsumori

⾃⼰紹介
1994年⽣まれ．AI (深層学習)の研究開発及び，デジタルコンサルティングに従事．学部⽣時代に脳波計のスタートアップで0か
らプロダクト設計および深層学習モデルの実装をリード．⼤学での研究内容がアクセラレータプログラムに採択され，ソーシャ
ルロボットのスタートアップを設⽴．複数の企業・⼤学・⾃治体に対してPoCを実施．慶應義塾⼤学理⼯学研究科で博⼠ (⼯学)
を取得(⾶び級)．Vision and Languageの研究に従事．⼈⼯知能分野における難関国際会議ICCV等に筆頭著者として論⽂が採択．
データドリブンな環境保全をテーマとしたDAOのコンセプトがWIRED CGC特別賞受賞．⼈⼯知能学会・認知科学会会員．
松森匠哉 Shoya MATSUMORI, Ph.D.
(2018.02-2022.03) PGV (株) Lead Machine Learning Researcher
リードエンジニアとして0からプロダクト設計および深層学習モデルの実装をリード．
AIによる認知症診断アルゴリズム，睡眠ステージの判別アルゴリズムの研究開発を⾏
い筆頭著者として学術論⽂誌に採択．
(2018.08-2022.09) 慶應義塾先端科学技術研究センター特任研究員
内閣府SIP 特任研究員．深層学習による英語の⾃動作問技術 (特許出願中) の研究開発
をリード．都内の⾼校にてPoCを実施．
(2019.02-2020.07) (株) BLUEM 代表取締役
(株) dipのAIアクセラレータプログラムに採択．複数の企業・⼤学・⾃治体に対してAI
ソリューションを提供．豊⽥市などでソーシャルロボットのPoCを実施．
(2020.12-2022.08) (株) STANDARD Lead Researcher
デジタルコンサルタントとして，複数の⼀部上場企業にAIソリューションを提供．
(2021.04-2022.09) ⽇本学術振興会特別研究員 (DC)
視覚と⾔語の統合的理解を⽬指すVision and Languageの研究に従事．難関国際会議
ICCV等に採択．
主な経歴受賞歴・講演歴
•WIRED CGC INTERSPACE UTOKYO-IIS AWARD 受賞
•HCI研究会奨励賞受賞
•招待公演 (豊⽥市，松本市，品川⼥⼦学院等)
主な研究業績
•Matsumori, Shoya, et al. "Unified questioner transformer for descriptive question
generation in goal-oriented visual dialogue." Proceedings of the IEEE/CVF International
Conference on Computer Vision. 2021.
•Matsumori, Shoya, et al. "LatteGAN: Visually Guided Language Attention for Multi-Turn
Text-Conditioned Image Manipulation." IEEE Access 9 (2021): 160521-160532.
•Matsumori, Shoya, et al. "Predictive Diagnostic Approach to Dementia and Dementia
Subtypes Using Wireless and Mobile Electroencephalography: A Pilot Study."
Bioelectricity 4.1 (2022): 3-11.
株式会社Carnot
2
Founder & CEO
Carnot Inc.

MicrosoftによるOpenAIへの出資
Microsoft has been in talks to invest $10 billion into the owner of
ChatGPT, the wildly popular app that has thrilled casual users and
artificial-intelligence experts since its latest software was released last
month, people familiar with the matter said.
If OpenAI figures out how to make money on products like ChatGPT
and image creation tool Dall-E, Microsoft will get 75% of the
profits until it recoups its initial investment.
MicrosoftがOpenAIに対し10BUSD (1.3兆円)の⼤型追加投資
(同社は19年にOpenAIに10億ドルを投資しているので⼆回⽬の投
資)
投資額を回収するまでにOpenAIの収益の75%を得る契約
⼀⽅⼀万⼈の雇⽤削減も…
攻めと守りの姿勢が垣間⾒える
https://www.semafor.com/article/01/09/2023/microsoft-eyes-10-billion-bet-on-chatgpt
3
Carnot Inc.

ChatGPTとはなにか︖
• ブログ形式で先⾏公開されており論⽂は未発表 (1/12 現在)
• デモサイトが⼀般無料公開 (1/12現在)
2022年11⽉30⽇に公開されたOpenAIの新しい⼤規模⾔語モデル (LLM)
Fig. デモサイト．ChatGPTにChatGPTを説明してもらった
https://chat.openai.com/chat
4
Carnot Inc.

ChatGPT Demo
5
できること⾊々
コーディング
作⽂ (条件付き)
情報検索
知恵袋
翻訳
Carnot Inc.

ChatGPTとはなにか︖
• ChatGPTは2020年に登場した⼤規模⾔語モデルGPT3[Brown+20]の改良版
• (正確には，2022年に出たInstructGPT[Ouyanga+22] のアップデート版)
• GPT3はpromptという構⽂で様々な⾔語処理タスクを追加学習なしで実⾏可能
• Prompt: タスク説明, 少数の例⽰を含むモデルへの⼊⼒テキスト
⼤規模⾔語モデルGPT3の改良版
Fig. promptの例
タスク説明
例⽰
解きたいもの
GPT3
Prompt
翻訳
要約
分類
Fig. GPTはprompt⼊⼒で様々なタスクに対応できる
6
Carnot Inc.

GPT3の特徴
• GPT3に指⽰を伝えるためにはpromptの例⽰を⼯夫しないといけない
• 例⽰すること⾃体にコストが掛かる上に失敗するケースが多い
• 原因はGPTがLMとして次のトークンを予測するように学習されているから
• 頻出する表現やロジックが優先されるのは当然
GPT3では指⽰を伝えるためには例⽰が必要であった
7
明⽰的な指⽰だけできちんと動くようなインターフェイスにしたい…
指⽰⽂の意図を理解できておらず，テストの問題を
作成している．(LMとしては正しい挙動ではあるが)
コードの説明を求めるprompt [Ouyang+22]
Carnot Inc.

ChatGPTの特徴
• まどろっこしいpromptではなく，直接的な指⽰だけで意図
を理解し動く様になった
• さらに，今までは⼀度だけの⼊出⼒だったが，対話理解を扱
うことができるようになった
GPT3+意図理解と対話理解
8
Carnot Inc.

ChatGPTの何がすごいのか︖
9
⾔語という万能インターフェイスが使えるようになったこと
Model
専⾨領域の壁
コーディング
専⾨家
⼀般ユーザ
これまでは，モデルと対話できるのは専⾨家だけだったこれからは，誰もが研究の最先端にアクセスできる
⼀般ユーザ
Model
対話 (⾃然⾔語)
Carnot Inc.

ChatGPTの何が問題なのか︖
• ELIZA [Weizenbaum66]
• 1960年代に開発された対話プログラム．相⼿の質問をオウ
ム返しにするという⾮常に単純なロジックなのにも関わら
ず，多くの⼈が知性を感じた．
• e.g., 「頭が痛い」->「なぜ、頭が痛いとおっしゃるので
すか︖」
• ⼈間は僅かなトリックでも賢い(=⼈間の様だ︕)と感じてしまう．
• この傾向はモデルがDeepになって更に強まった (Deep
ELIZA現象)
10
『賢そうなので何でもできそうに⾒えてしまう』
https://en.wikipedia.org/wiki/ELIZA
Carnot Inc.

ChatGPTは仕事ができるのか︖
• ⼈間の知的労働の中で⼤部分を占めるのが問題解決
• e.g., IRの数字を基に経営改善案を考える
• e.g., 先⽅とのスケジュール調整をする
• 問題解決には論理的な思考が必要
• A -> B -> Cという論理
• 論理がなければ，解決も説明もできない
11
ChatGPTはどこまでロジカルな判断ができるのか検証してみる
Carnot Inc.

バットとボール問題
Q. 以下の問に答えよ
バットとボールはセットで1ドル10セントします．バットはボールより1ドル⾼いです．ボールはいくらですか︖
12
ここで問題です
Carnot Inc.

13
A.
ボールは10セント
不正解
$0.1 $1.1
合計 $1.2
Carnot Inc.

14
A.
不正解
正解は
正解
$0.1 $1.1
合計 $1.2
$0.05 $1.05
合計 $1.1
Carnot Inc.

バットとボール問題 (Contd.)
15
解説
$1
$1.1
ここが10セント!
⽴ち⽌まって考えればわかる問題
バットとボール問題はCognitive Relection Test (CRT) と
⾔われる問題の⼀種 [Frederick05]
実際に出題してみると多くの⼈が間違えてしまう
Carnot Inc.

なぜ間違えるのか︖
• ⼈間の思考システムはシステム1(反射)とシステム2(熟考)で構成 [Kahneman11]
• Dual Process Theory (⼆重過程理論)とも
• System1 判断速度 = 早い, 判断精度 = ⽢い
• System2 判断速度 = 遅い，判断精度 = 良い
• e.g., 暗算 system 1, 計算 system 2
• 先のCRTは，ロジカルに答えを導き出されるか評価するテスト
• すぐに結論を導き出そうとするとsystem 1が動作し間違えてしまう
16
⼈間の思考システムの特性
もし，GPTがsystem 2に基づいてロジカルに判断していれば，この問題は間違えないはず
Source: Figure 5 System 1 vs System 2 Thinking (upfrontanalytics.com, n.d.)
Dual Process Theory
Carnot Inc.

17
ChatGPTに説かせてみる
Carnot Inc.

18
ChatGPTの答えと解説
正解
解説
バット=xとすると，ボールはx-1.0
(バットより1ドル安いから)
合計が1.1ドルなので
x + (x-1.0) = 1.1
これをxについて解く
2x = 2.1 <=> x = 1.05
したがって，
バットは1.05ドル，ボールは0.05ドル
終了！かと思いきや…

バットとボール問題・改
19
条件を少し変えてみる
バットはボールよりも1ドル安いという表記に変更
Carnot Inc.

20
条件を少し変えてみる
バットはボールよりも1ドル安いという表記に変更
不正解
些細な条件の変更で⼀転して間違えてしまった
Carnot Inc.

21
他にも…
ペンとダイアモンドという表記にすると間違える
バットと２つのボールだとOK，なぜかバットと3つのボールだとNG
不正解
不正解
正解
直感に反する形で間違いが確認された
Carnot Inc.

22
説明させてみる (1)
結果を変えず，誤った導出をそれっぽく返してきた
Carnot Inc.

23
説明させてみる (2)
さらに変数を仮定して説明させてみた
?????
途中までいい感じだったのに最後に誤りの⽅に辻褄をあわせてきた
Carnot Inc.

ChatGPTは賢くない
• このような挙動はChatGPT以前のGPTの研究で確認されており，問題視されてきた [Shina+19] [Brown+20] [Nye+21]
• CRTよりも簡単な論理問題を間違えてしまう
• 前提知識を忘れて辻褄の合わない内容を出⼒
• 重要な課程をスキップしたり，内容をでっち上げたりする
• カーネマンのアナロジーを⽤いると，GPTは多くの場合system 1で動いていると表現できるのではないか
• ⼀⾒正しそうな返答をしてくるが，よく⾒ると重⼤な誤りが隠れている危険性がある
24
決してロジックに基づいて答えているわけではない
GPT
System 1
System 2
実際
我々の考えるGPT
Carnot Inc.

誤りの原因
25
⼤きく２つ考えられる
1. ⾔語モデルであること
問題の正解に最適化してるのではなく，頻出表現に
最適化している
2. ニューラルネットワークであること
内部表現が連続であり，1+1は必ずしも2ではない．
⼀⽅シンボルの世界は離散的であり，1+1=2．
これらに何らかの⽅法でアプローチしなければ，根本的には解決しない
Carnot Inc.

ChatGPTの守備範囲
26
膨⼤な知識を持つが⽳だらけのsystem 1マシン
⼈間
GPT
System 1 System 2
思考速度
正確さ
思考形態
早い遅い
粗い細かい
守
備
範
囲
Carnot Inc.

仕事の要求を整理してみる
27
あなたはsystem 1で考えるGPTにどの仕事を任せたいですか︖
System 1
System 2
スケジュール調整
問い合わせ対応
メール返信
市場調査
翻訳
記事作成
資料作成
コーディング
データ分析
ある程度は間違えても良い．
説明する必要もない．
間違えが許されない．
結果に関して論理的に説明が必要．
Carnot Inc.

まとめ
• ChatGPTはロジックに基づいておらず，system 1的な判断中⼼
• したがってミッションクリティカルな領域への適⽤は現時点では不向き
• 事業者は⾃社の業務への適⽤可能性を吟味する必要がある
• e.g., 業務の中⼼はsystem 1 or system 2?
• 他にもできないこと
• 外部知識の参照，特定知識のインプット，価値判断…
• これらは将来に渡って解決される可能性はあるが，実⽤化にあたっては⾮常に重要な問題
• Logicの問題: 別経路で検証システムを組む [Nye+21]
• 外部知識の問題: LangChain [Harrison]やGPTIndex[Liu&Jerry]など
• ⾊々⾔いましたが…
• 近年のトレンドからみてブレイクスルーが起こったのは研究者⽬線でも明らか
• 産業応⽤へのポテンシャルはかなり⾼いと考える
28
ChatGPTは思ったほど賢くない
Carnot Inc.

References
1) Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners.
Advances in neural information processing systems, 33, 1877-1901.
2) Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions
with human feedback. arXiv preprint arXiv:2203.02155.
3) Weizenbaum, J. (1966). ELIZA̶a computer program for the study of natural language communication between man and
machine. Communications of the ACM, 9(1), 36-45.
4) Nye, M., Tessler, M., Tenenbaum, J., & Lake, B. M. (2021). Improving coherence and consistency in neural sequence models with dual-system,
neuro-symbolic reasoning. Advances in Neural Information Processing Systems, 34, 25192-25204.
5) Frederick, S. (2005). Cognitive reflection and decision making. Journal of Economic perspectives, 19(4), 25-42.
6) Kahneman, D. (2011). Thinking, fast and slow. macmillan.
7) Harrison. LangChain, https://github.com/hwchase17/langchain
8) Liu, & Jerry. GPTIndex, https://github.com/jerryjliu/gpt_index
29
Carnot Inc.

本資料に関するご意⾒・ご質問・案件のご相談は，
下記までご連絡ください
contact[at]carnot.ai
30
• またCarnotでは⼀緒に会社を拡⼤していくデータサイエン
ティスト・エンジニアを募集しております．
• お気軽にご連絡ください

ChatGPTは思ったほど賢くない

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ChatGPTは思ったほど賢くない

Similar to ChatGPTは思ったほど賢くない (20)

Recently uploaded

Recently uploaded (15)

ChatGPTは思ったほど賢くない