SlideShare a Scribd company logo
1 of 37
Download to read offline
現在のAIの到達点と
残された課題
東京⼤学
松尾 豊
シンボル vs パターン:人工知能における長年の戦い
2
Marvin Minsky Rodney Brooks
「象はチェスを
しない」
「象程度の知能は
実現できても
人間の知能は
実現できない」
第一次AIブーム(1960年代):探索・推論の時代
その後の冬の時代
誤差逆伝搬の発見
(1960後半-70年代, 甘利俊一、ラメルハート、ヒントンら)
身体性
第二次AIブーム(1980年代):エキスパートシステムの時代
第三次AIブーム(2010年代):ディープラーニングの時代
シンボル パターン
知能の全体像 : 動物OSと言語アプリの2階建て
パターンの世界
(システム1)
記号の世界
(システム2)
現実世界(環境)
運動知覚
発話
想起
1960年代
1970年代
2000年代
1990年代
1980年代
思考
聞く
言語アプリ
ここにDNNが必要
2010年代
動物OS
身体性
ここにもDNNが
使われるようになった
4https://www.youtube.com/watch?v=T3sxeTgT4qc
• NeurIPS 2019, invited talk by Y. Bengio
5https://www.youtube.com/watch?v=T3sxeTgT4qc
• Daniel Kahneman
– 心理学者。行動経済学者。
– 『ファスト&スロー』、ダニエル カーネマン 著, 村井 章子 著・訳、早川書房、2012年
– 2002年 ノーベル経済学賞受賞
6https://www.youtube.com/watch?v=T3sxeTgT4qc
知能の全体像 : 動物OSと言語アプリの2階建て
パターンの世界
(システム1)
記号の世界
(システム2)
現実世界(環境)
運動知覚
発話
想起
1960年代
1970年代
2000年代
1990年代
1980年代
思考
聞く
言語アプリ
ここにDNNが必要
2010年代
動物OS
身体性
ここにもDNNが
使われるようになった
①
世界モデルの重要性
• 「今までの記憶から未来を予測する力。それが知能である。 」
– Jeff Hawkins (「On Intelligence(考える脳 考えるコンピュータ)」より)
– より正確に言うと,現在のセンサ入力やアクチュエータの出力から
将来のセンサ入力を予測している
• これは,学習した脳の世界モデルによって
未来をシミュレーションしているということ
– 環境とのインタラクションから、低次元な潜在構造を見つけ出している
• 世界モデル(world model):
– 外界からの刺激を元に,外界世界をシミュレートするモデル
– (内部モデルや力学モデルとも近い)
8
刺激
世界モデル
世界モデル
9
人間が限定された情報から現実の状況を「想像」で補えるように、限定情報から現実の世界を効率的
にシミュレートする「世界モデル」(world models)という技術がここ2,3年で急速に進んでいる。
⼈間は、次に何が起こるかを「想像」することができる。
現実世界の“常識”を効率的に
組み込みシミュレートできるようにする研究が近年活発
物体の⼀部を⾒て、全体像を想像︓
現在の状態から将来を想像︓
ぐしゃ
3視点の画像から、
AIで3D空間を再構築
DeepMind(Google)の例)
限定的な視点の画像から、3D全体像を再構成︓
https://deepmind.com/blog/article/neural-scene-representation-and-rendering、
https://worldmodels.github.io/
Google Brainの例)効率的な将来予想︓
弾丸を避けるゲームにおいて、
将来を効率よく想像・学習できる
メカニズムを組み込むことで、
弾丸の回避率を向上
World Models (D. Ha, J. Schmidhuber, 2018)
10
11
Driving is more stable if we give our controller access to
both z_t and h_t.
Limiting our controller to see only z_t, but
not h_t results in wobbly and unstable driving
behaviours.
Neural scene representation and rendering
(S. M. Ali Eslami, …, Demis Hassabis, Science 2018)
• 生成クエリーネットワーク(GQN: Generative Query Network)。
• 異なる視点からのシーンで内部表現を作り(表現ネットワーク)、別の視点(クエリー視点)からの見え方を予測
する(生成ネットワーク)。人間がラベル付けする必要なく、世界を学習する。CNN+LSTM(+スキップコネクション)
によるモデル化。
12
モデルフリー強化学習からモデルベース強化学習へ
• モデルベース:「何をやったらどうなるか」という状態の変化が明示的に規定されている
• モデルフリー:状態の変化についてのモデルを明示的にもたない
• アルファ碁は、モデルベース強化学習。囲碁だからできる。
• Atariゲームなどは、モデルフリー強化学習。アクションが離散で限定されていることと、試行回数を極端に多く
できるから実現できる。
• 世界モデルが学習できる→モデルベース強化学習ができるようになる。
13
•
14http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-4.pdf
現在の状態, アクション→次の状態
・そもそも状態を学習する(状態表現学習)
・その遷移を学習する
→ 世界モデル
AI-THOR2
15
• Allen Instituteの3Dシミュレータ環境
• いろいろなアクションができる
知能の全体像 : 動物OSと言語アプリの2階建て
パターンの世界
(システム1)
記号の世界
(システム2)
現実世界(環境)
運動知覚
発話
想起
1960年代
1970年代
2000年代
1990年代
1980年代
思考
聞く
言語アプリ
ここにDNNが必要
2010年代
動物OS
身体性
ここにもDNNが
使われるようになった
②
BERT [J.Devlin et al., 2018]
• RNNではなく、Transformerを使う
• 多くのタスクでSOTAを出した。
17
https://www.slideshare.net/DeepLearningJP2016/dlbert-pretraining-of-deep-bidirectional-transformers-for-language-understanding
Transformer
GPT-3 (2020/7からベータリリース)
https://maraoz.com/2020/07/18/openai-gpt3/
19
Language Models are Few-Shot Learners, https://arxiv.org/pdf/2005.14165.pdf, 2020
20
21
22
https://medium.com/analytics-vidhya/a-simple-explanation-of-gpt-3-571aca61208c
23
https://openai.com/blog/image-gpt/
ところが、、、GPT-3の限界
https://medium.com/towards-artificial-intelligence/is-gpt-3-human-46452ab4c881
「意味」が分かっていない。現在のAIには、真の「意味理解」はできない。
◯ ×
知能の全体像 : 動物OSと言語アプリの2階建て
パターンの世界
(システム1)
記号の世界
(システム2)
現実世界(環境)
運動知覚
発話
想起
1960年代
1970年代
2000年代
1990年代
1980年代
思考
聞く
言語アプリ
ここにDNNが必要
2010年代
動物OS
身体性
ここにもDNNが
使われるようになった
③
言語で条件づけた生成:Generating Images (2015.12-)
26Elman Mansimov et. al: “Generating Images from Captions with Attention”, Reasoning, Attention, Memory (RAM) NIPS Workshop 2015, 2015
A stop sign flying in
blue skies.
• ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
(2019)
– Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee (Georgia Tech, FAIR, Oregon State Univ.)
– ViLBERT(Vision-and-Language BERT)を提案する。画像と自然言語の同時表現を学習する。BERTのアーキテ
クチャをマルチモーダルな2つのストリームに拡張し、共アテンションのトランスフォーマーの層で相互作用
する。2つの大きなデータセットで事前学習し、複数のタスクに転移する。VQA, 視覚的常識推論、参照表
現、キャプションに基づく画像検索などである。精度が大きく向上し、いずれも最高精度を達成した。
27
動物OSと言語アプリの統合の仕方
• 画像と文章を両方つっこめばいいという話ではない。
• 中心は、世界モデル系(動物OS)のほうにある。
• それをベースとして、BERT系(言語アプリ)が加わっているという形のはず。
28
言語アプリが動物OSを駆動する
• 多くの動物:
– より長い行動のプランを立てる
知覚
「眼」の誕生
運動
抽象化した
行動計画
• 人間の場合(虚構を信じる):
– 言葉から想像(imagination)する
知覚
「眼」の誕生
運動
言葉や数字
の操作
言語アプリ
動物OS
言語アプリの独立戦争
• 言語アプリは、もともとは動物OSに従属していた
– 長期のプランを立てるために、動物OSから駆動される
• しかし、進化の歴史において、あるときから、言語アプリが動物OSを駆動できるようになった
– 相手の発話から状況を「想像」し、次の発話を予測するという問題を解くようになった
– おそらくこれは「サピエンス全史」に書かれているように、虚構を信じ、集団としての力を高める効果が
あったため
• 言語アプリが、記号操作のさまざまな仕組みを産み出した
– 数学、物理学などの理系学問、哲学や社会学などの人文系学問、将棋や囲碁などのゲームなど
– だめなもの(占星術とか)もたくさん生み出したが、社会に役に立つ記号操作のモデルは生き残り、
科学技術が生まれた
– 結果、言語アプリの能力こそが人間の知能の根源であると思うようになった
30
コンピュータにとっての意味処理
• ソシュール(スイスの言語哲学者、1857 – 1913)
– センサやアクチュエータに由来する概念がシニフィエ(記号内容)であり、
その表記である音素の列がシニフィアン(記号表記)
– これは言語アプリが動物OSを駆動する対応関係のことを言っている
• チューリングテスト(Turing 1950)
– 質問者と別の部屋にいる人間(もしくは人間のふりをしたコンピュータ)がいる。通信端末のみを用いて、質問と回答を行う。質問者が向
こうの部屋にいるのが人間かコンピュータか分からなければ、このコンピュータはチューリングテスト合格である。
– これを、知的であるとみなそう
• 中国語の部屋(Searle 1980)
– 部屋に閉じ込められる。質問が中国語で行われる。サールには、漢字が書かれたカードの束を与えられる。そこには、ある漢字と
そのときの操作が全て書かれている。サールは、与えられた質問と、カードを見比べ、答えとなる特定の漢字を選び答えを作り、答える。
– 果たして、サールは中国語を理解していると言えるのか?
– 言語アプリに動物OSが必要であることを言っている。
• チョムスキー(1957)
– Colorless green ideas sleep furiously
– 文法的(統語論的)には正しいにもかかわらず、意味論的にはnonsenseである文の例
– 言語アプリが動物OSを駆動できない例を言っている。
言語アプリと動物OSの相互作用こそが「意味理解」の正体。
動物OS
言語アプリ
センサ⼊⼒ モータ出⼒
コントローラ+世界モデル
⾔語的⼊⼒ ⾔語的出⼒
センサ⼊⼒ モータ出⼒
コントローラ+世界モデル
⾔語的⼊⼒ ⾔語的出⼒
センサ⼊⼒ モータ出⼒
コントローラ+世界モデル
メンタルキャンバス
• ⾔語が世界モデルを駆動する。
• 想像。反実仮想。描きこめる。動かせる。
• ⾔語によるConditionalな⽣成。
• シミュレータとして使える。
• 世界モデルを使って、「早送り」できる。
• 2種類の⼊⼒×2種類の出⼒=4⽅向のタスク
• マルチタスク学習の効果
• 複数のモーダルは、disentanglementをシャープにする。
• ⽣存的にもさまざまな意義がある。報酬がdenseになる効果など。
• ⾔語系の⼊出⼒で想像することを通じて抽象化されていく
• 像を描き、操作することによる処理。例えば、⾜し算とかができるようになる。
ぐしゃ
「チューリングマシン」仮説
• メンタルキャンバスが「無限に⻑いテープ」の役割をしている
• これによって、⼈間の知能は、有限オートマトンからチューリングマシンへの能⼒をもつことになった
のではないか。
– 有限オートマトンから、チューリングマシンへ。
– チューリングマシンの「無限に⻑いテープ」がキャンバスに相当する。
• ⼈間が感じている無限の可能性
– 適切な訓練と環境によって、ひとりの⼦供がプロ棋⼠にもプロテニス選⼿にも数学者にも⼩説家にもなれること
• ⾔語的に多様なタスクを与えられることで、対応するアルゴリズムが学習され得る。
– ⾔語タスクの多様性は重要
– 教育と⽂化は重要
• しかし、メンタルキャンバスは有限。無限に⻑いテープではない。何が⾜りないか?
まとめ
• 2階建てモデルについて
– 世界モデル系(動物OS):世界モデル、モデルベース強化学習
– BERT系(⾔語アプリ)
• 提案モデル
1. ⾔葉が世界モデルを駆動し、シミュレータとして動かして、帰結を予測できるようになる。
• いろいろなオブジェクトを「キャンバス」に描き込んで動かせるようになる。
2. この「キャンバス」が「⻑いテープ」の役割をするようになり、任意のアルゴリズムを動かすことがで
きる。
• アルゴリズム蒸留によって有限な資源で万能チューリングマシン相当の計算可能性をもつ
3. 適切な⾔語タスクが課されることで、対応するアルゴリズムが学習される
4. コントローラが、可能なアクションを増やしながらどんどん太っていく
5. ⾃⼰レポートタスクを課されることと、ニューラルエージェントモデルによって、⾃⼰の
disentanglementが進む
• こうしたことを、理論化、実験等を通じて⽰していきたい
37

More Related Content

More from The Whole Brain Architecture Initiative

第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて
第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて
第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けてThe Whole Brain Architecture Initiative
 
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化The Whole Brain Architecture Initiative
 
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けてThe Whole Brain Architecture Initiative
 
第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築
第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築
第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築The Whole Brain Architecture Initiative
 
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展The Whole Brain Architecture Initiative
 
第6回WBAシンポジウム:Humanity X.0 共生創発と情報の身体性
第6回WBAシンポジウム:Humanity X.0 共生創発と情報の身体性第6回WBAシンポジウム:Humanity X.0 共生創発と情報の身体性
第6回WBAシンポジウム:Humanity X.0 共生創発と情報の身体性The Whole Brain Architecture Initiative
 
第6回WBAシンポジウム:人間は動物を必要とするが、
AIは人間を必要とするか?
第6回WBAシンポジウム:人間は動物を必要とするが、
AIは人間を必要とするか?第6回WBAシンポジウム:人間は動物を必要とするが、
AIは人間を必要とするか?
第6回WBAシンポジウム:人間は動物を必要とするが、
AIは人間を必要とするか?The Whole Brain Architecture Initiative
 
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップThe Whole Brain Architecture Initiative
 

More from The Whole Brain Architecture Initiative (20)

第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて
第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて
第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて
 
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
 
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
第7回WBAシンポジウム:全脳確率的生成モデル(WB-PGM)〜世界モデルと推論に基づく汎用人工知能に向けて
 
第7回WBAシンポジウム:基調講演
第7回WBAシンポジウム:基調講演第7回WBAシンポジウム:基調講演
第7回WBAシンポジウム:基調講演
 
第7回WBAシンポジウム:WBAI活動報告
第7回WBAシンポジウム:WBAI活動報告第7回WBAシンポジウム:WBAI活動報告
第7回WBAシンポジウム:WBAI活動報告
 
BriCAプラットフォーム説明会(2022-05)
BriCAプラットフォーム説明会(2022-05)BriCAプラットフォーム説明会(2022-05)
BriCAプラットフォーム説明会(2022-05)
 
第3回WBAレクチャー:BRA評価
第3回WBAレクチャー:BRA評価第3回WBAレクチャー:BRA評価
第3回WBAレクチャー:BRA評価
 
第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築
第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築
第3回WBAレクチャー:BRAに基づく海馬体の確率的生成モデルの構築
 
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展
 
第6回WBAシンポジウム:Humanity X.0 共生創発と情報の身体性
第6回WBAシンポジウム:Humanity X.0 共生創発と情報の身体性第6回WBAシンポジウム:Humanity X.0 共生創発と情報の身体性
第6回WBAシンポジウム:Humanity X.0 共生創発と情報の身体性
 
第6回WBAシンポジウム:人の手のひら AIの手のひら
第6回WBAシンポジウム:人の手のひら AIの手のひら第6回WBAシンポジウム:人の手のひら AIの手のひら
第6回WBAシンポジウム:人の手のひら AIの手のひら
 
第6回WBAシンポジウム:人間は動物を必要とするが、
AIは人間を必要とするか?
第6回WBAシンポジウム:人間は動物を必要とするが、
AIは人間を必要とするか?第6回WBAシンポジウム:人間は動物を必要とするが、
AIは人間を必要とするか?
第6回WBAシンポジウム:人間は動物を必要とするが、
AIは人間を必要とするか?
 
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
第6回WBAシンポジウム:脳参照アーキテクチャ 駆動開発からの AGI構築ロードマップ
 
第6回WBAシンポジウム:WBAI活動報告
第6回WBAシンポジウム:WBAI活動報告第6回WBAシンポジウム:WBAI活動報告
第6回WBAシンポジウム:WBAI活動報告
 
技術進展がもたらす進化戦略の終焉
技術進展がもたらす進化戦略の終焉技術進展がもたらす進化戦略の終焉
技術進展がもたらす進化戦略の終焉
 
The 5th WBA Hackathon Orientation -- Cerenaut Part
The 5th WBA Hackathon Orientation  -- Cerenaut PartThe 5th WBA Hackathon Orientation  -- Cerenaut Part
The 5th WBA Hackathon Orientation -- Cerenaut Part
 
Task Details of the 5th Whole Brain Architecture Hackathon
Task Details of the 5th Whole Brain Architecture HackathonTask Details of the 5th Whole Brain Architecture Hackathon
Task Details of the 5th Whole Brain Architecture Hackathon
 
Introduction to the 5th Whole Brain Architecture Hackathon Orientation
Introduction to the 5th Whole Brain Architecture Hackathon OrientationIntroduction to the 5th Whole Brain Architecture Hackathon Orientation
Introduction to the 5th Whole Brain Architecture Hackathon Orientation
 
WBAレクチャー#1BRAの審査と登録(山川宏)
WBAレクチャー#1BRAの審査と登録(山川宏)WBAレクチャー#1BRAの審査と登録(山川宏)
WBAレクチャー#1BRAの審査と登録(山川宏)
 
WBAレクチャー#1SCID法の実例 (布川絢子)
WBAレクチャー#1SCID法の実例 (布川絢子)WBAレクチャー#1SCID法の実例 (布川絢子)
WBAレクチャー#1SCID法の実例 (布川絢子)
 

現在のAIの到達点と残された課題@第5回WBAシンポジウム: 松尾豊