Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

コネクショニズムと汎化 (全脳アーキテクチャ若手の会 第29回勉強会)

2,829 views

Published on

第29回全脳アーキテクチャ若手の会「哲学的人工知能批判と第3次AIブーム」Part 4の発表資料です。イベントページ: https://wbawakate.connpass.com/event/64967/

Published in: Science
  • Login to see the comments

コネクショニズムと汎化 (全脳アーキテクチャ若手の会 第29回勉強会)

  1. 1. 1 全脳アーキテクチャ若手の会 第29回勉強会 哲学的人工知能批判と第3次AIブーム Part 4 「コネクショニズムと汎化」 東京大学大学院 修士1年 全脳アーキテクチャ若手の会 代表 八木 拓真 (@t_Signull) 17/09/04 WBA若手の会 第29回勉強会
  2. 2. 2 動機:なぜ過去を振り返る必要があるのか 人工知能 (知能や思考のプログラム化) の実現には 心的過程 (心の動きの変化) の理解を要求する しかしながら我々自身は自分たちの心的過程を 十分理解しているとは言い難く、今後理解できる ようになるかも分からない 当面の「前提」を置く必要性 人工知能研究は楽観的前提により2回失敗し、2回 復活した。現在のアプローチはどのような前提の 上に立っているのか?私たちは過去の失敗を繰り 返そうとしていないだろうか? 最後のOpen questionを含め考えてみよう 17/09/04 WBA若手の会 第29回勉強会
  3. 3. 3 目次 コネクショニズムと並列分散処理 (PDP) コネクショニズムとは 並列分散処理 (PDP) PDPの前提条件 データ駆動科学の勃興 統計的アプローチの黎明と発展 モデルとデータの密接な関係 我々はドレイファスの疑問に応えているのか? 汎化 (generalization) とは何か? 汎化の再考―2回復活したAIが哲学から学ぶこと 17/09/04 WBA若手の会 第29回勉強会
  4. 4. 4 目次 コネクショニズムと並列分散処理 (PDP) コネクショニズムとは 並列分散処理 (PDP) PDPの前提条件 データ駆動科学の勃興 統計的アプローチの黎明と発展 モデルとデータの密接な関係 我々はドレイファスの疑問に応えているのか? 汎化 (generalization) とは何か? 汎化の再考―2回復活したAIが哲学から学ぶこと 17/09/04 WBA若手の会 第29回勉強会
  5. 5. 5 コネクショニズム 17/09/04 WBA若手の会 第29回勉強会 Connectionist Neural Network ※個人の解釈です
  6. 6. 6 コネクショニズム ニューラルネットを用いて人間の心の働きを理解し ようとする認知科学におけるアプローチの一種 ニューラルネット本体はあくまで学習器の一種で あるのに対し、コネクショニズムではそれを人の 内的過程に当てはめることに違いがある 80~90年代にかけて、当時の人工知能研究者のみ ならず、認知科学者・哲学者からも大きな反響 コネクショニズムは各分野で洗練され、一時はその 姿を消したものの、実用的な深層学習の登場、タス クの複雑化に伴い我々の前に帰ってきた 17/09/04 WBA若手の会 第29回勉強会
  7. 7. 7 心的過程の記述 (1) 17/09/04 WBA若手の会 第29回勉強会 遊星よりの物体S Sは脚が4本ある Sは体毛を持つ Sには愛嬌がある Sは脊椎動物である Sは哺乳類である Sは嗅覚が鋭い Sは猫ではない Sは犬である Sは柴犬である
  8. 8. 8 心的過程の記述 (2) 17/09/04 WBA若手の会 第29回勉強会 遊星よりの物体S 耳が2つ 嗅覚が鋭い とんがり耳 愛嬌がある v 水が苦手 Sは柴犬 Sは猫 Sは宇宙生物 目が1つ 毛がふさふさ (1)・(2) の質的な違いはどこにあるのだろうか?
  9. 9. 9 PDP (並列分散処理) [McClelland+ 86] 多数の (暗黙の) 制約を満たしながら認識や行動を遂行 するための計算モデル 知覚、運動制御、記憶検索の過程を自然に記述可能 e.g. 物体認識、リーチング、連想記憶 明示的な規則の定式化ではなく、あたかもルールに 従って動くような結合の獲得を目標とする 17/09/04 WBA若手の会 第29回勉強会 J. L. McClellandD. Rumelhart G. E. Hinton
  10. 10. 10 例:PDPができること タイピングにおいては、正しい順番で文字をタイプ するために、前の文字を打つまで次の文字とその指 の動きを抑制しなければならない PDPにおいては、上記の運動制御を指・打鍵・言葉 間に発生する活性化・抑制の結果であるとする 17/09/04 WBA若手の会 第29回勉強会 “v” “e” “r” “y” “Very”Wordユニット Keypressユニット 応答システム
  11. 11. 11 PDPの前提条件 1. 並列処理:計算が早く、ロバスト 2. ミクロ構造:あらゆる情報処理は「ユニット」 と呼ばれる原子要素の相互作用によって表現でき る 3. 結合による記憶:知識は規則ではなく、ユニッ ト同士の結合重みによって表される 4. 分散表現:各ユニットが特定の意味を持たず、 集団として意味を持つことを許容する 5. 汎化性能の獲得:ユニットの活性が本来意図し ないマクロの構造を産出する 17/09/04 WBA若手の会 第29回勉強会
  12. 12. 12 PDPの前提条件 1. 並列処理:計算が早く、ロバスト 2. ミクロ構造:あらゆる情報処理は「ユニット」 と呼ばれる原子要素の相互作用によって表現でき る 3. 結合による記憶:知識は規則ではなく、ユニッ ト同士の結合重みによって表される 4. 分散表現:各ユニットが特定の意味を持たず、 集団として意味を持つことを許容する 5. 汎化性能の獲得:ユニットの活性が本来意図し ないマクロの構造を産出する 17/09/04 WBA若手の会 第29回勉強会
  13. 13. 13 前提1: 並列処理 直列処理:平易だが非現実的 制約が多い時に記述可能か?処理は終わるのか? 並列処理:神経科学的には現実的 17/09/04 WBA若手の会 第29回勉強会 処理A 処理B 処理C 処理D ・・・ 𝑡 処理A-1 処理B-1 𝑡 処理C-1 処理A-2 処理B-2 処理C-2 処理A-3 処理D-3 複数処理が並列実行 され、互いの処理の 影響を受ける あるノードが死んで も動く (ロバスト)
  14. 14. 14 前提2: ミクロ構造 認知科学における重大な疑問:認知の最小単位は 何か? 意味ネットワークにおける「概念」といった 明示的な記述は処理単位として大きすぎる コネクショニズムでは、処理単位の仮定を置かず、 最小単位として「ユニット」を置く 高次の概念はユニットの 組合せより生起・創発する 17/09/04 WBA若手の会 第29回勉強会
  15. 15. 15 PDPの前提条件 1. 並列処理:計算が早く、ロバスト 2. ミクロ構造:あらゆる情報処理は「ユニット」 と呼ばれる原子要素の相互作用によって表現でき る 3. 分散表現:各ユニットが特定の意味を持たず、 集団として意味を持つことを許容する 4. 結合による記憶:知識は規則ではなく、ユニッ ト同士の結合重みによって表される 5. 汎化性能の獲得:ユニットの活性が本来意図し ないマクロの構造を産出する 17/09/04 WBA若手の会 第29回勉強会
  16. 16. 16 例:リンゴの想起と知覚 17/09/04 WBA若手の会 第29回勉強会 “りんご” ユニット +1.5 +3.0 -2.5 結合重み (記憶) http://www.civillink.net/fsozai/eye.html https://ringo-samurai.com/articles/105
  17. 17. 17 前提3: 結合による記憶と学習 従来の認知計算モデルと異なり、結合重みが知識を 表す コンピュータのように刺激そのものを記憶に保持す るのではなく、刺激を受けた結果起こる反応 (運動、 知覚、etc.) を正しく引き出す重みを学習する 例:フィードフォワードNN (バイアスなし) 𝑓 𝒙 = 𝑎2 𝑾 𝟐 𝑎1 𝑾 𝟏 𝒙 𝐸 𝒙, 𝑦 = 1 2 𝑓 𝒙 − 𝑦 2 𝑾𝒊 ← 𝑾𝒊 − 𝛼 𝜕𝐸 𝜕𝑾𝒊 (𝑖 = 1, 2) 17/09/04 WBA若手の会 第29回勉強会 活性 𝒇(𝒙): 計算時に出現 重み 𝑾𝒊: 学習により更新 誤差関数 ネットワーク 更新則
  18. 18. 18 例:リンゴの想起と知覚 17/09/04 WBA若手の会 第29回勉強会 “りんご” ユニット +1.5 +3.0 -2.5 結合重み (記憶) “赤”ユニット “青”ユニット “丸”ユニット http://www.civillink.net/fsozai/eye.html https://ringo-samurai.com/articles/105 視覚入力網膜 分散表現
  19. 19. 19 前提4:分散表現 ノードは必ずしもある概念に対応している必要は なく、それは集団として意味を持つ 深層学習においても、隠れ層の中身は規定されて おらず、タスクに適した表現を獲得することを期 待する -> 表現学習 (representation learning) 17/09/04 WBA若手の会 第29回勉強会 0 0 0 0 1 0 0.01 0.3 0.02 0 0.6 0 局所表現 分散表現
  20. 20. 20 分散表現の特長 分散表現の表現力は局所表現に対して豊かで、 概念間の類似度をより適切に定義できる →詳細は第13回勉強会『言語と画像の表現学習』を参照 (https://www.slideshare.net/yukinoguchi999/ss-59238906) 17/09/04 WBA若手の会 第29回勉強会
  21. 21. 21 例:リンゴの想起と知覚 17/09/04 WBA若手の会 第29回勉強会 “りんご” ユニット +1.5 +3.0 -2.5 結合重み (記憶) “赤”ユニット “青”ユニット “丸”ユニット http://www.civillink.net/fsozai/eye.html https://ringo-samurai.com/articles/105 ? 視覚入力網膜 分散表現
  22. 22. 22 PDPの前提条件 1. 並列処理:計算が早く、ロバスト 2. ミクロ構造:あらゆる情報処理は「ユニット」 と呼ばれる原子要素の相互作用によって表現でき る 3. 結合による記憶:知識は規則ではなく、ユニッ ト同士の結合重みによって表される 4. 分散表現:各ユニットが特定の意味を持たず、 集団として意味を持つことを許容する 5. 汎化性能の獲得:ユニットの活性が本来意図し ないマクロの構造を産出する 17/09/04 WBA若手の会 第29回勉強会
  23. 23. 23 前提5: 汎化性能の獲得 PDPは局所的な結合からマクロな構造を発見できる →汎化 (generalization) 17/09/04 WBA若手の会 第29回勉強会 2組のギャング (Jet & Shark) の例: 双方向の矢印は興奮性 の結合を表す 例えば、Jetユニット を活性化させるだけで、 Jetの年齢層、結婚歴 、学歴の割合を活性の 値から取得できる 入力 活性化 活性化 活性化
  24. 24. 24 コネクショニズム:まとめ ニューラルネットを用いて人間の心の働きを理解 しようとする認知科学におけるアプローチの一種 PDPは、知的なタスクを行うニューラルネットの設 計・学習に関する基本的な考え方を示しており、 現在のニューラルネットにも引き継がれている 17/09/04 WBA若手の会 第29回勉強会 記号主義 コネクショニズム 処理形態 直列処理 並列処理 最小構造 概念 (マクロ構造) ユニット (ミクロ構造) 表現形式 局所表現 分散表現 記憶形式 規則による記述 結合重み 汎化性能の獲得 考慮せず あり 注:上表は比較のためのものであり、記号主義を否定する意図は持たない
  25. 25. 25 目次 コネクショニズムと並列分散処理 (PDP) コネクショニズムとは 並列分散処理 (PDP) PDPの前提条件 データ駆動科学の勃興 統計的アプローチの黎明と発展 モデルとデータの密接な関係 我々はドレイファスの疑問に応えているのか? 汎化 (generalization) とは何か? 汎化の再考―2回復活したAIが哲学から学ぶこと 17/09/04 WBA若手の会 第29回勉強会
  26. 26. 26 大規模データベースの登場 17/09/04 WBA若手の会 第29回勉強会 http://www.vision.caltech.edu/Image_Datasets/Caltech101/ 2004 Caltech101 [Fei-Fei+ 04] 101 classes, 104 samples
  27. 27. 27 17/09/04 WBA若手の会 第29回勉強会 www.image-net.org/2009 ImageNet [Deng+ 09] 5,000> classes, 3.2×107 samples
  28. 28. 28 17/09/04 WBA若手の会 第29回勉強会 www.image-net.org/ 2017 JFT-300M [Sun+ 17] 19,000 classes, 3.0×109 samples
  29. 29. 29 データ駆動科学の勃興 自然言語処理 統計的機械翻訳 [Brown+ 93] Word2vec [Mikolov+ 13] ニューラルネット統計的機械翻訳 [Sutskever+ 14] 画像認識 統計的顔検出 [Sung & Poggio 98] Bag-of-Visual-Words (BoVW) [Csurka+ 04] 深層学習を用いた大規模画像認識 [Krichevsky+ 12] 音声認識 HMM音声認識 [Levinson+ 83] End-to-end音声認識 [Graves & Jaitly 14] 17/09/04 WBA若手の会 第29回勉強会 80年代~90年代に提案、計算機及びモデルの進歩に伴い実用化
  30. 30. 30 モデルとデータの密接な関係 規則そのものが知識源であった伝統的AIとは異な り、コネクショニズムではモデル (結合) とデータ の両方を同時に考える必要がある データの仮定なきニューラルネットは数理的には 意味を持つが、実用的なモデルとしては不適当※ 実世界データには次のような性質が一般的に認め られる (と思われている) [Lin+ 16] 低次相関 (高々4次元) 、相互作用の局所性、対 称性、マルコフ性 17/09/04 WBA若手の会 第29回勉強会 ※:NNの「万能性」として言及されるUniversal Approximate Theorem [Cybenko 89]は訓練データの分布の近似に関する定理であり、汎化誤差 の最小化とは無関係
  31. 31. 31 (深層学習に限らない) データ駆動科学アプローチにおいて は、データの量の増加に対して性能が対数的に増加する現 象が観察されている →性能を決めるのはモデルだけではない (当たり前?) 良質・大規模のデータは学習器を凌駕する 17/09/04 WBA若手の会 第29回勉強会 例1: 語義曖昧性解消 [Banko & Brill 01] 例2: 大規模画像認識ベース の物体検知[Sun+ 17] 3億枚の画像を 50枚のK80を使って 2カ月学習 (7.3年分)
  32. 32. 32 80年代と10年代のコネクショニズム 80年代:”できるはず” (観念的には) 様々な知的能力を説明できる 局所最適化に基づくアルゴリズムが登場 適切な制約を加えれば汎化する”はず” 10年代:”できてきた” 大規模データベースが登場 (e.g. ImageNet) 丸暗記でない、パターンからパターンへの相互変 換が現実的に実現 適切なデータと制約を与えたら汎化”した” 17/09/04 WBA若手の会 第29回勉強会
  33. 33. 33 現代的コネクショニズム 現代的なニューラルネットの目標は、異なるモダリ ティ間の相互変換を実現することであり、その内部に 高次構造を見出すことである 17/09/04 WBA若手の会 第29回勉強会 Aytar, Y., Vondrick, C., & Torralba, A. (2017). See, Hear, and Read: Deep Aligned Representations. arXiv preprint arXiv:1706.00932. Finn, C., Goodfellow, I., & Levine, S. (2016). Unsupervised learning for physical interaction through video prediction. In Advances in Neural Information Processing Systems (pp. 64-72). 画像 音声 言語 分類 状況 音素・形態素 感情価・覚醒度 時系列データ過去・将来 方策位置 高次構造
  34. 34. 34 目次 コネクショニズムと並列分散処理 (PDP) コネクショニズムとは 並列分散処理 (PDP) PDPの前提条件 データ駆動科学の勃興 統計的アプローチの黎明と発展 モデルとデータの密接な関係 我々はドレイファスの疑問に応えているのか? 汎化 (generalization) とは何か? 汎化の再考―2回復活したAIが哲学から学ぶこと 17/09/04 WBA若手の会 第29回勉強会
  35. 35. 35 ドレイファスは何を主張したか 17/09/04 WBA若手の会 第29回勉強会 「古き良きAI」に対する主張 完全に形式化されていない全体論的な知識は「世 界の完全な記述」を求める価値観では説明・処理 できない 状況・身体・意図が不可欠の役割を果たす →身体の役割は第15回『実ロボットの運動生成』を参照 (https://www.slideshare.net/YurikaDoi/doi-63126093) →全体論的に処理するNNは大丈夫そう
  36. 36. 36 ドレイファスは何を主張したか 17/09/04 WBA若手の会 第29回勉強会 「古き良きAI」に対する主張 完全に形式化されていない全体論的な知識は「世 界の完全な記述」を求める価値観では説明・処理 できない 状況・身体・意図が不可欠の役割を果たす →身体の役割は第15回『実ロボットの運動生成』を参照 (https://www.slideshare.net/YurikaDoi/doi-63126093) コネクショニズムに対する懐疑 常識をはじめとした一般的な能力を組み込む際、 汎化を適切に定義・判定できるのか? 我々は設計者の考える汎化の範囲内でしかニュー ラルネットの汎化性能を評価できないのでは? ←今日はこちらに注目 →全体論的に処理するNNは大丈夫そう
  37. 37. 37 制約はどこから来るのか? コネクショニズムは一般性を持たせるため、結合の制 約に関する条件は規定していないが、実際的に大事な のはモデルに対する制約のかけ方である →適切なデータと制約があればNNは汎化する”はず” 17/09/04 WBA若手の会 第29回勉強会 ボルツマンマシン: 大規模かつ実用的な最適化は未だ困難 制限ボルツマンマシン: 結合に制約を持たせることで実用的に 同じ層の素子同士の結合を持たない
  38. 38. 38 モデル構造に関する制約 17/09/04 WBA若手の会 第29回勉強会 Early/Late Fusion [Karpathy+ 14] 他 Stacked Autoencoder [Vincent+ 11] 他 http://ruder.io/multi-task/ Multi-task Learning [Collobert+ 08] 他 Transfer Learning [Yosinski+ 14] https://elix-tech.github.io/ja/2016/07/17/autoencoder.html
  39. 39. 39 画像認識における制約の複雑化 17/09/04 WBA若手の会 第29回勉強会 Context Prediciton [Doersch+ 15] 区切られた画像の位置関係を予測 Shuffle & Learn [Misra+ 16] 映像の自然な順序を判定 Watching objects move[Pathak+ 17] 動き情報を用いた特徴学習 Adversarial feature [Donahue+ 16] 画像→潜在空間への変換をBiGANで学習
  40. 40. 40 汎化 (generalization) とは何か? 心理学における汎化: 過去の経験のうち、現在の状況に類似しているものを 利用すること パターン認識・機械学習における汎化: (正解を持つ) 訓練データを用いて学習したシステム が、(同じ分布から生成された) 未学習のテストデータ に対しても正しい正解を返すこと 予測誤差 𝐸 𝑋,𝑌 ~𝐷[𝑙 𝑓 𝑋 , 𝑦 ]が小さくなること PDPでは後者の意味での指標は明言されていない 同時期の[LeCun, 86] では “The generalization is the ability to produce a correct response for a non learned input pattern.” と表現 (過渡期?) 17/09/04 WBA若手の会 第29回勉強会
  41. 41. 41 汎化の評価と実現 心理学的指標 般化勾配 (条件付けの過程において) 数理的指標 (モデルの複雑度による評価) VC次元 [Vapnik 98] ラデマッハ複雑度 [Bartlett 02] 汎化を起こすには データ量を増やす 正則化 (モデルの自由度を制限) Weight decay (L1/L2 regularization) Dropout/Dropconnect ブースティング (多数の学習器の組み合わせ) 17/09/04 WBA若手の会 第29回勉強会
  42. 42. 42 小噺:Detecting tanks 80年代よりまことしやかに伝わる小噺がある: 「昔々、米軍がカモフラージュされた戦車をニューラ ルネットで自動検知しようとした。研究者は木の中で カモフラージュされた戦車とただの森の画像をそれぞ れ100枚用意し、各50枚の訓練データで学習した。学 習したNNは他方の50枚のテストデータも正しく識別 した。成功だ!しかし、研究者はペンタゴンにその結 果を報告したのち、彼らのNNが全く正しく識別しな いという苦情を受けた。」 →なぜだろう? 17/09/04 WBA若手の会 第29回勉強会
  43. 43. 43 事の顛末 「調査の結果、研究者の撮影した戦車は全て曇りの日 に撮影されており、ただの森の画像は全て晴れの日に 撮影されていたことが判明した。NNは戦車と森を見分 けたのではなく、晴れの日と曇りの日を正しく見分け ることを学習したのだ。」 教訓:NNは必ずしも設計者の期待通り汎化しない 設計者の汎化とNNの汎化が一致する保証はない 数理的な汎化の定義は十分に適切なのか? 17/09/04 WBA若手の会 第29回勉強会
  44. 44. 44 数理的な汎化の定義は適切か? そんなことはない “Understanding deep learning requires rethinking generalization” [Zhang+ 17] DNNはサンプル数<パラメータ数でも十分に学習 ラベルをランダム化したDNNの学習実験より、従 来型の汎化の定義 (モデルの複雑度) ではDNNの汎 化性能を説明できないことを実証 各種正則化も汎化性能の決め手ではない 追検証の論文はあるが [Krueger+ 17][Hoffer+ 17] [Wu+ 17] [Kuzborskij & Lampert 17]、様々な仮説が入り乱れて いる状況 -> どれもデータに注目していない印象… 17/09/04 WBA若手の会 第29回勉強会
  45. 45. 45 汎化の再考: 2回復活したAIが哲学から学ぶこと コネクショニズムは「汎化」の判断を人間に委ねた 統計的アプローチが汎化誤差最小化の枠組みで成功し、 実用的なNNが出現した今こそ、データ駆動の枠組み におけるの汎化の再考が求められている 画像分類は大成功を収めたが、この先我々が期待するタ スクにも同じ成功は待っていてくれるだろうか? 「語りえぬもの」の画像・映像生成 ノンバーバルコミュニケーションと情動 未知の事物・状況に対する自然な応答 道徳的判断 私たちは一元的な汎化の定義に頼りすぎなのではないか? 17/09/04 WBA若手の会 第29回勉強会
  46. 46. 46 汎化の再考: 2回復活したAIが哲学から学ぶこと 以上の現状を踏まえて我々ができることは何か? 1. 精緻化:人間が見て望ましい汎化のクラスを定義し、 それを引き出すモデルを追求 ->記号主義の再来? 2. 実用重視:汎化の定義が明確な問題のみを取り扱う -> その汎化は本当に明確か? 3. 不干渉:人間の判断の割合をなるべく小さくする (教師 ありから強化学習、教師なし学習へ) 4. 生物を再現:汎化を考えず、生物の構造や原始的な働 きを粛々と模倣 -> 全脳エミュレーション? 5. 再考不要:このような問題など存在しない?詭弁? 17/09/04 WBA若手の会 第29回勉強会
  47. 47. 47 17/09/04 WBA若手の会 第29回勉強会
  48. 48. 48 まとめ 現代的コネクショニズムは良質大量のデータの助 けを得て、実用的なパターンtoパターンの相互変換 を実現している しかしながら、ドレイファスが懐疑として示した 汎化の定義と判定の正当性の不在は、私たちがNN に知的な機能を持たせるにあたって暗い影を落と している 既存の汎化の定義に弱点があることを認め、モデ ルとデータにどのような関係性を期待するのかを 事例ごとに真摯に考えることが、将来のAIを推し 進める出発点となるのではないか 17/09/04 WBA若手の会 第29回勉強会
  49. 49. 49 Open question NNの入力と出力はどこからやってくるのか?ユニットに適切 な表現形式は存在するのか? (例えば、文字をユニットの単位 として認めるのは適切か?) 我々の記述しえない能力をNNは持つことができるのだろう か? センサとアクチュエータにあたるユニットだけ定義すれば、 人間の内的過程にあたるものが本当に中間層に出現するのだ ろうか?その根拠をどう持たせるべきか? 汎化のクラスは有限か?汎化の記述と規則の記述は同一の無 限退行に陥らないだろうか? 物理的性質の異なるコンピュータで、人間の脳および身体に 制約された機構を絞り込むことは可能なのか?針穴にラクダ を通すような作業なのではないか? 17/09/04 WBA若手の会 第29回勉強会
  50. 50. 50 補足:「○○は必要」論について ドレイファスのAI批判の多くは確かに的を得ていた が、当時のAI研究者が打ち立てた「知能は計算で記 述できる」というパラダイム自体は、人工知能のみ ならず認知科学、計算論的神経科学などの諸理論の 発展を促したという点で極めて重要である 計算による実証が可能な現代においては、「○○が 必要」(身体、文脈、環境との相互作用、脳構造、 ベイズ、etc.) という言及はもはや実質的な意味を 持たず、○○を含む系が計算によって運用可能であ るかどうかに焦点が置かれるべきである 参考:[安西 88] 17/09/04 WBA若手の会 第29回勉強会
  51. 51. 51 参考文献 [辻井 12] 辻井潤一, 『合理主義と経験主義のはざまで―内的な処理の計算モデル―』, 人工知能学会誌, Vol. 27, No. 3, 2012 [Dreyfus & Dreyfus 87] H. L. Dreyfus and S. E. Dreyfus, 『純粋人工知能批判』, アスキー出版局, 1987,椋田直 子訳 [黒崎 90] 黒崎政男, 『ミネルヴァのふくろうは世紀末を飛ぶ テクノロジーと哲学の現在』, 弘文堂, 1990 [Brown+ 93] Brown, P. F., Pietra, V. J. D., Pietra, S. A. D., & Mercer, R. L. (1993). The mathematics of statistical machine translation: Parameter estimation. Computational linguistics, 19(2), 263-311. [Sung & Poggio 98] Sung, K. K., & Poggio, T. (1998). Example-based learning for view-based human face detection. IEEE Transactions on pattern analysis and machine intelligence, 20(1), 39-51. [Fei-Fei 04] L. Fei-Fei, R. Fergus and P. Perona. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories. IEEE. CVPR 2004, Workshop on Generative-Model Based Vision. 2004 [Deng+ 09] Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large- scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on (pp. 248-255). IEEE. [Lin+ 16] Lin, H. W., Tegmark, M., & Rolnick, D. (2016). Why does deep and cheap learning work so well?. Journal of Statistical Physics, 1-25. [Banko & Brill 01] Banko, M., & Brill, E. (2001, July). Scaling to very very large corpora for natural language disambiguation. In Proceedings of the 39th annual meeting on association for computational linguistics (pp. 26-33). Association for Computational Linguistics. [Zhou+ 17] Zhou, B., Lapedriza, A., Khosla, A., Oliva, A., & Torralba, A. (2017). Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. [Sun+ 17] Sun, C., Shrivastava, A., Singh, S., & Gupta, A. (2017). Revisiting unreasonable effectiveness of data in deep learning era. arXiv preprint arXiv:1707.02968. 17/09/04 WBA若手の会 第29回勉強会
  52. 52. 52 参考文献 [Collobert+ 08] Collobert, R., & Weston, J. (2008, July). A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning (pp. 160-167). ACM. [Yosinski+ 14] Yosinski, J., Clune, J., Bengio, Y., & Lipson, H. (2014). How transferable are features in deep neural networks?. In Advances in neural information processing systems (pp. 3320-3328). [LeCun 86] Y. LeCun: Learning Processes in an Asymmetric Threshold Network, in Bienenstock, E. and Fogelman-Soulié, F. and Weisbuch, G. (Eds), Disordered systems and biological organization, 233-240, Springer-Verlag, Les Houches, France, 1986 [Cybenko 89] Cybenko., G. (1989) "Approximations by superpositions of sigmoidal functions", Mathematics of Control, Signals, and Systems, 2 (4), 303-314 [Vapnik 98] Vapnik, V. N., & Vapnik, V. (1998). Statistical learning theory (Vol. 1). New York: Wiley. [Bartlett 02] Bartlett, P. L., & Mendelson, S. (2002). Rademacher and Gaussian complexities: Risk bounds and structural results. Journal of Machine Learning Research, 3(Nov), 463-482. [Krueger+ 17] Krueger, D., Ballas, N., Jastrzebski, S., Arpit, D., Kanwal, M. S., Maharaj, T., ... & Courville, A. (2017). Deep Nets Don't Learn via Memorization. [Hoffer+ 17] Hoffer, E., Hubara, I., & Soudry, D. (2017). Train longer, generalize better: closing the generalization gap in large batch training of neural networks. arXiv preprint arXiv:1705.08741. [Kuzborskij & Lampert 17] Kuzborskij, I., & Lampert, C. (2017). Data-Dependent Stability of Stochastic Gradient Descent. arXiv preprint arXiv:1703.01678. [Wu+ 17] Lei Wu, Zhanxing Zhu and Weinan E. Towards Understanding Generalization of Deep Learning: Perspective of Loss Landscapes. ICML 2017 Workshop. [安西 88]安西祐一郎. (1988). 認識の情報科学への計算論的アプローチ (< 連載>「AI における論争」[第 4 回]). 人 工知能学会誌, 3(3), 248-256. [Karpathy+ 14] Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L. (2014). Large- scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 1725-1732). 17/09/04 WBA若手の会 第29回勉強会
  53. 53. 53 参考Webサイト 深層意味表現学習, https://www.slideshare.net/bollegala/deep-semantic-representations, (2017年8月アクセ ス) Datasets Over Algorithms, http://www.spacemachine.net/views/2016/3/datasets-over-algorithms, (2017年 9月3日アクセス) Learning from Web-scale Image Data For Visual Recognition, http://www.vision.ee.ethz.ch/webvision/files/webvision2017/slides_Chen.pdf, (2017年9月4日アクセス) 17/09/04 WBA若手の会 第29回勉強会
  54. 54. 54 Appendix ~ニューラルネットと神経生理学~ 17/09/04 WBA若手の会 第29回勉強会
  55. 55. 55 ニューラルネットの復習 フィードフォワードNN (主流) ボルツマンマシン 17/09/04 WBA若手の会 第29回勉強会 単一方向の非線形写像 𝑓 𝒙 = 𝑎2 𝑾 𝟐 𝑎1 𝑾 𝟏 𝒙 + 𝒃 𝟏 + 𝒃 𝟐 入力層 出力層 隠れ層 真に”全結合”なネットワーク 確率的に発火 𝐸 𝑥 = ෍ 𝑖,𝑗 𝑊𝑖𝑗 𝑥𝑖 𝑥𝑗 + ෍ 𝑖 𝜃𝑖 𝑥𝑖
  56. 56. 56 ニューラルネット (NN) の起源:形態 マカロピッツのモデル (McCulloch & Pitts, 1943) 神経生理学的知見を基に、生物の脳のニューロンの働き を模したシンプルな計算モデルを提案 →重み付き線形和&ヘビサイド関数 (ただし学習せず) 17/09/04 WBA若手の会 第29回勉強会 http://wwwold.ece.utep.edu/research/webfuzzy/docs/kk-thesis/kk-thesis-html/node12.html
  57. 57. 57 ニューラルネット (NN) の起源:学習 ヘブ則 (Hebb, 1949) 脳のシナプス可塑性に関する仮説 (法則) ニューロンAの発火がニューロンBの発火につな がった時、A-B間の結合が強まる LTP (長期増強) などの記憶のメカニズムの原始 的な形として後に実証される また、Hebbはcell assemblies (細胞集積体) と呼 ばれる、複数の細胞が1つの刺激に対して互いに発 火するという概念を打ち立てた →ニューラルネットは生物の脳の働きに起源を持つ 17/09/04 WBA若手の会 第29回勉強会
  58. 58. 58 1943: ニューロンの数理モデル(McCulloch & Pitts) 1949: ヘブ則 (Hebb) 1952: 微分方程式モデル (Hodgkin & Huxley) 1958: パーセプトロン (Rosenblatt) 1967: 誤差逆伝播法の原型 (甘利俊一) 1969: 小脳パーセプトロン仮説 (Marr & Albus) 1979: ネオコグニトロン (CNNの原型) (福島邦彦) 1986: 並列分散処理 (PDP) (Rumelhart & McClelland), 誤差逆伝播法の確立 (Rumelhart & Hinton) 1989: 畳み込みニューラルネット (CNN) (LeCun) → 神経科学の進歩と共に着実に進展、洗練 17/09/04 WBA若手の会 第29回勉強会 80年代にかけてのNNの進化

×