• Like
ベイズと認知モデルと教師なし学習
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

ベイズと認知モデルと教師なし学習

  • 11,092 views
Published

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
11,092
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
62
Comments
0
Likes
33

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n

Transcript

  • 1. ベイズと認知モデル と教師なし学習PFI Seminar 2012.11.08 能地 宏
  • 2. 自己紹介‣ 能地宏 @nozyh‣ 2011年夏インターン,∼アルバイト‣ 経歴 - 早稲田 電気情報生命工学科 - 機械学習,圧縮 (2009∼) - 東大 情報理工 (現在 修士2年) - 計算言語学,自然言語処理
  • 3. 今日のお話‣ ベイズと認知モデル(と教師なし学習)‣ Bayesian models of cognition - ベイズモデルを用いて,人間の認知機能を明らかにしよう,という試み - 工学ではなく,完全にサイエンス - 人間の頭の中にあるカテゴリはどのように形成されるのか? - 赤ちゃんはどのようにして言葉を習得するのか? - 最近面白いことが起きている?(次)
  • 4. 今日のお話‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012)
  • 5. 今日のお話‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012) - 心理学におけるBayes理論は科学ではなく,単なる作り話である
  • 6. 今日のお話‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012) - 心理学におけるBayes理論は科学ではなく,単なる作り話である - How the Bayesians got their beliefs (and what those beliefs actually are): Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget) - 上の著者は,この分野を正しく理解していない!という反論
  • 7. 今日のお話‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012) - 心理学におけるBayes理論は科学ではなく,単なる作り話である - How the Bayesians got their beliefs (and what those beliefs actually are): Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget) - 上の著者は,この分野を正しく理解していない!という反論 - Is that what Bayesians believe? Reply to Griffiths, Chater, Norris, and Pouget (2012) (Bowers & Davis, 2012) - さらに元の著者からの反論 …
  • 8. 今日のお話‣ Bayesian models of cognition - 一部で論争(?)が起きている - Bayesian just-so stories in psychology and neuroscience (Bowers & Davis, 2012) - 心理学におけるBayes理論は科学ではなく,単なる作り話である - How the Bayesians got their beliefs (and what those beliefs actually are): Comment on Bowers and Davis (2012) (Griffiths, Charter, Norris & Pouget) - 上の著者は,この分野を正しく理解していない!という反論 - Is that what Bayesians believe? Reply to Griffiths, Chater, Norris, and Pouget (2012) (Bowers & Davis, 2012) - さらに元の著者からの反論 … - 何が起きているのか? - 議論が起こっているということは,誤解が生じやすいということ.その部分を 明らかにしたい
  • 9. 認知科学と教師なし学習‣ 自然言語処理と先ほどの議論は,関係が0ではない?‣ Computational linguistics Where do we go from here? (ACL2012, Mark Johnson) - 現在の計算言語学はサイエンスではない - 精度(f値)を1%あげても,言語の本質に近づいたとは言えない - 計算言語学として言語の本質に近づくためにはどうすれば良いか?‣ 特に言語の教師なし学習に関して… - ベイズで認知モデルを組み立てることと,自然言語の教師なし学習モデルを作る ことと,やっていることは同じ(どちらも生成モデルと推論法を考える) - 認知モデルへの非難を受けて,教師なし学習はどのようなことを考えて進めば 良いか?
  • 10. 今日のお話‣ 技術的,というよりは,完全にお話です‣ PFIでこんなことを話して良いのかは分からない…‣ 逆にどれぐらいの人が興味を持ってくれるのか,に興味があります‣ 認知モデルは専門ではないので,間違ったことを言うかもしれません
  • 11. Bayesian models of cognition‣ 人間の行動の原理を理解することが目標‣ 人間の行動の原理を,確率モデルを用いて表現する- c.f) コネクショニズム(ニューラルネットによる脳のモデル)‣ 特定の人間の行動について,その確率モデルと,実際の人間の挙動を比較 する‣ 確率モデルが人間の挙動にマッチすれば,人間の脳では同じような確率 計算が行われている,と結論づける(?)
  • 12. 簡単な例
  • 13. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい
  • 14. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい‣ 理由として考えられるのは?
  • 15. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい‣ 理由として考えられるのは?- 道路に落とした
  • 16. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい‣ 理由として考えられるのは?- 道路に落とした- お風呂に落とした
  • 17. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい‣ 理由として考えられるのは?- 道路に落とした- お風呂に落とした- お酒に落とした
  • 18. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい‣ 理由として考えられるのは?- 道路に落とした- お風呂に落とした- お酒に落とした‣ 理由に対する事後分布を計算する
  • 19. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい‣ 理由として考えられるのは?- 道路に落とした- お風呂に落とした- お酒に落とした‣ 理由に対する事後分布を計算する- p(H) : 事前分布.(常識として)どのような理由が起こりやすいか?
  • 20. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい‣ 理由として考えられるのは?- 道路に落とした- お風呂に落とした- お酒に落とした‣ 理由に対する事後分布を計算する- p(H) : 事前分布.(常識として)どのような理由が起こりやすいか?- p(D¦H) : 尤度関数.Hが起こったとき,壊れる確率は?
  • 21. 簡単な例‣ 丸⃝さんの携帯が壊れてしまったらしい‣ 理由として考えられるのは?- 道路に落とした- お風呂に落とした- お酒に落とした‣ 理由に対する事後分布を計算する- p(H) : 事前分布.(常識として)どのような理由が起こりやすいか?- p(D¦H) : 尤度関数.Hが起こったとき,壊れる確率は?- ベイズの定理 p(H¦D) p(H) p(D¦H)
  • 22. 丸⃝さんの場合・・・‣ 事前分布- p( 道路に落とした ) = 0.2- p( お風呂に落とした ) = 0.05- p( お酒に落とした ) = 0.75‣ 尤度関数- p( 壊れた ¦ 道路に落とした ) = 0.1- p( 壊れた ¦ お風呂に落とした ) = 0.9- p( 壊れた ¦ お酒に落とした ) = 0.5‣ 事後分布
  • 23. 丸⃝さんの場合・・・‣ 事前分布- p( 道路に落とした ) = 0.2- p( お風呂に落とした ) = 0.05- p( お酒に落とした ) = 0.75‣ 尤度関数- p( 壊れた ¦ 道路に落とした ) = 0.1- p( 壊れた ¦ お風呂に落とした ) = 0.9- p( 壊れた ¦ お酒に落とした ) = 0.5‣ 事後分布- p( 道路に落とした ¦ 壊れた ) 0.02
  • 24. 丸⃝さんの場合・・・‣ 事前分布- p( 道路に落とした ) = 0.2- p( お風呂に落とした ) = 0.05- p( お酒に落とした ) = 0.75‣ 尤度関数- p( 壊れた ¦ 道路に落とした ) = 0.1- p( 壊れた ¦ お風呂に落とした ) = 0.9- p( 壊れた ¦ お酒に落とした ) = 0.5‣ 事後分布- p( 道路に落とした ¦ 壊れた ) 0.02- p( お風呂に落とした ¦ 壊れた ) 0.045
  • 25. 丸⃝さんの場合・・・‣ 事前分布- p( 道路に落とした ) = 0.2- p( お風呂に落とした ) = 0.05- p( お酒に落とした ) = 0.75‣ 尤度関数- p( 壊れた ¦ 道路に落とした ) = 0.1- p( 壊れた ¦ お風呂に落とした ) = 0.9- p( 壊れた ¦ お酒に落とした ) = 0.5‣ 事後分布- p( 道路に落とした ¦ 壊れた ) 0.02- p( お風呂に落とした ¦ 壊れた ) 0.045- p( お酒に落とした ¦ 壊れた ) 0.37
  • 26. 生成モデル‣ 観測データが発生するまでの,確率モデルを記述したもの‣ 先ほどの例では, - p(H) : 携帯に起こりそうなことと,その確率 - p(D¦H) : それが起こったときに,携帯が壊れる確率 で生成モデルを決めたことになる‣ 推論 - 生成モデルが与えられたもとで,隠れ変数Hの事後分布を計算すること - p(H¦D) を計算した - ベイズの枠組みの中では,どんなに複雑な生成モデルを記述しても,全て事後分布 を求める問題に帰着させることが出来る‣ 我々の予想が当たったら,それは我々がそういう計算をしている と言える(?)
  • 27. もうちょっと複雑な例‣ 赤ちゃんが音素列から単語をどのように得るか?(Goldwater+ 2009)‣ カテゴリーの獲得(Griffiths+ 2007)
  • 28. computational model can identify which information sources ce to do something I 赤ちゃんが音素列から単語をどのように得るか? word segmentation is first step to learning a lexicon y Mu Nw Ma Mn Mt Nt Mu Ns Mi ND Me Nb MU Mk (Johnson, 2012) I using distributional information and syllable structure achieves about 90% token f-score ‣ 赤ちゃんが言葉をどのように学習するか?の最初の問題 nergies in acquisition: ‣ 母親の話す言葉は,単語に切れてはおらず,連続している I learning word segmentation and syllable structure jointly learns both more accurately than learning each on its own ‣ 赤ちゃんは連続した音素のみから,単語の切れ目を見つけている,と考える I learning word object mapping together with word segmentation ‣ 生成モデル improves word segmentation accuracy - p(H) DirichletProcess(α,P0) : 各単語の出現確率 ex) p( dog ) = 0.01Animals don’t move on wheels” - p(D¦H) = Multinomial(H) : 独立に生成された単語がくっついて,母親が発する確率 – Tom Wasow ‣ 推論e: Fleck, Goldwater, Swingley and many others p(H) と文の区切りを見つける - 単語が繋がった文の集合のみから,単語の集合 ‣ このモデルが,正しい単語の区切りを見つけることが出来たら,赤ちゃんは 21/43 このような確率モデルを頭の中に持っていると言える(?)
  • 29. カテゴリーの獲得‣ Categorization theory (認知言語学などと関連) - 人間は, もの をカテゴリーに分類して,理解している - 見た目が犬っぽい動物は,全て 犬 として認識する - 種類が違うりんごは,全て りんご というカテゴリーとして認識される‣ Exemplar Model と Prototype Model
  • 30. 人間はどういうカテゴリーを作るか?
  • 31. 人間はどういうカテゴリーを作るか?‣ Exemplar Model - カテゴリーの要因全てが,カテゴリーを形作る - 新しい対象は,各カテゴリーの全ての要素を見て,類似度を測って分類される
  • 32. 人間はどういうカテゴリーを作るか?‣ Prototype Model - 各カテゴリーは,中心の成員1つのみで表現される(最も代表的な要素) - 新しい対象は,各カテゴリーの中心のみと比較される
  • 33. 確率モデルとして表現する‣ x1, ..., xn : n個の観測データ‣ c1, ..., cn : それぞれのクラスタ割り当て‣ mn,k : n個のうち,クラスタkに割り当てられている要素の個数‣ p(x¦k):クラスタkのもとで,データxの発生確率(尤度関数)‣ 新しいデータxn+1のクラスタはどこに割り当てられる?‣ クラスタ割り当ての事後分布 - p(xn+1¦k) mn,k p(x¦k)‣ Exemplarか,Prototypeかで,尤度 p(x¦k) が異なる - Exemplar : p(x¦k) (kに含まれる全て要素の類似度との合計) - Prototype : p(x¦k) (代表点との類似度)‣ Dirichlet Process Mixture においてbase measureを変化させたもの
  • 34. 腑に落ちない(微妙な)ところ‣ 人間の心が本当にこんな確率モデルで記述出来るの?‣ 様々な都合の良い(?)仮定を置いている - 赤ちゃんは,これまでに聞いた全ての文を頭の中に記憶して,その分割に関する 事後分布を計算することが出来る? - MCMCはコンピュータに数時間∼数週間)かかるのに,人間には一瞬? (ベイズの最適化問題は全く凸ではない)‣ Bowers & Davis の批判は,まさにこの辺り
  • 35. Bowers & Davis (2012) のabstractAccording to Bayesian theories in psychology and neuroscience, minds and brains are (near)optimal in solving a wide range of tasks. We challenge this view and argue that moretraditional, non-Bayesian approaches are more promising. We make 3 main arguments. First,we show that the empirical evidence for Bayesian theories in psychology is weak. Thisweakness relates to the many arbitrary ways that priors, likelihoods, and utility functions canbe altered in order to account for the data that are obtained, making the models unfalsifiable.It further relates to the fact that Bayesian theories are rarely better at predicting datacompared with alternative (and simpler) non-Bayesian theories. Second, we show that theempirical evidence for Bayesian theories in neuroscience is weaker still. There are impressivemathematical analyses showing how populations of neurons could compute in a Bayesianmanner but little or no evidence that they do. Third, we challenge the general scientificapproach that characterizes Bayesian theorizing in cognitive science. A common premise isthat theories in psychology should largely be constrained by a rational analysis of what themind ought to do. We question this claim and argue that many of the important constraintscome from biological, evolutionary, and processing (algorithmic) considerations that have noadaptive relevance to the problem per se. In our view, these factors have contributed to thedevelopment of many Bayesian “just so” stories in psychology and neuroscience; that is,mathematical analyses of cognition that can be used to explain almost any behavior asoptimal.
  • 36. いくつかの言葉‣ optimal - 人間の行動が,常に最前の行動をとる,ということ - 単語分割であれば,事後分布に従った分割を常に考える,ということ‣ optimal learner - ベイズモデルは,全ての情報を使って完全な推論を行うという意味で,optimal - 従ってモデルのことを optimal learner と呼ぶ
  • 37. Bowers & Davis (2012)‣ 非常に長く読みづらい…‣ Griffithsらの返答は,述べられた問題点を回収しつつ,それらへの疑問を 解いている‣ 以降はGriffithsらの論文を紹介しつつ,先に与えた疑問について 考えていく
  • 38. ベイズモデルのゴールは,人間がoptimalである ことを示すことである?‣ ベイズモデルの目的はそうではない (Griffiths et al.)‣ では何のために,人間の行動とモデルを比較するのか? - optimal learner が,与えられた問題に対してどのように振る舞うか?を規定する ため - 人間がどのような問題を解いているのか?を記述することが目的‣ 別の文献では… - 人間がoptimalであるかどうかを論じる前に,optimalなモデルがどのように振る 舞うか定めておかないと,その判断は出来ないのではないか?‣ 何だかよく分からない… - 恐らく次の (Johnson 2012) と同じことを言っている
  • 39. Mark Johnson (2012)‣ A computational model can identify which information sources suffice to do something‣ Synergies in acquisition: - learning word segmentation and syllable structure jointly learns both more accurately than learning each on its own - learning word → object mapping together with word segmentation improves word segmentation accuracy‣ 生成モデルにこんな情報を組み込んだら,こういう現象が観測された, ということが大事 - ベイズモデルだと,そのような情報を陽に記述するので,現象が理解しやすい‣ optimal learner = 組み込んだ情報を最大限に使えることが保証されている‣ 人間も,そこで組み込んだ情報を使っているのではないか?という手掛か りになる
  • 40. Ideal learnability analysis‣ ある特性は,人間が生まれながらに備えているものか?学習によって 得られるものか?‣ ある特定の知識を optimal learner が得られないのであれば,その知識は 人間が生まれたときから持っていると言って良いだろう‣ Chomskyの生得説 (Poverty of stimulus) - 自然言語の文法を,人間は生まれたときから持ち合わせている‣ 教師なし構文解析 - 生の文章からどう頑張っても文法が獲得出来ないことが示せれば,Chomskyの 主張が正しいと言える? - 逆にモデルに特定の情報を組み込むことで文法を獲得出来るなら,赤ちゃんは そういう情報を抽出している,と言えるかもしれない - モデルから仮説を立てて,実際の脳を解析する?
  • 41. Dan Klein (2005)‣ The unsupervised learning of natural language structure - To be clear on this point: the goal of this work is not to produce a psychologically plausible model or simulation. However, while success at the tree induction task does not directly speak to the investigation of the human language faculty, it does have direct relevance to the logical problem of language acquisition, particularly the argument of the poverty of the stimulus, and therefore an indirect relevance to cognitive investigations. In particular, while no such machine system can tell us how humans do learn language, it can demonstrate the presence and strength of statistical patterns which are potentially available to a human learner.‣ 同じような主張をしている
  • 42. Yoav Seginer (2007)‣ Learning syntactic structure - Even when a computational model is clearly not psychologically realistic, its success in learning syntactic structure has important implications to the study of language and language acquisition because such successful learning indicates a relation between the surface structure of a language and its hidden syntactic structure. Even if the method by which this relation is established is not actually used by children acquiring a language, the relation is still an empirical property of the language and may be used by children in some other way in the process of language acquisition.
  • 43. 生物学的な問題‣ ニューロンは確率的な挙動を行えるのか?‣ (省略)
  • 44. 計算言語学から見て
  • 45. 教師なし構文解析というタスク‣ 通常,構文解析は人手で作った正解コーパスから学習する‣ 教師なし学習- 生の文章のみを大量に与えて,構文情報を復元出来るか?- しかし機械は言語に関する情報を何も持ち合わせていないので, めちゃくちゃ難しい- 現在精度は4 5割‣ 工学的意義:正解データを作る必要がなくなれば,少数言語の解析に 役立つ‣ しかし,少数言語の解析でも,多少の言語に関する 常識 を与えてしまっ た方が問題はずっと簡単(半教師あり学習)‣ 工学的な意義が十分に得られないのであれば, 科学的 な貢献がなければ ならないのではないか?
  • 46. 科学的な貢献をするには?‣ いたずらに複雑なモデルを考えるのは,あまり意味がないのでは- 工学的には,複雑なモデルの推論 = 機械学習への貢献,と言えるかもしれない‣ 簡単なモデルで良い性能を出す,ということが重要‣ そのために本質を捉えたモデルの設計を行う- 当たり前のことかも…‣ 分野としての問題も色々ありそう?- 評価方法 (Noah Smith, 2012)- コーパス(赤ちゃんはWall Street Journalは読まない)
  • 47. まとめ‣ 認知科学分野におけるベイズへの非難を受けて,その周辺を調べた- 人間がベイズ的なモデルに従って行動すると仮定して,モデルを組み立てるのは 正しくない(危険)- しかしその部分を認識した上で,optimal learner としてモデルを設計し,挙動を 観測することには意味がある‣ 教師なし学習を通じて,科学への貢献をするには- information source と synergies (Johnson, 2012) を明らかにする- どのような言語現象が,どのようなモデルによって捉えられるか?を明らかにする ことは,計算言語学として可能なはず
  • 48. ご清聴ありがとうございました