• Like
  • Save

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」

  • 13,403 views
Uploaded on

パターン認識と機械学習 (PRML) の第1章、「多項式曲線フィッティング」「確率論」に関しまとめ話した講師資料です。 -PRML復習レーン(第1回) (10/05/01) #PRMLrevenge …

パターン認識と機械学習 (PRML) の第1章、「多項式曲線フィッティング」「確率論」に関しまとめ話した講師資料です。 -PRML復習レーン(第1回) (10/05/01) #PRMLrevenge
hamadakoichi

More in: Technology , Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
No Downloads

Views

Total Views
13,403
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
0
Comments
1
Likes
17

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. PRML Revenge #1 パターン認識と機械学習 §1.1-1.2 “多項式曲線フィッティング” “確率論” hamadakoichi 濱田 晃一 2010/05/01
  • 2. 位置づけ パターン認識と機械学習(PRML)の §1.1–1.2 の内容です PRML Revenge #1 http://atnd.org/events/4115 2
  • 3. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に
  • 4. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に
  • 5. hamadakoichi 濱田晃一 http://iddy.jp/profile/hamadakoichi 5
  • 6. 自己紹介:hamadakoichi 濱田晃一 6
  • 7. 自己紹介:hamadakoichi 濱田晃一 データマイニング+WEB勉強会@東京 主催者です ぜひご参加下さい Google Group: http://groups.google.com/group/webmining-tokyo 7
  • 8. 自己紹介:hamadakoichi 濱田晃一 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り です AGENDA 5/16(日) 12:00 - 21:00 -ソーシャルウェブとレコメンデーション (講師:@hamadakoichi) (60分) -レコメンデーション活用編-実開発者が語る:画像、広告、そして未来へ-(講師:@karubi)(60分) -はじめてでもわかるWEB行動マイニング (講師:@kur) (60分) -Hadoop!-入門とクラウドでの活用-(講師:@yanaoki)(60分) -はじめてでもわかるYahoo! Web API入門(講師:@yokkuns) (60分) -Wikipediaによるテキストマイニング入門(講師:@nokuno) (60分) -Webと物理的な世界をつなぐ-WebとGainerの連携-(講師:@oga_shin) (60分) -参加者の声・ディスカッション:WEBの未来へ」 (進行:@hamadakoichi) (30分) 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 8
  • 9. 自己紹介:hamadakoichi 濱田晃一 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り です AGENDA 5/16(日) 12:00 - 21:00 -ソーシャルウェブとレコメンデーション (講師:@hamadakoichi) (60分) -レコメンデーション活用編-実開発者が語る:画像、広告、そして未来へ-(講師:@karubi)(60分) -はじめてでもわかるWEB行動マイニング (講師:@kur) (60分) -Hadoop!-入門とクラウドでの活用-(講師:@yanaoki)(60分) -はじめてでもわかるYahoo! Web API入門(講師:@yokkuns) (60分) -Wikipediaによるテキストマイニング入門(講師:@nokuno) (60分) -Webと物理的な世界をつなぐ-WebとGainerの連携-(講師:@oga_shin) (60分) -参加者の声・ディスカッション:WEBの未来へ」 (進行:@hamadakoichi) (30分) 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 9
  • 10. 自己紹介:hamadakoichi 濱田晃一 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り です AGENDA 5/16(日) 12:00 - 21:00 -ソーシャルウェブとレコメンデーション (講師:@hamadakoichi) (60分) -レコメンデーション活用編-実開発者が語る:画像、広告、そして未来へ-(講師:@karubi)(60分) -はじめてでもわかるWEB行動マイニング (講師:@kur) (60分) -Hadoop!-入門とクラウドでの活用-(講師:@yanaoki)(60分) -はじめてでもわかるYahoo! Web API入門(講師:@yokkuns) (60分) -Wikipediaによるテキストマイニング入門(講師:@nokuno) (60分) -Webと物理的な世界をつなぐ-WebとGainerの連携-(講師:@oga_shin) (60分) -ディスカッション:WEBの未来へ (進行:@hamadakoichi) (30分) 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 10
  • 11. 自己紹介:hamadakoichi 濱田晃一 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り です 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 11
  • 12. 自己紹介:hamadakoichi 濱田晃一 5/16(日) 第4回 データマイニング+WEB勉強会 満員御礼!ありがとうございます! 広い会場探索中。USTREAM配信も行います 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 12
  • 13. 自己紹介:hamadakoichi 濱田晃一 5/16(日) 第4回 データマイニング+WEB勉強会 満員御礼!ありがとうございます! 広い会場募集中。USTREAM配信も行います 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 13
  • 14. データマイニング+WEB勉強会@東京を 発表者・参加者にとって より有意義な場にしたい 3つの進行方針 14
  • 15. 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 2.理解: 進行を急がない。分からないところはすぐ質問。 講師・各メンバーからの返答で、みなで理解を深めることを優先する。 3.議論: 議論時間をしっかりとる。 各分野の意見の共有、皆での発想・創造を優先する。 全員でのフラットな議論。講師にとっても有意義な場となるようにする。 15
  • 16. 自己紹介:hamadakoichi 濱田晃一 16
  • 17. 自己紹介:hamadakoichi 濱田晃一 理論物理 博士 量子統計場の理論 Statistical Field Theory Spontaneously Time-Reversal Symmetry Breaking Anisotropic Massless Dirac Fermions 博士論文(2004/03): http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 17
  • 18. 自己紹介:hamadakoichi 濱田晃一 文部大臣に褒められた 元 文部大臣・法務大臣 六法全書著者・元法学政治学研究科長 森山眞弓さん 菅野和夫さん 18
  • 19. 自己紹介:hamadakoichi 濱田晃一 Los Angelesでプロダンサーに褒められた ・HIP HOP/House ダンス歴13年 ・ダンス開始後 1年半でL.A.でプロダンサーに褒められる Youtube Channel: http://www.youtube.com/hamadakoichi 19
  • 20. 自己紹介:hamadakoichi 濱田晃一 毎週末3時間ダンスコーチをしています ■過去、東京と京都でも ダンス部を創設。 コーチをしていました 駒場物理ダンス部 京都大学基礎物理学研究所ダンス部 部長兼コーチ 部長兼コーチ 現在: 毎週末 3時間ダンスコーチ Youtube Channel: http://www.youtube.com/hamadakoichi 20
  • 21. 自己紹介:hamadakoichi 濱田晃一 @naoya_t さんも 明日5/2からダンス部参画 現在: 毎週末 3時間ダンスコーチ Youtube Channel: http://www.youtube.com/hamadakoichi 21
  • 22. 数理解析手法の実ビジネス適用 数理解析手法を実ビジネス適用する 方法論・システムを作り上げてきました 22
  • 23. 数理解析手法の実ビジネス適用 数理解析手法を実ビジネス適用する 方法論・システムを作り上げてきました 主な領域 ◆活動の数理モデル化・解析手法 ◆業務プロセス分析手法・再構築手法 ◆業務プロセス実行制御・実績解析システム … K. Hamada, F.Kimura, M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada, "Unified graph representation of processes “Decoupling Executions in Navigating Manufacturing for scheduling with flexible resource Processes for Shortening Lead Time and Its Implementation assignment", to an Unmanned Machine Shop”, to be published in CIRP ICMS (2010). CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007) 23
  • 24. 数理解析手法の実ビジネス適用:例 一品一様の業務プロセスの 動的なプロセス制御数理体系を構築 全体生産リードタイム中央値を 1/2.7に短縮 設計開始~頭だし出荷リードタイム 体系適用 500 適用後 設計開始~頭だし 出荷C T 360.4h(15.0日) 400 1/2.7 300 200 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 141.6h(5.9日) 00 00 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 0 7 4 1 8 5 1 8 5 2 9 6 3 0 /2 /2 /0 /1 /1 /2 /0 /0 /1 /2 /2 /0 /1 /2 / 09 / 09 / 10 / 10 / 10 / 10 / 11 / 11 / 11 / 11 / 11 / 12 / 12 / 12 04 04 04 04 04 04 04 04 04 04 04 04 04 04 20 20 20 20 20 20 20 20 20 20 20 20 20 20 週集計開始日時 24
  • 25. 数理解析手法の実ビジネス適用:例 一品一様の業務プロセスの 動的なプロセス制御数理体系を構築 変動性から生じる動的な課題 ・リソースの競合 ・滞留 ・納期遅延 … 一品一様な業務プロセスを含む 統計解析・制御数理モデル ・統計的な有効変数算出 ・統計数理モデル化 -優先順位制御 -実行タイミング制御 -統計フィードバック -適正リソース量算出 ・予測数理体系 論文(体系の一部) M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada, “Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementation to an Unmanned Machine Shop”, CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007) 25
  • 26. 数理解析手法の実ビジネス適用:例 活動の統一グラフモデルを構築 K.Hamada, F.Kimura, Unified graph representation of processes for scheduling with flexible resource assignment, to be published in CIRP 2010 青字:割付モデル属性 [ ] : Optional Node ・priority(優先度) Edge ・duration(予定時間) [・earliest(再早開始日時) ] Process Edge Process [・deadline(納期) ] [・or(条件集約数) ] 前プロセスの終了後に後プロセスが プロセスを表す 開始できること表す ・attributes(属性) preemptable(中断可否), successive(引継ぎ可否) Uses Edge workload(作業負荷) Processが使用する uses uses uses uses uses uses Assign Region を表す Assign Region Assigns from Edge 同一Resourceを割付け続ける Assign Regionに assigns from assigns from 指定Resourceの子Resource集合の 範囲を表す assigns assigns 中から割付けることを示す 工場01 [process] has has [startDate(開始日時)] [endDate(終了日時)] Assigns Edge 型01 仕上WG StartDateからEndDateまでの間 Resource has Assign RegionにResourceを 割付対象要素を表す has has has has has has 割付けることを表す ・capacity(容量) ・calender(カレンダー) CAVI01 CORE01 … 山田さん 田中さん 鈴木さん ・attributes(属性) Has Edge 東さん Resourceの所有関係を表す 26
  • 27. 数理解析手法の実ビジネス適用:例 活動の統一グラフモデルを構築 K.Hamada, F.Kimura, Unified graph representation of processes for scheduling with flexible resource assignment, to be published in CIRP 2010 27
  • 28. 5月上旬の 講演/トーク予定 28
  • 29. 2010年5月上旬の講演・トーク予定 ぜひお越しください 日 コミュニティ 会情報 2010/05/07(金) Linux Business Initiative 業務プロセス改革とデータマイ 2010年度総会・ビジネス ニング 講演会 2010/05/09(日) Tsukuba.R #7 はじめてでもわかる回帰分析 (線形回帰、非線形回帰ともに) 2010/05/16(日) データマイニング+WEB勉 ソーシャルウェブとレコメンデー 強会@東京 ション 29
  • 30. 講演:2010/05/07(金) Linux Business Initiative 2010年度総会・ビジネス講演会 「業務プロセス改革とデータマイニング」 蓄積データの有効活用 LBIビジネス講演会 http://www.lbi.gr.jp/modules/eguide/event.php?eid=31 30
  • 31. 講演:2010/05/09(日) Tsukuba.R #7 「はじめてでも分かる 回帰分析」 事象発生の関数形の推測 ・線形回帰(単・重) ・非線形回帰 Tokyo.R #4 http://atnd.org/events/3930 31
  • 32. 講演:2010/05/16(日) データマイニング+WEB勉強会@東京 「ソーシャルウェブとレコメンデーション」 第4回 #TokyoWebmining http://atnd.org/events/4319 32
  • 33. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 33
  • 34. 問題設定 回帰問題を扱う 測定変数 x から目標変数t を予測する 測定変数 予測 目標変数 34
  • 35. 多項式曲線フィッティング 線形モデル 多項式を用いたデータフィッティング 多項式 ・M:多項式の次数 ・w :多項式の係数ベクトル 訓練データ 多項式曲線 35
  • 36. 多項式曲線フィッティング 訓練データに多項式をあてはめ 係数を算出 2乗和誤差関数を最小化する 2乗和誤差関数 例:関数 sin(2πx) 36
  • 37. 多項式曲線フィッティング 過学習 訓練データには適合するが予測精度が悪いモデルになる 過学習 例:関数 sin(2πx) 9次多項式 3次数多項式 全データをとおり 誤差 E(w*)= 0 となるが 発振したグラフで関数 sin(2πx)には過剰で不適切なモデル 37
  • 38. データ集合サイズとの関係 データ集合を大きくすると より複雑・柔軟なモデルをデータに適合できる データ数を増やすと過学習の問題が減る 例: 9次多項式 データ数: 100 データ数: 15 38
  • 39. データ集合サイズとの関係 モデルの複雑度は解くべき問題に応じ選ぶべき ベイズモデルでは 訓練データセットから有効パラメータ数が算出される ※詳しくは「§3.5エビデンス近似」を参照 訓練データセット 正則化二乗和誤差関数の固有値 有効パラメータ数γ 有効パラメータ数γとパラメータwi 39
  • 40. 正則化 正則化 誤差関数に Penalty項を付加し係数が大きな値になるのを防ぐ Penalty項 追加 (正則化) 誤差関数 λ:ペナルティ項係数 40
  • 41. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 41
  • 42. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 42
  • 43. 確率論 (Probability Theory) 不確実性に関する定量化と操作の枠組み パターン認識の基礎の中心 43
  • 44. 確率論 (Probability Theory) 確率の基本法則 ◆加法定理 ◆乗法定理 44
  • 45. 確率論 (Probability Theory) 確率の基本法則 ◆加法定理 「事象xiが発生する確率」は 事象xiが発生する全ての可能性の足し合わせ ◆乗法定理 45
  • 46. 確率論 (Probability Theory) 確率の基本法則 ◆加法定理 「事象xiが発生する確率」は 事象xiが発生する全ての可能性の足し合わせ ◆乗法定理 46
  • 47. 確率論 (Probability Theory) 確率の基本法則 ◆加法定理 「事象xiが発生する確率」は 事象xiが発生する全ての可能性の足し合わせ ◆乗法定理 「事象xiとyjが発生する確率」は 「事象xiが発生する確率」と「xiが起こった上でyjが発生する確率」 の掛け合わせ 47
  • 48. 確率論 (Probability Theory) 確率の基本法則 ◆加法定理 「事象xiが発生する確率」は 事象xiが発生する全ての可能性の足し合わせ ◆乗法定理 「事象xiとyjが発生する確率」は 「事象xiが発生する確率」と「xiが起こった上でyjが発生する確率」 の掛け合わせ 条件付き確率 「xiが起こった上でyjが発生する確率」 48
  • 49. 確率論 (Probability Theory) 確率の基本法則 ◆加法定理 「事象xiが発生する確率」は 事象xiが発生する全ての可能性の足し合わせ ◆乗法定理 「事象xiとyjが発生する確率」は 「事象xiが発生する確率」と「xiが起こった上でyjが発生する確率」 の掛け合わせ 条件付き確率 「xiが起こった上でyjが発生する確率」 49
  • 50. ベイズの定理 乗法定理と対称性から派生される 条件付き確率間の関係性 パターン認識で重要な役割を果たす ベイズの定理 50
  • 51. 事前確率と事後確率 事前確率と事後確率 事前確率 ある事象の観測前の確率 事後確率 ある事象の観測後の確率 (条件付き確率) 51
  • 52. 確率密度 確率密度 連続変数に関する確率記述 積分値が確率になる 確率密度 積分 確率 非負条件 規格化条件 52
  • 53. 確率密度 累積分布関数 xがある値zまでの値をとる確率 xが(-∞, z) の区間に入る確率 53
  • 54. 連続変数での加法定理・乗法定理 連続変数での加法定理・乗法定理 ◆加法定理 ◆乗法定理 ※厳密には測度論が必要 54
  • 55. 測度論 (Measure Theory) 与えられた集合の部分集合に対する 大きさ、容積、確率などへの射影関数を扱う 55
  • 56. 測度論 (Measure Theory) 与えられた集合の部分集合に対する 大きさ、容積、確率などへの射影関数を扱う 応用 量子統計場の理論 (理論物理) 博士論文(2004/03): http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 56
  • 57. 測度論 (Measure Theory) 与えられた集合の部分集合に対する 大きさ、容積、確率などへの射影関数を扱う 応用 量子統計場の理論 (理論物理) 微小世界の法則は 確率的に振舞う 博士論文(2004/03): http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 57
  • 58. 測度論 (Measure Theory) 与えられた集合の部分集合に対する 大きさ、容積、確率などへの射影関数を扱う 応用 量子統計場の理論 (理論物理) 微小世界の法則は 確率的に振舞う 無限次元の経路積分 各事象変数に対する 無限次元の汎関数積分 博士論文(2004/03): http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 58
  • 59. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 59
  • 60. 期待値 期待値 関数 f(x)の確率分布 p(x)下での平均値 条件付き期待値 1変数期待値 条件付き期待値 60
  • 61. 分散 分散 期待値周辺でのばらつき尺度 分散 変数自身の分散 61
  • 62. 共分散 共分散 複数確率変数の期待値周辺でのばらつき尺度 1変数 多変数 62
  • 63. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 63
  • 64. ベイズ確率 ベイズ的な視点 確率は不確実性の度合いを与える 不確実性を定量的に表現し、新たな証拠で修正 最適な決定・行動を行う 64
  • 65. ベイズ確率 ベイズ的な視点 確率は不確実性の度合いを与える 不確実性を定量的に表現し、新たな証拠で修正 最適な決定・行動を行う 仮説 評価 事前確率分布 p(w)に取り込む Dを観測後の 観測データ 事後分布 p(w|D) 条件付確率 p(D|w) 65
  • 66. ベイズ確率 ベイズ的な視点 確率は不確実性の度合いを与える 不確実性を定量的に表現し、新たな証拠で修正 最適な決定・行動を行う 仮説 評価 事前確率分布 p(w)に取り込む Dを観測後の 観測データ 事後分布 p(w|D) 条件付確率 p(D|w) ベイズの定理 66
  • 67. 尤度関数(likelihood function) 尤度(ゆうど)関数 パラメータw固定時の 観測データ集合Dの起こりやすさ 事後確率∝尤度×事前確率 (確率密度) 67
  • 68. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 ベイズ的視点 68
  • 69. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ベイズ的視点 69
  • 70. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ベイズ的視点 唯一の実観測データ集合Dがある。 パラメータに関する不確実性は wの確率分布として表現される 70
  • 71. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ベイズ的視点 唯一の実観測データ集合Dがある。 パラメータに関する不確実性は wの確率分布として表現される 71
  • 72. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ⇒最尤推定: wは p(D|w)を最大にする値 (観測データ集合の確率を最大にするwを選ぶことに対応) ベイズ的視点 唯一の実観測データ集合Dがある。 パラメータに関する不確実性は wの確率分布として表現される 72
  • 73. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ⇒最尤推定: wは p(D|w)を最大にする値 (観測データ集合の確率を最大にするwを選ぶことに対応) ※機械学習の分野: 誤差関数の最小化に対応 誤差関数 =符号反転した尤度関数 ベイズ的視点 唯一の実観測データ集合Dがある。 パラメータに関する不確実性は wの確率分布として表現される 73
  • 74. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ⇒最尤推定: wは p(D|w)を最大にする値 (観測データ集合の確率を最大にするwを選ぶことに対応) ※機械学習の分野: 誤差関数の最小化に対応 誤差関数 =符号反転した尤度関数 ⇒誤差範囲の算出:ブートストラップ データ集合からランダムに複数回、データ部分集合を抽出。 データ部分集合の集合に対する予測の変動を見る ベイズ的視点 唯一の実観測データ集合Dがある。 パラメータに関する不確実性は wの確率分布として表現される 74
  • 75. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ⇒最尤推定: wは p(D|w)を最大にする値 (観測データ集合の確率を最大にするwを選ぶことに対応) ※機械学習の分野: 誤差関数の最小化に対応 誤差関数 =符号反転した尤度関数 ⇒誤差範囲の算出:ブートストラップ データ集合からランダムに複数回、データ部分集合を抽出。 データ部分集合の集合に対する予測の変動を見る ベイズ的視点 唯一の実観測データ集合Dがある。 パラメータに関する不確実性は wの確率分布として表現される 75
  • 76. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ⇒最尤推定: wは p(D|w)を最大にする値 (観測データ集合の確率を最大にするwを選ぶことに対応) ※機械学習の分野: 誤差関数の最小化に対応 誤差関数 =符号反転した尤度関数 ⇒誤差範囲の算出:ブートストラップ データ集合からランダムに複数回、データ部分集合を抽出。 データ部分集合の集合に対する予測の変動を見る ベイズ的視点 唯一の実観測データ集合Dがある。 パラメータに関する不確実性は wの確率分布として表現される ⇒自然な事前知識の導入:事前分布を用いる。 76
  • 77. 尤度関数(likelihood function) 尤度関数 p(D|w)の役割 頻度主義的視点 wを固定パラメータと考えて推定量として定める。 wの誤差範囲は可能なデータ集合Dの分布を考慮し得られる ⇒最尤推定: wは p(D|w)を最大にする値 (観測データ集合の確率を最大にするwを選ぶことに対応) ※機械学習の分野: 誤差関数の最小化に対応 誤差関数 =符号反転した尤度関数 ⇒誤差範囲の算出:ブートストラップ データ集合からランダムに複数回、データ部分集合を抽出。 データ部分集合の集合に対する予測の変動を見る ベイズ的視点 唯一の実観測データ集合Dがある。 パラメータに関する不確実性は wの確率分布として表現される ⇒自然な事前知識の導入:事前分布を用いる。 77
  • 78. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 78
  • 79. ガウス分布 ガウス分布 連続変数の確率分布で最も重要な分布 1次元ガウス分布 平均 (mean): μ 分散 (variance): σ2 精度パラメータ(precision parameter):β=1/σ2 79
  • 80. ガウス分布 ガウス分布 連続変数の確率分布で最も重要な分布 1次元ガウス分布 平均 (mean): μ 分散 (variance): σ2 精度パラメータ(precision parameter):β=1/σ2 非負条件 規格化条件 80
  • 81. ガウス分布 ガウス分布 連続変数の確率分布で最も重要な分布 1次元ガウス分布 平均 (mean): μ 分散 (variance): σ2 精度パラメータ(precision parameter):β=1/σ2 期待値 2次モーメント 分散 81
  • 82. 多次元ガウス分布 多次元ガウス分布 N次元ガウス分布 変数ベクトル: 平均ベクトル: 分散共分散行列: 82
  • 83. 多次元ガウス分布 多次元ガウス分布 N次元ガウス分布 x1, x2, .. xnが同じ分布から 独立に生成される場合 83
  • 84. 多次元ガウス分布 多次元ガウス分布 N次元ガウス分布 x1, x2, .. xnが同じ分布から 独立に生成される場合 独立同分布 84
  • 85. 多次元ガウス分布 多次元ガウス分布 N次元ガウス分布 x1, x2, .. xnが同じ分布から 独立に生成される場合 独立同分布 μ,σ2の関数とみなす ⇒ 尤度関数 85
  • 86. 最尤推定 最尤推定 (対数)尤度関数の最大化 対数尤度関数 μの最尤推定 ⇒μに関する最大化: 最尤解:サンプル平均 σの最尤推定 ⇒σに関する最大化 最尤解:サンプル分散 86
  • 87. 最尤推定 分散の補正 真の分散は最尤解に N/(N-1)を掛け算出される 平均μ 分散σ 補正 ⇒ ガウス分布の分散の最尤推定で バイアスがかかる 87
  • 88. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 88
  • 89. 曲線フィッティング再訪 目標変数値に対する不確実性を確率分布で表す 平均が多項式曲線 y(x,w)に等しいガウス分布 訓練データ 目標値ベクトル 精度パラメータ 89
  • 90. 最尤推定と予測分布 最尤推定し予測分布を導出する 尤度関数 対数尤度関数 90
  • 91. 最尤推定と予測分布 最尤推定し予測分布を導出する 尤度関数 対数尤度関数 最尤推定 (対数)尤度の最大化 = 二乗和誤差の最小化 β, wの最尤解 βML, wML の導出 91
  • 92. 最尤推定と予測分布 最尤推定し予測分布を導出する 尤度関数 対数尤度関数 最尤推定 (対数)尤度の最大化 = 二乗和誤差の最小化 β, wの最尤解 βML, wML の導出 予測分布 92
  • 93. 最大事後確率推定 多項式係数 w の事前分布を導入 事後分布最大化する w を求める 事前分布 M:多項式の次数 (M+1がwの要素数) 超パラメータ α:モデルパラメータの分布の精度パラメータ 93
  • 94. 最大事後確率推定 多項式係数 w の事前分布を導入 事後分布最大化する w を求める 事前分布 M:多項式の次数 (M+1がwの要素数) 超パラメータ α:モデルパラメータの分布の精度パラメータ ベイズの定理: 事後分布∝事前分布×尤度関数 94
  • 95. 最大事後確率推定 多項式係数 w の事前分布を導入 事後分布最大化する w を求める 事前分布 M:多項式の次数 (M+1がwの要素数) 超パラメータ α:モデルパラメータの分布の精度パラメータ ベイズの定理: 事後分布∝事前分布×尤度関数 最大事後確率推定: 事後分布を最大化する wを求める 次の指数部分を符号反転した関数の 最小化と等価 95
  • 96. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 96
  • 97. ベイズ曲線フィッティング ベイズ的扱い w に関する全ての確率経路を積分する ベイズ的扱い: 事後分布 事前分布 尤度関数 パラメータwの事後分布 97
  • 98. ベイズ曲線フィッティング ベイズ的扱い w に関する全ての確率経路を積分する ベイズ的扱い: 事後分布 事前分布 尤度関数 パラメータwの事後分布 平均が多項式曲線 y(x,w)に等しいガウス分布 規格化条件から算出 98
  • 99. ベイズ曲線フィッティング ベイズ的扱い w に関する全ての確率経路を積分する ベイズ的扱い: 事後分布 事前分布 尤度関数 パラメータwの事後分布 平均が多項式曲線 y(x,w)に等しいガウス分布 規格化条件から算出 積分:解析的に行える 99
  • 100. ベイズ曲線フィッティング ベイズ的扱い w に関する全ての確率経路を積分する ベイズ的扱い: 事後分布 事前分布 尤度関数 パラメータwの事後分布 平均が多項式曲線 y(x,w)に等しいガウス分布 規格化条件から算出 積分:解析的に行える 予測分布: ガウス分布 ここで 単位行列: 平均 M+1次元ベクトル: 分散 行列 100
  • 101. ベイズ曲線フィッティング 予測分布 結果例 予測分布: 多項式次数 M=9の結果 α = 5 x 10^{-3} β = 11.1 予測分布の平均 平均周りの ±1標準偏差領域 101
  • 102. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 102
  • 103. 最後に 蓄積されたデータを有効活用してきたい 103
  • 104. 最後に 蓄積されたデータを有効活用してきたい Google Group: http://groups.google.com/group/webmining-tokyo 104
  • 105. 最後に データマイニング+WEB勉強会 発表者を募集しています 連絡 Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 105
  • 106. 最後に 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り です 106
  • 107. 最後に 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り ぜひご参加下さい。USTREAM配信します AGENDA 5/16(日) 12:00 - 21:00 -ソーシャルウェブとレコメンデーション (講師:@hamadakoichi) (60分) -レコメンデーション活用編-実開発者が語る:画像、広告、そして未来へ-(講師:@karubi)(60分) -はじめてでもわかるWEB行動マイニング (講師:@kur) (60分) -Hadoop!-入門とクラウドでの活用-(講師:@yanaoki)(60分) -はじめてでもわかるYahoo! Web API入門(講師:@yokkuns) (60分) -Wikipediaによるテキストマイニング入門(講師:@nokuno) (60分) -Webと物理的な世界をつなぐ-WebとGainerの連携-(講師:@oga_shin) (60分) -ディスカッション:WEBの未来へ (進行:@hamadakoichi) (30分) 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 107
  • 108. ご清聴ありがとうございました 108
  • 109. AGENDA ◆自己紹介 ◆多項式曲線フィッティング ◆確率論 ◆確率密度 ◆期待値と分散 ◆ベイズ確率 ◆ガウス分布 ◆曲線フィッティング再訪 ◆ベイズ曲線フィッティング ◆最後に 109
  • 110. 目的: データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム 110