Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2013 JOI春合宿 講義6 機械学習入門

1,519 views

Published on

  • Be the first to comment

2013 JOI春合宿 講義6 機械学習入門

  1. 1. JOI 春合宿 講義6 機械学習入門 2013/03/23 山下 洋史 @utatakiyoshi
  2. 2. おしながき ・9:00 9:30(ぐらい) イントロダクション ・9:30 11:40 コンテスト (途中自由に休憩してもらってかまいません) ・11:40 12:00 結果発表・まとめ2 2013春合宿 講義6 機械学習入門 2013/03/24
  3. 3. イントロダクション Part1: 学習とは Part2: 学習の性能 Part3: 簡単な手法の紹介 Part4: 今日の問題の紹介3 2013春合宿 講義6 機械学習入門 2013/03/24
  4. 4. イントロダクション Part1: 学習とは4 2013春合宿 講義6 機械学習入門 2013/03/24
  5. 5. みなさん5 2013春合宿 講義6 機械学習入門 2013/03/24
  6. 6. 4日間おつかれさまでした6 2013春合宿 講義6 機械学習入門 2013/03/24
  7. 7. 皆さんが4日間取り組んだ問題は 基本的に 『ちゃんとした問題』 でした7 2013春合宿 講義6 機械学習入門 2013/03/24
  8. 8. 『ちゃんとした問題』? 代表選抜なんだから, 『ふわっとした問題』 だったら困るだろ! いい加減にしろ!8 2013春合宿 講義6 機械学習入門 2013/03/24
  9. 9. それはそうなのですが, これはそういう意味ではなく,9 2013春合宿 講義6 機械学習入門 2013/03/24
  10. 10. 『ちゃんとした問題』: 論理や計算や数学の世界に属していて その世界の中だけで答えが決まる問題10 2013春合宿 講義6 機械学習入門 2013/03/24
  11. 11. 論理や計算や数学の世界11 2013春合宿 講義6 機械学習入門 2013/03/24
  12. 12. 現実の世界 論理や計算や数学の世界 私たちは論理や計算や数学の世界に そのまま住んでいるわけではありません12 2013春合宿 講義6 機械学習入門 2013/03/24
  13. 13. 現実の世界 論理や計算や数学の世界 モデル化13 2013春合宿 講義6 機械学習入門 2013/03/24
  14. 14. モデル化?14 2013春合宿 講義6 機械学習入門 2013/03/24
  15. 15. モデル化: 現実の世界を数学の世界に翻訳すること ・いろいろなやり方がある ・ただしある程度の目的はある ・目的は現実世界に即して決まる  (論理や計算や数学の世界からは分からない)15 2013春合宿 講義6 機械学習入門 2013/03/24
  16. 16. Example: 車のデザイン ・早く走る車が良い   → エンジン出力・流体力学... ・安くて丈夫な車が良い   → 耐久性・製作コスト... 現実と数学の繋ぎ方には複数のやり方が考えられる 数学の世界からは早く走る車が良いか安くて丈夫な 車が良いかは分からない16 2013春合宿 講義6 機械学習入門 2013/03/24
  17. 17. 学習 現実の事象→データ→知識 ・天気  →毎日の雲の状態と雨が降ったかどうか  →「黒い雲が多ければ雨が降りそう」 ・物理学  →リンゴが木から落ちる  →「重力"F=mg"」 (リンゴが木から落ちるというデータだけではこういうモデル化はできなさそうですが…) この流れを計算機の力を借りてやろう17 2013春合宿 講義6 機械学習入門 2013/03/24
  18. 18. 現実の世界 学習の流れ 論理や計算や数学の世界 知識 フィードバック 結果 活用 計算機 での処理 問題を定式化 現実の事象 データ データをとる18 2013春合宿 講義6 機械学習入門 2013/03/24
  19. 19. 始めのステップで 問題の構造を捉えそこねて 無駄なデータを集めたりすると その後で何をやってもうまくいきません (天気を予想するのに昨日の 夕飯の情報は全く使えない) 有用な情報は何か? をちゃんと考えなければならない19 2013春合宿 講義6 機械学習入門 2013/03/24
  20. 20. なので, 対象の現象や目的についての知識 が必要20 2013春合宿 講義6 機械学習入門 2013/03/24
  21. 21. 論理や計算や数学の世界から現実の世界 に開いている 『ふわっとした問題』21 2013春合宿 講義6 機械学習入門 2013/03/24
  22. 22. 機械学習におけるタスクの 主な分類 教師あり学習 教師なし学習 強化学習22 2013春合宿 講義6 機械学習入門 2013/03/24
  23. 23. 教師あり学習 入力と出力の組がたくさんある ↓ 未知の入力に対しても正しい出力をするようにしたい23 2013春合宿 講義6 機械学習入門 2013/03/24
  24. 24. 教師なし学習 入力しかない ↓ これといった「正解」は無いが, 「望ましい」出力をしたい ex.クラスタリング24 2013春合宿 講義6 機械学習入門 2013/03/24
  25. 25. 強化学習 何か行動を起こす ↓ 結果が帰ってくる ↓ 自発的にデータを取りながらよりよい 結果をもたらす行動を探す ゲームAIとか…25 2013春合宿 講義6 機械学習入門 2013/03/24
  26. 26. 今回のコンテストでは 教師あり学習 の カテゴリ分類問題 のみを扱います26 2013春合宿 講義6 機械学習入門 2013/03/24
  27. 27. イントロダクション Part2: 学習の性能27 2013春合宿 講義6 機械学習入門 2013/03/24
  28. 28. 学習の性能はどうやって 測ればよいでしょうか?28 2013春合宿 講義6 機械学習入門 2013/03/24
  29. 29. 学習の性能はどうやって 測ればよいでしょうか? 「持ってるデータで全部うまく   いけばいいんじゃないの」29 2013春合宿 講義6 機械学習入門 2013/03/24
  30. 30. ほんとうに?30 2013春合宿 講義6 機械学習入門 2013/03/24
  31. 31. Example1: 男子と女子の身長と体重のデータ 男女を分類したい 体重 男子 女子 (データは架空の物です) 身長31 2013春合宿 講義6 機械学習入門 2013/03/24
  32. 32. ウオオと線を引いて区切る 全部正しく分類できた! 常勝 !!! 体重 身長32 2013春合宿 講義6 機械学習入門 2013/03/24
  33. 33. よく考えると意味不明 体重 身長が高いなら男子 ちょっと高いなら女子 まあまあ高いなら男子 →なんで? 身長33 2013春合宿 講義6 機械学習入門 2013/03/24
  34. 34. 新しいデータについてもうまくいかない 体重 身長34 2013春合宿 講義6 機械学習入門 2013/03/24
  35. 35. (こう分割すればそれっぽくなる) 体重 身長35 2013春合宿 講義6 機械学習入門 2013/03/24
  36. 36. Example2: 3/20の6 18時の1時間毎の気温 時刻 6 7 8 9 10 11 12 13 14 15 16 17 18 気温 15.3 15.6 15.8 16.5 17.9 18.8 18.3 19.9 19.5 20.6 20.0 19.8 19.7 中間の時間の気温を予想しよう!36 2013春合宿 講義6 機械学習入門 2013/03/24
  37. 37. x:時刻 y:気温 y(x)は多項式とする y=a+bx+cx^2+...+mx^12 未知数が13個・データ点が13個 適当に代入して連立方程式を解く データ点全部通る! 常勝!!!37 2013春合宿 講義6 機械学習入門 2013/03/24
  38. 38. やってみた38 2013春合宿 講義6 機械学習入門 2013/03/24
  39. 39. やってみた39 2013春合宿 講義6 機械学習入門 2013/03/24
  40. 40. 17時30分 54℃ 6時30分 やってみた 40℃40 2013春合宿 講義6 機械学習入門 2013/03/24
  41. 41. 54℃41 2013春合宿 講義6 機械学習入門 2013/03/24
  42. 42. 42 2013春合宿 講義6 機械学習入門 2013/03/24
  43. 43. 43 2013春合宿 講義6 機械学習入門 2013/03/24
  44. 44. 44 2013春合宿 講義6 機械学習入門 2013/03/24
  45. 45. (アカン)45 2013春合宿 講義6 機械学習入門 2013/03/24
  46. 46. このように, 学習データに対しては成功するが, 新しいデータに対しては失敗してしまう46 2013春合宿 講義6 機械学習入門 2013/03/24
  47. 47. これを 過学習 といいます47 2013春合宿 講義6 機械学習入門 2013/03/24
  48. 48. また, 新しいデータに対しても成功できる能力 はんか これを汎化性能といいます 現実にフィードバックして使いたいので, 過学習せずに汎化性能を高めたい48 2013春合宿 講義6 機械学習入門 2013/03/24
  49. 49. 汎化性能の測り方49 2013春合宿 講義6 機械学習入門 2013/03/24
  50. 50. 汎化性能 is 新しいデータに対する適応力50 2013春合宿 講義6 機械学習入門 2013/03/24
  51. 51. 汎化性能 is 新しいデータに対する適応力 →新しいデータを持ってきて うまく行くか見ればよい51 2013春合宿 講義6 機械学習入門 2013/03/24
  52. 52. とはいえ,新しいデータは正解がわからない から,汎化性能のテストには使えない52 2013春合宿 講義6 機械学習入門 2013/03/24
  53. 53. なので,データを2つに分ける ・トレーニングセット ・検証用セット トレーニングセットで学習し, 検証用セットで汎化性能を測定する53 2013春合宿 講義6 機械学習入門 2013/03/24
  54. 54. 使えるデータが少ない時 トレーニングセットを出来るだけ大きく取りたい データを N 分割し, 1 個を検証セット N-1 個をトレーニングセット にする T T T T T V T T T T 検証セットを変えながら繰り返す 交差検証(Cross-validation)54 2013春合宿 講義6 機械学習入門 2013/03/24
  55. 55. イントロダクション Part3: ごく簡単な手法の紹介55 2013春合宿 講義6 機械学習入門 2013/03/24
  56. 56. イントロダクション Part3: ごく簡単な手法の紹介56 2013春合宿 講義6 機械学習入門 2013/03/24
  57. 57. アヤメ(Iris) ・アヤメの がく(petal)・花弁(sepal)の長さと幅 →アヤメの種 (setosa・versicolor・virginica) ・これをつかって説明します Petal.Length Sepal.Length57 2013春合宿 講義6 機械学習入門 2013/03/24
  58. 58. マス目で多数決作戦 ・データ領域を適当に分割 ・新しいデータが来たら,そ れが入っているマスに入って いる学習データを列挙し,最 も多い種に分類する ・学習データのないマスにきたらどうしよう もないのでランダムに決める に分類58 2013春合宿 講義6 機械学習入門 2013/03/24
  59. 59. 最近傍法 ・新しいデータが来た ら,それに最も近い学 習データを探し,それ と同じ種に分類 に分類59 2013春合宿 講義6 機械学習入門 2013/03/24
  60. 60. k-近傍法 k=5 ・新しいデータが来た ら,それに1~k番目に 近い学習データを探 し,k個で多数決して 分類 2-3 →  に分類60 2013春合宿 講義6 機械学習入門 2013/03/24
  61. 61. イントロダクション Part4: 今日の課題の紹介61 2013春合宿 講義6 機械学習入門 2013/03/24
  62. 62. Task1:アヤメ(Iris) ・アヤメの がく(petal)・花弁(sepal)の長さと幅 →アヤメの種 (setosa・versicolor・virginica) ・20pts 50データ62 2013春合宿 講義6 機械学習入門 2013/03/24
  63. 63. Task2: Mushroom(キノコ) edible poisonous ・キノコの特徴 → 食用? or 毒? ・属性: 22個 カテゴリデータ ・食用を回避するより毒を食べる方がヤバい 提出すれば 食用と判定 score 毒と判定 + 食用 0pts -3pts10pt 500データ 毒 -15pts 0pts 500データ (毒の個数<=300)63 2013春合宿 講義6 機械学習入門 2013/03/24
  64. 64. Task3[難]: arXiv arxiv.org: 物理学を中心とした論文 を保存・公開しているウェブサイト ・comp(コンピュータ科学),math(数学), phys(物理),stat(統計学)の4つのジャンルの 論文たち ・タイトル → ジャンル ・タイトルの単語は数字に変換してあります ・10pts 300データ64 2013春合宿 講義6 機械学習入門 2013/03/24
  65. 65. Good Luck & Have Fun65 2013春合宿 講義6 機械学習入門 2013/03/24
  66. 66. まとめ66 2013春合宿 講義6 機械学習入門 2013/03/24
  67. 67. 参考文献・サイト 『パターン認識と機械学習 - ベイ ズ理論による統計的予測』 (上下 巻) 丸善出版 C.M.ビショップ ・PRMLの略称で有名 ・今回のイントロダクションはこの本の第1章の受け売り ・図がカラーで綺麗 ・上巻は基本的な話題(学習とは.確率分布,線形回帰・識別モデル,ニューラルネッ トワーク 下巻はそれを元にした発展的な手法の数々(まだ読んでないので知らない)67 2013春合宿 講義6 機械学習入門 2013/03/24
  68. 68. 参考文献・サイト ・数学(確率論,行列,微積分,etc...) 的な記述が多く,慣れていないと大変 ↓たとえばこんなの 『パターン認識と機械学習の学習』(暗黒通信社) と いう同人誌が出るほど ・上下巻揃えると結構値が張る:¥14,300(税抜)68 2013春合宿 講義6 機械学習入門 2013/03/24
  69. 69. 参考文献・サイト www.kaggle.com ・今日の課題のようなコンテストが開かれている 賞金アリ ・Blue Book for Bulldozers:ブルドーザーの車種,製造年,販売年,販売 場所等のデータから販売価格を予測する.4/10に〆切69 2013春合宿 講義6 機械学習入門 2013/03/24
  70. 70. 参考文献・サイト UCI Machine Learning Repository http://archive.ics.uci.edu/ml/ ・機械学習のアルゴリズムを試すのに有用なテスト データが置いてある70 2013春合宿 講義6 機械学習入門 2013/03/24
  71. 71. おつかれさまでした71 2013春合宿 講義6 機械学習入門 2013/03/24

×