Machine learning for biginner

4,095 views

Published on

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,095
On SlideShare
0
From Embeds
0
Number of Embeds
279
Actions
Shares
0
Downloads
35
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide

Machine learning for biginner

  1. 1. 第 4 回さくさくテキストマイニング勉強会 初めての機械学習〜機械が学習するって何?〜 早川 敦士
  2. 2. http://www.slideshare.net/gepuro/ に資料が公開されています。
  3. 3. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  4. 4. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  5. 5. 自己紹介 早川 敦士 電気通信大学電気通信学部 システム工学科 三年 TwitterID: @gepuroさくさくテキストマイニング勉強会がきっかけで テキストマイニングを始めました。 統計学や品質管理に興味があります。
  6. 6. 自己紹介 はてなダイアリー http://d.hatena.ne.jp/gepuro/ 所属 Microcomputer Making Association http://wiki.mma.club.uec.ac.jp/hayakawa ICES (留学生国際交流会) 新入生歓迎実行委員会DBCLS (ライフサイエンス統合データベースセンター)
  7. 7. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  8. 8. 機械学習とは 〜初めに〜 機械学習については、初めて勉強しました。 名前だけは、よく聞くけど実態がよく分からず にいました。 そろそろ機械学習に挑戦してみたい。 今日は、この場をお借りして機械学習について 学んだ事を発表したいと思います。 テキスト分類の学習という点に焦点をあてて話 したいと思います。
  9. 9. 機械学習とはまずは wikipedia で調べてみました。
  10. 10. 機械学習とは機械学習(きかいがくしゅう、 Machine learning )と●は、人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピュータで実現させるための技術・手法のことである。 ( wikipedia 機械学習より)
  11. 11. 機械学習とは機械学習のアルゴリズムは3つの分類がある。● 教師あり学習 教師なし学習 強化学習
  12. 12. 機械学習とは教師あり学習●事前にデータとラベルを与えて、素性抽出をして、分類器を作成すること。例:サポートベクターマシーン、単純ベイズ分●類器、ブースティング etc
  13. 13. 機械学習とは教師なし学習●データの分布など、データ背後にある特徴を見つける学習例:クラスター分析、主成分分析、自己組織化●マップ etc
  14. 14. 機械学習とは強化学習●ある環境内において、行動によって発生する報酬を元に、現在取るべき行動を決定する方法を学習する報酬が最大化するように行動し、これを繰り返●して、より良い行動を出来るようにする。動的計画法に似ている。●
  15. 15. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  16. 16. 学習手順機械学習って言うのが、どーいうのか分かった●し、どんな風にして教師あり学習を行なっていくのだろうか?
  17. 17. 学習手順機械学習って言うのが、どーいうのか分かった●し、どんな風にして教師あり学習を行なっていくのだろうか?
  18. 18. 学習手順1.正しいラベルが付けられたコーパスを用意する2.コーパスを訓練・検証・テストセットに分割3.訓練セットで素性抽出し、分類器モデル構築4.検証セットで素性の選択・調整をする5.テストセットで分類器を評価する
  19. 19. 学習手順何故、コーパスを3つに分ける?●a)構築した分類器を正しく評価する為に、テストセットが必要になる。b)検証セット無しでは、分類器の精度向上の為に使用するコーパスが準備出来無い。
  20. 20. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  21. 21. 教師ありテキスト分類器例えば、こんな分類器がある。● 文書分類、品詞タグ付け、文分割、対話動作タイプの識別、含意関係の決定 etc
  22. 22. 教師ありテキスト分類器●文書分類:テキストにカテゴリのラベル付け●品詞タグ付け:その単語の品詞タグを選択●文分割:続いてきた文が終了するかどうか判別●対話動作タイプの識別:発言が挨拶、質問、回答、主張、釈明のどのタイプの行動か●含意関係の決定:与えられたテキスト断片が仮説と呼ばれる他のテキストの意味を含むか否か
  23. 23. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  24. 24. 決定木入力データのラベル選択のフローチャート● wikipedia より
  25. 25. 決定木構成要素●決定節点:素性の値をチェックする●葉節点:ラベルを割りあてる●根節点:フローチャートの最初の決定節点●
  26. 26. 決定木決定木の構築●1.節点を一つだけもつ決定株を考える2.どの素性が分類の正答率が高いか3.高頻度で現れるラベルを割りあてる4.決定株をより大きな決定木に育てる
  27. 27. 決定木決定木の特徴●●単純で分かりやすい●階層構造を持つカテゴリに分類するのに適している●決定着の株にいくほど過学習が起きる●スポーツ、自動車、推理小説など、独立したトピックごとに分類する場合に決定木の上部付近では、限られた分岐しか行えない
  28. 28. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  29. 29. 単純ベイズ分類器入力に対してどのラベルを割り当てるか決定するの●に、全ての素性が影響する トーマス・ベイズ (1702 年 ~1761 年 )
  30. 30. 単純ベイズ分類器手順●1.ラベルの出現頻度=事前確率を計算する2.それぞれ素性が出現する確率を求める3.ラベル尤度=事前確率x素性の貢献度4.最も高い尤度と推定されるラベルを入力値とする5.このラベルから素性を生成する
  31. 31. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  32. 32. 最大エントロピー分類器分類器の性能を最大化するパラメータのセットを探す●対数線形モデルとも言う訓練コーパスの全体尤度を最大化する
  33. 33. 最大エントロピー分類器考え方●●乱数でパラメータの初期値を決め、最適解に近づくように繰り返す。●最適化否かの判断基準は必ずしも存在しない。●単純ベイズ分類器のモデルを一般化したもの
  34. 34. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  35. 35. 単純ベイズ・最大エントロピー分類器 の比較単純ベイズ分類器との比較●単純ベイズ分類器:●事前確率と素性・ラベルのペアで素性の貢献度を知る多くのコーパスが必要生成的分類器最大エントロピー分類器:●素性とラベルの組み合わせが自由少ないコーパスでも可能条件付き分類器
  36. 36. 単純ベイズ・最大エントロピー分類器 の比較分かる事 単純ベイズ分類器 最大エントロピー分類器入力に対しての可能性の高い ○ ○ラベル入力に対してのラベルの尤度 ○ ○可能性の高い入力値 ○ ☓入力値の尤度 ○ ☓ラベルに対しての入力値の尤 ○ ☓度2つのうち1つの値を持つ入 ○ ☓力に対して、可能性の高いラベル
  37. 37. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  38. 38. まとめ機械学習には様々なアルゴリズムがある。●それぞれに特徴があり、適材適所で使う必要がある。●学習させる事によって、テキストの分類が出来る。●
  39. 39. 目次●自己紹介●機械学習とは●学習手順●教師ありテキスト分類器●決定木●単純ベイズ分類器●最大エントロピー分類器●単純ベイズ・最大エントロピー分類器の比較●まとめ●参考資料
  40. 40. 参考資料 出版  ORELLY   入門 自然言語処理Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳
  41. 41. おわりご清聴ありがとうございました。

×