Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

自然言語処理における機械学習による曖昧性解消入門

7,766 views

Published on

Published in: Technology

自然言語処理における機械学習による曖昧性解消入門

  1. 1. 自然言語処理における機械学 習による曖昧性解消入門 関口宏司@ロンウイット S
  2. 2. 分類問題S 自然言語処理における問題の多くは分類問題に帰着S 曖昧性解消 S 品詞タグ付け、前置詞句付加問題、語義、・・・S 分類モデル:F → c S F: 素性集合 S c: クラス 2
  3. 3. 機械学習の種類教師あり学習 教師なし学習(Supervised Learning) (Unsupervised Learning)正解付きのデータから分類モデル 正解が付与されていないデータかを学習 ら分類モデルを学習訓練データ:(c, F)の集合 訓練データ:(F)の集合・品詞タグ付きコーパス ・平文コーパス・構文木付きコーパス・語義付きコーパス・Naïve Bayes ・EMアルゴリズム・決定木・サポートベクターマシン etc. 3
  4. 4. Naïve BayesS P(c|F)を学習S ベイズの定理より:S 未知の入力(F)の分類の推定: 素性fiは互いに独立であると仮定 4
  5. 5. 居酒屋での例S ある3日の山田さんの注文: S d(1)="天狗舞, 白波, 天狗舞, 天狗舞" S d(2)="八海山, 八海山" S d(3)="天狗舞, 天狗舞, 八海山, 雲海"S ある3日の野口さんの注文: S d(4)="白波, 雲海, 雲海, 雲海" S d(5)="白波, 天狗舞, 白波" S d(6)="白波,白波, 雲海, 八海山" 5
  6. 6. 分類問題 次の注文は誰?d="天狗舞, 雲海, 八海山"S 最尤推定を用いた多変数ベルヌーイモデル S 山田さんクラス: S 野口さんクラス: ※ 0となってしまうので、 MAP推定の方がよい。→ 0.049 > 0 より、dは山田さんの注文と推定できる。 6
  7. 7. 決定木S 二値分類問題 S クラスの数は2個:{c, cc}S 木構造で表される分類モデル S ノードnは確率分布P(c|n)と質問qを持つS 情報利得G(q)が最大となる質問qを選ぶ H(X):確率変数Xのエントロピー 7
  8. 8. エントロピーエントロピー=情報源全体の不確実性を測る尺度 8
  9. 9. 決定木の例 wi-1="the" wi-1≠"the"wi="-ing" wi≠"-ing" wi-1="a" wi-1≠"a" 9
  10. 10. サポートベクターマシンS 二値分類問題 S 正例(c)と負例(cc)S 素性ベクトル S 素性はベクトルで表されるS 学習 S 正例と負例を分割する平面を求める S マージン最大化 10
  11. 11. サポートベクターマシン ○ ○ △ ○ 負例 ○ ○ × ○ ×正例 × × × 11
  12. 12. EMアルゴリズムS 教師なし学習S Pθ(x)を最大にするθを推定S アルゴリズムの総称 S Forward-backward algorithm S 隠れマルコフモデルのパラメタ学習 S Inside-outside algorithm S 確率文脈自由文法のパラメタ学習 12
  13. 13. 参考文献S [1] 言語と計算 (4) 確率的言語モデル 北 研二 (著), 辻 井 潤一 (著) 東京大学出版会 978-4130654043S [2] 言語処理のための機械学習入門 (自然言語処理シリー ズ) 高村 大也 (著), 奥村 学 (監修) コロナ社 978- 4339027518S [3] Foundations of Statistical Natural Language Processing Christopher Manning (著), Hinrich Schuetze (著) The MIT Press 978-0262133609 13

×