自然言語処理における機械学習による曖昧性解消入門

4,631 views

Published on

Published in: Technology

自然言語処理における機械学習による曖昧性解消入門

  1. 1. 自然言語処理における機械学 習による曖昧性解消入門 関口宏司@ロンウイット S
  2. 2. 分類問題S 自然言語処理における問題の多くは分類問題に帰着S 曖昧性解消 S 品詞タグ付け、前置詞句付加問題、語義、・・・S 分類モデル:F → c S F: 素性集合 S c: クラス 2
  3. 3. 機械学習の種類教師あり学習 教師なし学習(Supervised Learning) (Unsupervised Learning)正解付きのデータから分類モデル 正解が付与されていないデータかを学習 ら分類モデルを学習訓練データ:(c, F)の集合 訓練データ:(F)の集合・品詞タグ付きコーパス ・平文コーパス・構文木付きコーパス・語義付きコーパス・Naïve Bayes ・EMアルゴリズム・決定木・サポートベクターマシン etc. 3
  4. 4. Naïve BayesS P(c|F)を学習S ベイズの定理より:S 未知の入力(F)の分類の推定: 素性fiは互いに独立であると仮定 4
  5. 5. 居酒屋での例S ある3日の山田さんの注文: S d(1)="天狗舞, 白波, 天狗舞, 天狗舞" S d(2)="八海山, 八海山" S d(3)="天狗舞, 天狗舞, 八海山, 雲海"S ある3日の野口さんの注文: S d(4)="白波, 雲海, 雲海, 雲海" S d(5)="白波, 天狗舞, 白波" S d(6)="白波,白波, 雲海, 八海山" 5
  6. 6. 分類問題 次の注文は誰?d="天狗舞, 雲海, 八海山"S 最尤推定を用いた多変数ベルヌーイモデル S 山田さんクラス: S 野口さんクラス: ※ 0となってしまうので、 MAP推定の方がよい。→ 0.049 > 0 より、dは山田さんの注文と推定できる。 6
  7. 7. 決定木S 二値分類問題 S クラスの数は2個:{c, cc}S 木構造で表される分類モデル S ノードnは確率分布P(c|n)と質問qを持つS 情報利得G(q)が最大となる質問qを選ぶ H(X):確率変数Xのエントロピー 7
  8. 8. エントロピーエントロピー=情報源全体の不確実性を測る尺度 8
  9. 9. 決定木の例 wi-1="the" wi-1≠"the"wi="-ing" wi≠"-ing" wi-1="a" wi-1≠"a" 9
  10. 10. サポートベクターマシンS 二値分類問題 S 正例(c)と負例(cc)S 素性ベクトル S 素性はベクトルで表されるS 学習 S 正例と負例を分割する平面を求める S マージン最大化 10
  11. 11. サポートベクターマシン ○ ○ △ ○ 負例 ○ ○ × ○ ×正例 × × × 11
  12. 12. EMアルゴリズムS 教師なし学習S Pθ(x)を最大にするθを推定S アルゴリズムの総称 S Forward-backward algorithm S 隠れマルコフモデルのパラメタ学習 S Inside-outside algorithm S 確率文脈自由文法のパラメタ学習 12
  13. 13. 参考文献S [1] 言語と計算 (4) 確率的言語モデル 北 研二 (著), 辻 井 潤一 (著) 東京大学出版会 978-4130654043S [2] 言語処理のための機械学習入門 (自然言語処理シリー ズ) 高村 大也 (著), 奥村 学 (監修) コロナ社 978- 4339027518S [3] Foundations of Statistical Natural Language Processing Christopher Manning (著), Hinrich Schuetze (著) The MIT Press 978-0262133609 13

×