形態素解析の過去・現在・未来

PFIセミナー
形態素解析の過去・現在・未来

2011/10/19
海野　裕也 (@unnonouno)

⾃自⼰己紹介

l  海野　裕也 (@unnonouno)
l  unno/no/uno
l  研究開発部⾨門　リサーチャー
l  専⾨門
l  ⾃自然⾔言語処理理
l  テキストマイニング
l  職歴
l  2008/4~2011/3 ⽇日本アイ・ビー・エム（株）東京
基礎研究所
l  2011/4~ 現職
2

今⽇日の発表の⽬目的

l  形態素解析器の中で何が⾏行行われているか
l  コスト最⼩小化, HMM, MEMM, CRF etc.
,
l  JUMAN, Chasen, MeCab, etc.

l  ・・・だけだとよくあるので、最新の⼿手法と過
去の⼿手法をまとめる
l  現在の問題点に関してもまとめる

3

なんかハードル上がってるんですけどｗ

わかりやすくないよ！

4

⽬目次

l  形態素解析とは何か
l  形態素解析の⼿手法
l  形態素解析の応⽤用
l  最新の形態素解析周辺技術

5

形態素解析とは何か

6

「形態素」とは何か？

(wikipediaより)

最初からよくわからない・・・

7

⼤大雑把に⾔言えば、これは塊だろうと思える最⼩小要素

単語・・、よりも細かく分けた単位と思えばOK

l  東京：名詞：とうきょう
l  都：接尾辞：と
l  に：格助詞：に
l  ・・・

8

「形態素解析」とは何か？

l  ⼤大雑把には以下の3つの処理理を⾏行行うこと
l  単語分割
l  どこで分割するか当てる
l  例例：東京・都　or 　東・京都
l  品詞推定
l  品詞を当てる
l  例例：「語」は　名詞（ご）　or 　動詞（かたる）
l  語義の推定
l  表記上曖昧な語を特定する
l  例例：きのう　は「機能」or「昨⽇日」or「帰納」
どこまでやるかは曖昧
9

形態素と単語は違うの？

l  ⼀一般的には単語は1つ以上の形態素から成る
l  例例）⾼高さ＝⾼高 + さ
l  例例）霧⾬雨＝霧 + ⾬雨

l  実際は単語も形態素も単位は曖昧
l  「ある単位に分ける」問題と理理解しておく

l  曖昧と⾔言うかきっとみんなケンカするよ・・・

10

実⽤用的な⽬目で⾒見見ると、単位が違うデメリットは⼤大き
い
l  例例）「東京都」だと思っていたので「東京」が
⾒見見つからなくなった
l  例例）動詞語幹と活⽤用語尾はわかれると思ってい
たので、動詞が⾒見見つからなくなってしまった

l  あやふやのままでも上⼿手いことやりくりしない
といけない

11

余談：英語の形態素って何？

l  普通は語基と接辞に分解される

playing =
play- -ing

l  代わりに品詞だけ当てることが多い
l  外国⼈人に「形態素解析やってるよ」と⾔言うと
びっくりされるかも・・・
12

形態素解析の⼿手法

13

⻑⾧長い歴史

l  1980~1990年年代
l  ⽇日本語⼊入⼒力力の⼀一貫として成⻑⾧長
l  ⼈人⼿手の規則、コスト調整
l  2000年年前後
l  解析済みデータの整備
l  機械学習の出現とコスト調整の⾃自動化
l  2000年年代
l  オープンソースソフトウェアの熟成
l  検索索やテキストマイニングの前処理理として活⽤用

14

直感に従って設計してみよう

l  品詞の接続に関する知識識を活⽤用しよう
l  名詞のあとには格助詞が来やすい
l  格助詞のあとには動詞語幹が来やすい
l  動詞語幹のあとには活⽤用語尾が来やすい
l  活⽤用語尾のあとには助動詞が来やすい
l  ・・・
東京に行った

東京に⾏行行った

15

規則だけでは解決できない問題が存在する

l  本質的に曖昧な例例が存在する
l  例例）東京・都　vs 　東・京都
l  例例）にわにはにわにわとりがいる

l  そのため、何らかの基準で候補の良良し悪しを決
める必要がある
l  最⻑⾧長⼀一致法
l  ⽂文節数最⼩小化法
l  接続コスト最⼩小化法
16

最⻑⾧長⼀一致法

l  ⼀一番⻑⾧長い形態素を順番に割り当てる
l  N⽂文節ごとに⻑⾧長い解を優先する⼀一般化もある

東

東京都に住む
東京

17

⽂文節数最⼩小法 [吉村1983]

l  出来る⽂文節の数が最⼩小になる候補を選択する
l  ⽂文節とは、名詞、動詞などの連続＋その他、の塊

l  最⻑⾧長⼀一致法が決定的に動くのに⽐比べて、全体最
適になっている点がよい

18

接続コスト最⼩小法 [久光1991]

l  2つのリソースに分離離
l  辞書：表記と語彙（品詞情報など）へのマッピング

l  接続表：品詞と品詞のつながりのコスト

l  コストの総和が最⼩小になる形態素列列を探す
l  ⽂文節数最⼩小化の⼀一般化になっている

東京都に住む

東京に住む

京都
19

コストが最⼩小のパスを探す⽅方法

l  端的に⾔言えばDAGにおける最短路路問題

l  Viterbiアルゴリズム
l  単純な動的計画法
l  Dijkstra法
l  いわゆる最短路路計算
l  A*法
l  いわゆる最短路路計算その2

20

正規⽂文法による⽅方法 [丸⼭山1994]

l  正規⽂文法で形態素列列を表現する
l  例例：名詞 à “関” サ変語尾
l  サ変語尾 à “し” サ変連⽤用
l  接続表に⽐比べて柔軟に設計しやすい
l  接続表は品詞数の2乗に膨らむ
l  ⽂文法で書けば類似品詞をまとめられる
l  例例：固有名詞、代名詞、普通名詞を名詞類にまとめる
l  複数語間の遷移を⾃自由に記述できる
l  例例：に・関・する

21

品詞とは何だったのか？

l  もはや元の品詞分類はどこへ？

l  同⼀一の振る舞いをする形態素に対するラベル、
くらいの意味？

22

「なう」の品詞ってなんですか？

l  10件近いお返事をいただきました
l  そして全員違う品詞を回答しましたｗ
l  答え？　知らないよ・・・

23

昔の論論⽂文を読むと当時の問題意識識が⾒見見えてくる？

l  ⽇日本語⽂文の形態素解析において残されている重要な課題である未登
録語、複合語、接頭・接尾語の処理理の問題を考える際に・・・
l  吉村賢治, ⽇日⾼高達, 吉⽥田将.「⽂文節数最⼩小法を⽤用いたべた書き⽇日本語⽂文の形態素解
析」(1983)より
l  ・・・対象⽂文章に応じた決めの細かい⽂文法を⽤用意することができる．
このように，形態素解析⽂文法においては，可読性と柔軟性が⾮非常に
重要であると我々は考える．
l  丸⼭山宏, 荻野紫穂. 「正規⽂文法に基づく⽇日本語形態素解析」(1994)より
l  2つの連続する形態素間の制約で⽂文法を記述するには、精度度向上を
図る上で明らかに限界がある。
l  颯々野学.「JUMANにおける形態素⽂文法記述の問題点に関する考察」(1996)よ
り

24

⼈人⼿手によるメンテナンスの限界

l  コスト調整はドリフのタンス
l  こっちを閉じるとあっちが開く
l  ベストな解を探すのは難しい

l  ⽂文法情報の爆発
l  きめ細かくメンテナンスすると品詞数が爆発する
l  メンテナンス要員の不不⾜足
l  チューニングが困難

25

機械学習によるコストの推定

l  正解データに合うように⾃自動に設定できないか？
l  品詞というものも意識識しないようにできないか？
l  これが出来れば、規則をメンテナンスする代わりに正解
データをメンテナンスすればよくなる

機械学習、特に系列列ラベリング問題と相性がよい

26

系列列ラベリング問題
l  系列列に割り当てるラベルを当てる問題
l  普通の分類問題は出⼒力力候補がN個だが、系列列ラベリング
だとNL個
l  もちろん、それぞれを独⽴立立に解いてもよい

系列ラベリング問題
普通の分類問題

入力
⼈人⼈人⼈人⼈人⼈人⼈人

出力
男男⼥女女⼥女女男男

27

各ラベルを独⽴立立に求めるよりも同時に求める⽅方がよ
い直感的な理理由
l  構造の情報を使った⽅方が簡単に当てられるはず！
l  例例）同性は隣隣り同⼠士に座りやすいと仮定・・・

⼈人⼈人⼈人⼈人⼈人

男⼥女女？⼥女女男

両隣隣が⼥女女だから⼥女女な気がする・・・

l  例例）名詞の前には形容詞が来やすい

28

隠れマルコフモデル (Hidden Markov Model; HMM)

l  隠れ状態の列列と観測列列に分けてモデル化する
l  隠れ状態は左隣隣の隠れ状態のみに依存する（マルコフ性）
l  観測列列は隠れ状態のみに依存する
l  系列列ラベリングの⽂文脈では隠れ状態列列が出⼒力力列列

P(男|男)
P(女|男)
こちらを当てたい

隠れ状態列
男男⼥女女⼥女女男

観測列

こちらが入力
29

条件付き確率率率場 (Conditional Random Field; CRF)
[Lafferty2001]
l  ラベルの同時確率率率を直接モデル化する
l  P(y|x) ∝ exp(∑i f(i)・w)
l  特に⼊入⼒力力が系列列の時をlinear chain CRFと呼ぶ
l  ⾃自然⾔言語処理理の⽂文脈で出てくるとほとんどがこれのこと

隣接ラベルのみに特徴関数fiが設定されている


男男⼥女女⼥女女男

30

条件付き確率率率場を使った形態素解析（MeCab）
[Kudo2004, ⼯工藤2004]

東京都に住む

東京に住む

京都

l  形態素候補を全て列列挙して⼀一つのパスを選択する問題
l  MeCabはlinear chain CRFではない
l  厳密に⾔言えばSemi Markov CRFの亜種かな・・・

31

CRFとHMMを⽐比較する

l  ⾃自由な特徴量量を利利⽤用できる
l  もはや品詞情報は特徴量量の⼀一つでしかない
l  HMMでは隣隣接コストは品詞（隠れ状態）のみに依存
する

l  バイアスが少ない
l  HMMでは分岐数の少ないパスを選択されやすい（次
スライド）

32

CRFがHMMに⽐比べて良良いと⾔言われる直感的な説明
l  HMMの各スコアは確率率率なので、例例えば⾃自信がなくても
分岐がなければ無条件でスコアは1.0
l  CRFは全体で適切切なスコアになるので⾃自信のないところ
はスコアが低いまま
0.5
0.5

HMM
0.3
1.0
分岐がないと無条件に1.0
0.5
0.5
CRF
0.3
0.1

全体のスコアで調整される

余談：機械学習による⾃自然⾔言語処理理は当たり
前・・・ではなかった！

（⻑⾧長尾真編「⾃自然⾔言語処理理」（岩波 1996）より）

l  10年年もすれば当たり前が変わる、ということは・・・？

34

接続コスト最⼩小法とCRFの関係を⾒見見なおしてみる

l  実は解析アルゴリズム⾃自体はほとんど変わっていない
l  接続コスト最⼩小法のコストを学習データの尤度度が最⼤大に
なるように調整したのがMeCabと思えば⼤大体OK

東京都に住む

東京に住む

京都
35

オープンスースソフトウェアの出現

l  ChasenやMeCabといった優秀なオープンソースソフト
ウェアが出現
l  かなり実⽤用的なレベルになって急速に広まる
l  ⾃自分の周りでも⾃自然⾔言語処理理と無関係な⼈人も使うようになった

l  それを利利⽤用したアプリケーションの発展
l  検索索インデックスへの応⽤用
l  テキストマイニングへの応⽤用
l  機械学習における特徴量量として利利⽤用

36

現在の形態素解析の⼤大雑把な仕組み

正解データ辞書⼊入⼒力力データ

学習器解析器

モデル出⼒力力データ

37



学習器解析器


学習
38



学習器解析器


解析
39

形態素解析の応⽤用

40

純粋な⾃自然⾔言語処理理以外にも様々な応⽤用が可能

l  （その他の）⾃自然⾔言語処理理
l  検索索
l  かな漢字変換
l  ⾳音声認識識
l  etc.

l  上3つだけ紹介
41

⾃自然⾔言語処理理における形態素解析

l  他の⾃自然⾔言語処理理の前処理理になる
l  例例：機械翻訳では⽂文全体の構造が必要になる
l  タスクによっては中間状態を利利⽤用しない⼿手もある
l  例例：⽂文字列列カーネル

典型的な自然言語処理パイプラインの例（機械翻訳）

形態素解析構⽂文解析照応解析

意味解析訳語選択⽂文⽣生成

42

検索索における形態素解析

l  ⽂文書の最⼩小構成素として形態素を採⽤用
l  変な検索索結果を防ぐ（精度度向上）
l  「カレー」で検索索しても「エスカレーター」が出なくなる
l  ⼀一⽅方、検索索漏漏れの要因を作る（再現率率率低下）
l  「東京都」でインデックスを作ると「東京」が⾒見見つからない！
l  こちらが深刻なので短い単位が好まれる
転置インデックスの例

東京⽂文書1 ⽂文書5 ⽂文書12

カレー⽂文書3 ⽂文書5 ⽂文書8

43

テキストマイニングにおける形態素解析

l  テキストマイニングとは？
l  ⼤大量量の⽂文書データを解析して何らかの知⾒見見を得る技術の総称
l  例例：単語頻度度の偏りを検知する
l  ここで欲しいのは、単語というより「概念念」
l  同⼀一概念念はまとめたい（多義語問題、名寄問題）
l  そのため単語単位は⻑⾧長めで、同義表現などがまとまると嬉しい

Michael Jackson

同一概念
King of Pop

44

実際に仕事で使うと現れる問題・・・

「自然言語処理が邪魔をします」

l  予想外の切切れ⽅方をする
l  新しい単語を検出できない

l  形態素解析器がブラックボックス化
l  内部は複雑で挙動が読めなくなってしまった

45

アプリケーションごとの要望の違いに注⽬目すべき
l  ⾃自然⾔言語処理理
l  ⽂文全体の解析が必要
l  後処理理と単位が揃っている必要がある
l  検索索
l  境界さえあればよい
l  再現率率率を落落としたくない
l  絶対に境界じゃない部分だけわかれば良良い
l  概念念をまとめ上げたい
l  名寄せ、表記ゆれ、同義語などの処理理が欲しい

それぞれのアプリケーションごとに工夫の仕方は異なるかも？
46

難しい問題を解きすぎてはいないだろうか？

ある問題を解くとき、その問題よりも
難しい問題を途中段階で解いてはならない

l  「その単語が⾒見見つからないのは、動詞語幹として扱われ
ているものなので、名詞ではなくて・・・・」
l  お客さんから⾒見見たら中でどうなっているか知りたくない
l  ⾒見見つかるようにしてくれの⼀一⾔言に尽きる

47

最新の形態素解析周辺技術

48

最近の形態素解析関連の話題

1.  未知語の問題
l  未知語辞書の⾃自動獲得
l  教師なし形態素解析
2.  解析⼿手法⾃自体の問題
l  確率率率的単語分割
l  Shift/Reduce それぞれ1枚程度度です
l  点予測がお許し下さい
3.  ⾔言語資源の問題
l  ⾔言語資源（教師データ）の与え⽅方
l  ⾔言語資源そのもののクオリティ

49

現在の形態素解析の問題点

3. 言語資源の問題
1. 未知語の問題


学習器解析器


2. 解析手法の問題
50

l  Shift/Reduce
l  点予測

51

未知語の問題

未知語へのアプローチは⼤大雑把に2つ

l  未知語辞書を獲得する⽅方法
l  頻出する⽂文字列列を単語の候補とみなす
l  周辺に連接する⽂文字列列から推定する
l  解析器⾃自体を未知語に対応させる⽅方法
l  未知語モデル

52

周辺形態素からの未知語獲得 [村脇2008]
l  同じ品詞の単語は同じ様な振る舞いをする
l  ⽂文法は辞書よりも頑健

村脇有吾「自然言語の解析のためのテキストからの語彙の自動獲得」より抜粋
53

教師なし形態素解析 [持橋2009, 持橋2011]

l  形態素列列を⽣生成する⽣生成モデルを作る
l  正解データ（解析済みデータ）を必要としない！
l  新語、未知語に対して頑健
l  例例）古⽂文、なのは問題、しょこたん語
l  しかし、これを説明するにはこのスライドでは短すぎる・・・

持橋大地, 山田武士, 上田修功. 「ベイズ階層言語モデルによる教師なし形態素解析」より抜粋
54

l  点予測

55

曖昧な単語分割 [Mori2004, ⼯工藤2005]

l  切切れる切切れないの⼆二値ではなく、切切れる確率率率を与える
l  CRFの⽂文脈で⾔言えば、周辺確率率率を利利⽤用できる

0.01
0.6
0.98
1.0
0.2

東京都に住む

曖昧性を⾃自然に表現できる

56

曖昧単語分割の検索索への応⽤用 [岡野原2006]

l  単語分割を曖昧にしたまま検索索する
l  分割確率率率をスコアリングのみに使う

57

Shift/Reduceによる⼿手法 [岡野原2008]

l  前から順番に単語を決定する
l  境界だと思ったらReduce、違うと思ったらShiftする
l  未知語を⾃自然に扱える反⾯面、既知語に対しても不不要な未
知語候補を想定して精度度が下がってしまった

58

点予測 (KyTea) [森2009, Neubig2010, 中⽥田2010]

l  あえて系列列ラベリングを独⽴立立の問題として解く！
l  切切れ⽬目か否かの単純な⼆二値分類問題

NO
Yes
Yes
Yes
No

東京都に住む

それぞれ別の問題だと思って解く

59

点予測と⾔言語資源の関係

l  単純な問題のため、学習データを与えやすい
l  単語分割が不不⼗十分なら単語分割データを、品詞推定
が不不⼗十分なら品詞付与済みデータを与えれば良良い
l  部分的な解析データも与えやすい

60

l  点予測

61

部分的学習データからの学習 [坪井2007]

l  全部きっちり正解を与えるのは⼤大変
l  ⼀一部分だけ正解を与えたデータから学習したい

NO
Yes
?
?
?

東京都に住む

興味のある⼀一部分だけ正解を与える

62

現代⽇日本語書き⾔言葉葉均衡コーパス(BCCWJ)とUniDic

⼿手法よりも資源の整備の重要度度が上がってきた
l  形態素単位の整備
l  短単位
l  最⼩小要素を2つ程度度まで組み合わせたもの
l  例例：「⺟母親」「塩ビ」「⾐衣・⾷食・住」
l  ⻑⾧長単位
l  ⼤大雑把には分節中の⾃自⽴立立語部分と付属語部分
l  例例：「湾岸戦争後」「における」
l  ⽤用途に応じて選択する
l  データソースの整備
l  新聞、書籍、雑誌、⽩白書など幅広い分野からランダムサンプリ
ングしてデータを作成
63

まとめ

l  形態素解析の⼿手法と歴史
l  ⼈人出による規則、コスト設定
l  機械学習によるコストの⾃自動設定
l  様々な応⽤用
l  検索索、テキストマイニング
l  実務の中からの問題発⾒見見
l  最新の⼿手法
l  未知語問題
l  新⼿手法
l  ⾔言語資源の整備
64

ご清聴ありがとうございました

65

参考⽂文献 – 全般 ~ 規則による⼿手法
l  ⻑⾧長尾真編.
岩波講座ソフトウェア科学15 ⾃自然⾔言語処理理.
岩波書店, 1996
l  ⾦金金明哲, 村上征勝, 永⽥田昌明, ⼤大津起夫, ⼭山⻄西健司.
⾔言語と⼼心理理の統計ことばと⾏行行動の確率率率モデルによる分析.
岩波書店, 2003.
l  [吉村1983] 吉村賢治, ⽇日⾼高達, 吉⽥田将.
⽂文節数最⼩小法を⽤用いたべた書き⽇日本語⽂文の形態素解析.
情報処理理学会論論⽂文誌 24(1), 1983.
l  [久光1991] 久光徹, 新⽥田義彦.
接続コスト最⼩小法による⽇日本語形態素解析.
第42回情報処理理学会全国⼤大会, 1991.
l  [丸⼭山1994] 丸⼭山宏, 荻野紫穂.
正規⽂文法に基づく⽇日本語形態素解析.
情報処理理学会論論⽂文誌 35(7), 1994.
l  颯々野学.
JUMANにおける形態素⽂文法記述の問題点に関する考察.
第53回情報処理理学会全国⼤大会, 1996.

参考⽂文献 – 機械学習による⼿手法

l  [Lafferty2001] John Lafferty, Andrew McCallum, Fernando Pereira.
Conditional Random Fields: Probabilistic Models for Segmenting and
Labeling Sequence Data.
ICML 2001.
l  [Kudo2004] Taku Kudo, Kaoru Yamamoto, Yuji Matsumoto.
Appliying Conditional Random Fields to Japanese Morphological
Analysis.
EMNLP 2004.
l  [⼯工藤2004] ⼯工藤拓拓, ⼭山本薫, 松本裕治.
Conditional Random Fields を⽤用いた⽇日本語形態素解析.
NL研161, 2004.

67

参考⽂文献 – 最近の研究 1/2
l  [村脇2008] 村脇有吾, ⿊黒橋禎夫.
形態論論的制約を⽤用いた未知語の⾃自動獲得.
⾔言語処理理学会第14回年年次⼤大会, 2008.
l  [持橋2009] 持橋⼤大地, ⼭山⽥田武⼠士, 上⽥田修功.
ベイズ階層⾔言語モデルによる教師なし形態素解析.
NL研190, 2009.
l  [持橋2011] 持橋⼤大地, 鈴鈴⽊木潤, 藤野昭典.
条件付確率率率場とベイズ階層⾔言語モデルの統合による半教師あり形態素解析.
l  [Mori2004] Shinsuke Mori, Daisuke Takuma.
Word N-gram Probability Estimation From a Japanese Raw Corpus.
ICSLP 2004.
l  [⼯工藤2005] ⼯工藤拓拓.
形態素周辺確率率率を⽤用いた分かち書きの⼀一般化とその応⽤用.
⾔言語処理理学会第11回全国⼤大会, 2005.
l  [岡野原2006] 岡野原⼤大輔, ⼯工藤拓拓, 森信介.
形態素周辺確率率率を⽤用いた確率率率的単語分割コーパスの構築とその応⽤用.
NLP若若⼿手の会第1回シンポジウム, 2006.
68

参考⽂文献 – 最近の研究 2/2

l  [岡野原2008] 岡野原⼤大輔, 辻井潤⼀一.
Shift-Reduce操作に基づく未知語を考慮した形態素解析.
l  [森2009] 森信介, ⼩小⽥田裕樹.
3種類の辞書による⾃自動単語分割の精度度向上.
NL研193, 2009.
l  [Neubig2010] Graham Neubig, 中⽥田陽介, 森信介.
点推定と能動学習を⽤用いた⾃自動単語分割器の分野適応.
l  [中⽥田2010] 中⽥田陽介, Graham Neubig, 森信介, 河原達也.
点予測による形態素解析.
NL研198, 2010.
l  [坪井2007] 坪井祐太, ⿅鹿鹿島久嗣, 森信介, ⼩小⽥田裕樹, 松本裕治.
部分的かつ曖昧なラベル付き構造データからのマルコフ条件付確率率率場の学習.
NL研182, 2007.
69

形態素解析の過去・現在・未来

More Related Content

What's hot

Similar to 形態素解析の過去・現在・未来

More from Preferred Networks

形態素解析の過去・現在・未来