スペル修正プログラムの作り方 #pronama

スペル修正プログラムの作り方
とろとき（@t o r o t o ki）

自己紹介

・名前はとろとき

・言語は P ython/ P erl/ Ja v a

（ @t o r o t ki）・ A nd roid とか自然言語処理、
機械学習などを勉強中。

・中学生

はじめに

{自然言語処理¦プロ生}初心者です
色々とおかしなところがあればご指摘ください

スペルチェッカの実装はかなり簡単
- 今回作成したコードは約 180行（ Pyt h o n ）

- 内、 50行はデータベースに単語を突っ込むため

- 理論さえ分かればとっても簡単！

はじめに

・自然言語処理について

・コンピュータでテキストを分析させる試み

・ Micr o so ft の選ぶ、 10年後テクノロジー分野でホットな職業！
・ The Top Three hottest new majors for a career in technology
D at a Mining/ Mac hine Lear ning/ AI / Nat ur al Language P r oc essing
（データマイニング／機械学習／人工知能／自然言語処理） ← コレ

B usiness I nt elligenc e/ C ompet it ive I nt elligenc e
（ビジネスインテリジェンス／競合調査）

Analy t ic s/ S t at ist ic s
（分析／統計）

Mi cr osoft JobsBl og より引用
ht t p:/ / j obsbl og.com/ bl og/ t op- t hr e e - ne w- t e ch- m aj or s/

おおまかにやること

・単語の辞書を用意（数十万∼数百万）
・受け取った文字が辞書にあるか（ =誤字かどうか）

・無い場合、受け取った文字を辞書と比較
- ここが大変

・もっとも適切な候補を出力

1/ 4 単語の辞書を用意

辞書選び
何種類も無料で配布されてる
単語だけが必要なので、基本的にどれでも OK
主要なものはこの三つ

IPA - dic
N A IS T - dic

U n iD ic
単語数は N A IS T - dic < U n iD ic < IPA - dic

・今回は IPA - dicを使用（ Me Ca bに付属していたせい）

1/ 4 単語の辞書を用意

辞書の中身（ IPA - dicの場合）
きらびやか,1287,1287,8349,名詞,形容動詞語幹,*,*,*,*,きらびやか,キラビヤカ,キラビヤカ

史的,1287,1287,6608,名詞,形容動詞語幹,*,*,*,*,史的,シテキ,シテキ
プラトニック,1287,1287,5077,名詞,形容動詞語幹,*,*,*,*,プラトニック,プラトニック,..(略)
てらてら,1287,1287,8349,名詞,形容動詞語幹,*,*,*,*,てらてら,テラテラ,テラテラ

静謐,1287,1287,4845,名詞,形容動詞語幹,*,*,*,*,静謐,セイヒツ,セイヒツ

今回はここしか使わない

2/ 4 受け取った文字が辞書にあるか

・さっきの単語辞書と受け取った文字を照合
・合っていたら（ =誤字じゃなければ）そのまま出力

・合っていなければ、誤字扱いで次の段階へ

3/ 4 誤字を辞書と比較

辞書に正解の文字があると仮定
正解を書こうとして誤字する確率の誤りモデルを計算

辞書
M icro s o ft

G o o gle
M y cro s o ft
Ya h o o
.....


誤りモデルを数値で出すために、編集距離を求める

・編集距離とは
入力文字列に最低何回の編集操作をすれば
正解が求まるかという数値。

1つの文字に対して
・挿入
・削除
・置き換え
・転置を繰り返す


編集距離の例

誤字単語
・挿入: スペルミッス → スペルミス
・削除: スペミス → スペルミス
・置換: スプルミス → スペルミス
・転置: スペミルス → スペルミス


編集距離を使えば、簡単に誤字を探せる！


はずもなく


・問題点
漢字が多すぎて実用的じゃない（アルファベットだけなら大丈夫）

毎回 20万語と比較しなきゃいけない

3文字の比較量は 1回の編集距離だけで

{(5, 000* 4)+3+(5, 000* 3)+3}* 200, 000 = 7, 001, 200, 000回


・じゃあどうするの？

前もって候補を絞る
= N -g r am で修正候補の絞り込み


・ N -g r am で修正候補の絞り込み
N - gr a mって ?

文字をN個ずつ切り出すという意味
自然言語処理にいろいろと使われてる。

とろとき = [とろ ][ろと ][とき ]
Nの個数で名前が変わる
1 文字･･･ユニグラム [ と ] [ ろ ] [ と ] [ き ]
2 文字･･･バイグラム [ とろ ] [ ろと ] [ とき ]
3 文字･･･トリグラム [ とろと ] [ ろとろ ] [ とき ]

単純に N - gr a mといえば基本的にバイグラム（ 2文字ずつ）
・例外にもれず今回はバイグラムを使用


どうやって絞り込むの？
辞書から全単語の N - gr a mインデックスを作る

いうあいうち , あっという間 , ねらいうち , ..
ごりにごり酒 , おごり , 名ごり , ごりごり , ..
次官次官, 政治次官, 次官補, 事務次官


どうやって絞り込むの？
入力データベaス → デー + ータ + タベ + ベa + aス
N - gr a mインデックスで複数回ヒットするもの

デー : " データテレホン " , " データセット " , " データタブレット " , " データベース "

ータ : "インバータ", "データベース","オータックス", "ポータブル",

タベ : "ベタベタ", "データベース", "ヌタベット", "カンタベリー",

ベa : ...

aス : ...

参考 : http: / / www.slideshare.net/naoya1977/spell-correction


・編集距離にも工夫
N - gr a mを使って候補を減らす（ 4つに絞ったと仮定）ことで
比較量を
{(5, 000* 4)+3+(5, 000* 3)+3}* 200, 000 = 7, 001, 200, 000回
から
{(5, 000* 4)+3+(5, 000* 3)+3}* 4 = 140, 024回
にまで減らすことができた。

・ただしこれは編集距離が 1回までの話
（ smt h in g → so me t h in g）などができていない
編集距離を少しでも多く出すためには？



挿入削除置換転置
{(5, 000* 4)+3+(5, 000* 3)+3}* 4 = 140, 024回

編集距離の計算で回数を多くしているのは

5, 000* 4（挿入）と 5, 000* 3（置き換え）の式
※ 5,000 は漢字及びひらがなとカタカナの数

2回目以降に編集距離を求めるときは、
挿入置き換えの作業を消せばよいのでは？


2回目以降は挿入と置換を求めないことで

({(5, 000* 4)+3+(5, 000* 3)+3} * 4 * {(3+3)* 4} = 3, 360, 576回

と編集距離 2もギリギリ求められるくらいにできる
（ただしやってみたところ 4 6秒の時間がかかった）

言語を変える、並列化する、などして高速化の必要あり？


・編集距離が同じ場合の対処
go o lに対して編集距離が 1

go a l / go o / go o d / . . .
スペルミスの 80 95%は編集距離が 1らしい [ 要出典 ]

・文章の出現頻度が高い語ほど正解に近いとする（DF）
go o dの頻度が高い → go o dが正解と推測
でも go a lが正解でもおかしくないじゃん！


・短い単語は求めにくい
go o l はスペルミスだけど、「 go o d」が正解とはいいにくい
実は結構難しい問題
・そもそも短い語に対しては Go o gle すらできてない

「もしかして」が出てない図


・短い単語は求めにくい
・応急策（その 1）

I mpro v ed E rro r M o del（ちょっとだけ取り入れ）
単語の先頭は誤りにくいよね？
・先頭、中間、最後の 3値で計算

・ただし、まだ go o l→ go o d の問題は解決できない。
むしろ悪化


・応急策その2
置換操作の文字によって優先順位をつける

- 「a」と「n」は間違えにくい
- 「 p」と「 o 」は間違えやすい

- これだと go o l→ go o d問題は解決できそうだけど･･･。

- 当然、漢字は不可

A sp e lling C orre ction p rog ram b ase d on a
noisy channe l mod e l( M . Ke rnig han1 9 9 0 )
・応急策その2


・まとめ
・まず誤字かどうか判別
・ N - gr a mで候補を絞る
・絞った候補と入力文字の編集距離を計算
- 候補が被ったら最も一般的な語を使う
・最も数値の高かった候補を出す


・デモ

豆知識的な応用事例

・ N -g r am
N - gr a mによる誤字候補の絞り

- 類似文字の索引にも使える
- コピペ論文を検出する論文まであった

剽窃レポート発見に利用する1文単位での検索クエリ作成手法
http: / / c i. nii. ac . jp/ naid/ 1 1 0 0 0 7 4 6 7 2 4 8

豆知識的な応用事例

・ EM-b ased Er r or Mod el
E M- ba se d E r r o r Mo de l
・検索エンジンからスペルミスを機械学習
・あまり詳しくない
・引用すると

・（検索エンジンの）クエリログからクエリの訂正を行う
・誤りと正解のペアデータは必要ない
・クエリログは 10 15%のスペルミスを
含むので、ここから学習

引用 : スペル訂正エンジンについてのサーベイ # T okyoN LP
http : / / www. slid e share . ne t/ nokuno/ tokyonlp 0 5 -sp e ll-corre ction

ご清聴ありがとうございました。

参考文献

・「入門自然言語処理」
オライリージャパン 2010年 11月発行 , 592ページ

・スペル修正プログラムはどう書くか
h t t p: //bit . ly/c3B H f
・スペルミス修正プログラムを作ろう
h t t p: //slide sh a . r e /qgh ImL

・スペル訂正エンジンのサーベイ
h t t p: //slide sh a . r e /g7S ImR

スペル修正プログラムの作り方 #pronama

More Related Content

What's hot

Viewers also liked

Similar to スペル修正プログラムの作り方 #pronama

スペル修正プログラムの作り方 #pronama