Pythonで自然言語処理

Pythonで自然言語処理
新規開発局　大平哲也
1

自己紹介
• 基本Java畑の人間です。
• PythonはNLTKを使うために学び始めました。
まだ簡単なバッチくらいしか作れません。
• 「elif」は略しすぎだと感じている。
2

今日触れる内容
• Pythonを用いて自然言語処理（Natural
Language Processing : NLP）の片鱗を味わう。
- 自然言語処理：機械で人間様の話す／書く言葉を解析し
てよしなにする処理全般を指す言葉
• Pythonの深い構文的な話はあまりしません
（できません）
3

今日触れるライブラリ
• MeCab
• KyTea
• NLTK
• Hadoop (Hadoop Streaming)
4

作成したデモアプリ
• mecab.py
• 自然文をMeCabを用いてわかち書き
• kytea.py
• 自然文をKyTeaを用いてわかち書き
• markov.py
• Markov過程に基づいて文章を自動生成
• freq.py
• n-gramモデルに基づいて頻度の数え上げ
• map.py / reduce.py
• freq.pyをHadoop上で動くように展開
• (bmc_sample.py)
• 2-gramコーパスから分布類似度を算出する
• Baiduコーパスダウンロード広場で配布されているもの
http://www.baidu.jp/corpus/
5

[lib]MeCab(めかぶ)
• 日本語の自然文を形態素解析するライブラリ
http://mecab.sourceforge.net/
• たぶん世界で一番有名で一番使われている
• Macのspotlightでも使われているとか
• C言語で実装されているが、各種言語へのバイ
ンディングも存在する（Python/Perl/Ruby/Java）
6

MeCab実行例
$mecab
桑野さんがまた醜態をさらす
桑野

名詞,固有名詞,人名,姓,*,*,桑野,クワノ,クワノ
さん

名詞,接尾,人名,*,*,*,さん,サン,サン
が

助詞,格助詞,一般,*,*,*,が,ガ,ガ
また

接続詞,*,*,*,*,*,また,マタ,マタ
醜態

名詞,一般,*,*,*,*,醜態,シュウタイ,シュータイ
を

助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
さらす

動詞,自立,*,*,五段・サ行,基本形,さらす,サラス,サラス
EOS
7

Python参考コード
[mecab.py]
import sys
import MeCab
import nltk
if __name__ == "__main__":
file = sys.argv[1]
#read file
raw = open(file).read() #ファイルからテキストを全行読み込み
#split word
m = MeCab.Tagger("-Ochasen") #MeCab初期化
node = m.parseToNode(raw) #形態素解析実施
node = node.next
while node:
print node.surface, node.feature #解析結果の語と品詞を標準出力
node = node.next
8

[lib]KyTea(きゅーてぃー)
• 京都大学のGraham Neubigさんが中心となって
開発された形態素解析ライブラリ
http://www.phontron.com/kytea/
• 教師データを元に単語の分割と発音推定を行
う
• 日本語と中国語のモデルデータも公開されて
いる。今回は中国語を使ってみる。
9

KyTea実行例
$$ python kytea.py ~/kytea/chinese.raw ~/kytea/model/lcmc-0.1.1-1.mod | less
----- origin -----
初音未来是CRYPTON FUTURE MEDIA以Yamaha的VOCALOID 2语音合成引擎为基础发贩售的虚
拟女性歌手软件。2007年8月31日发售，原只可用于Microsoft Windows，2008年3月19日随
CrossOver Mac 6.1发表而可用于Mac OS X。
----- morphology -----
初/chu1_
音/yin1_
未来/wei4_lai2_
是/shi4_
CRYPTON/C_R_Y_P_T_O_N_
FUTURE/F_U_T_U_R_E_
MEDIA/M_E_D_I_A_
以/yi3_
Yamaha/Y_a_m_a_h_a_
的/de5_
10

Python参考コード
[kytea.py]
import sys
import commands
if __name__ == "__main__":
file = sys.argv[1]
model = sys.argv[2]
#read file
raw = open(file).read()
print "----- origin -----"
print raw #元データの表示
print "----- morphology -----" #split word
c = 'kytea -model ' + model + ' < ' + file
result = commands.getstatusoutput(c) #kyteaのコマンドを実行
for r in result[1].split(): #わかち書き結果の表示
print r
11

[lib] NLTK(えぬえるてぃーけー)
• Python向けに提供されている自然言語処理関
連の処理全般を内包したライブラリ
http://www.nltk.org/
• 本も出ている。これから買うなら日本語訳版
がオススメ
12

NLTKでできること
• すごい沢山ある...
• 今回は数え上げ、n-
gram化、マルコフ連
鎖等、単純なものを
中心に。
13

NLTK実行例(Markov連鎖)
[markov.py]
#trigram(3-gram)なワード群を元にMarkov過程に基づいてそれらしい文章を自動生
成
def markovgen(words,length):
text = nltk.Text(words) #ワード群をToken化
gen = text.generate(length) #trigram/Markov過程に基づいてランダムに自動生成
print gen
14

生成データの一例
#さだまさしの全歌詞をコーパスに自動生成
#http://www.cai-insect.jp/sada/
去年のクリスマス・キャロルが聞こえるだろう /
ちいさなしあわせや不幸せなんて /
自分に疲れたあげく人になるとき /
やはりパパは今物語を伝える /
それで大人になった夢ならば /
わたしを残して行く訳じゃないんじゃないか /
誰かの傷を恐れています /
そう丁度春の朝焼け /
100 万羽のフラミンゴが一斉に翔び発つ鳥 /
Bye Bye Guitar 俺
15

#さだまさしの全歌詞をコーパスに自動生成
去年の冬前に /
永遠にしあわせでありますように /
教えられてた藤色の自分を傷つけ /
わけもなく引き返すにも届かぬが /
心なしかふるえチケットにすがる可愛い人 /
あなたの空を飛ぶ影 /
盂蘭盆会精霊船の舳先にひらり /
留まれり爆竹に嗚咽のごとき声挙げて /
ひしめく船出別れの時を /
失くした訳じゃないんだそうだ
16

[参考]Markov過程
• Wikipediaに項があります
http://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%AB%E3%82%B3%E3%83%95%E9%81%8E
%E7%A8%8B
• 確率過程の一つ。それ以上の説明はこの場で
は割愛。
• 卑近な例だと自動文章生成bot、自動要約bot
などでよく用いられる。
例: http://gigazine.net/index.php?/news/comments/20090709_markov_chain/
17

NLTK実行例(数え上げ)
[freq.py]
#ワードをn-gramモデルに基づいて解析＋出現頻度の数え上げ
def ngrams(words, ngram, limit):
ngrams = nltk.ngrams(words, ngram) #ワード群をn-gram化
fd = nltk.FreqDist(ngrams) #数え上げ
result = {}
for f in fd: #FreqDist構造を普通のdictionaryに変換（非クール)
r = ""
for n in range(0, ngram):
if n > 0:
r += " "
r += f[n]
result[r] = fd[f]
c = 0 #出現頻度多い順にソートして標準出力
for k,v in sorted(result.items(), key=lambda x:x[1], reverse=True):
c += 1
if limit > 0:
if c > limit:
break
print k + "t" + str(result[k])
18

#さだまさしの全歌詞をコーパスに、3-gramの出現頻度上位１０件を出力
$ python freq.py text/sada_lylic.txt 3 10
ていた 148
のように 88
の中で 75
がんばらんば 63
て来た 59
になって 58
になった 56
てきた 54
いつまでも 50
だろうか 50
19

[参考]n-gram言語モデル
• Wikipediaに項があります
（ただし正確な記述とは言いがたい・・）
http://ja.wikipedia.org/wiki/%E5%85%A8%E6%96%87%E6%A4%9C%E7%B4%A2#N-Gram
• 「ある文字列の中で、N個の文字列または単語
の組み合わせが、どの程度出現するか」
を調べるための言語モデル。
• 検索のインデクシング等によく使われる
20

分布類似度の算出
[bmc_sample.py]
#2-gramのコーパス（freq.pyの解析結果のようなもの）を用いて
#ある単語と分布類似度が高いワード上位10件を抽出
#Baiduのサイトから落としてきたプログラムなのでソースの中身の解説は割愛。
$ python bmc_sample.py text/2gram.txt 愛
生命

0.107754

(L:ない L:この R:について L:短い L:始め L:たとえば L:強い L:あゝ R:あり L:小さな)
夢

0.089521

(L:ない L:いつか L:大きな L:この R:という L:から R:だけ L:速く L:ゆく L:なつかしい)
恋

0.083796

(L:この L:ない R:ちゃ L:短い R:あり L:あの R:なんて L:もう L:いつか R:なら)
君

0.079821

(L:ない R:だけ L:いつか R:という L:返す L:咲く L:そして L:から L:ゆく L:陽射し)
心

0.077502

(L:この R:だけ L:ない L:強い L:あゝ L:続ける R:について L:から L:大きな L:咲く)
海

0.076430

(L:この L:いつか L:大きな L:ない L:から L:あの L:けれど L:てる)
町

0.071117

(L:この L:ない L:大きな L:あの L:小さな R:だっ R:それ L:てる)
人

0.070258

(L:ない R:だけ L:いつか R:という L:この L:植える L:ゆく L:違う R:として R:それぞれ)
まま

0.064601

(L:この L:ない L:あの R:だっ R:この)
あなた

0.060459

(L:ない R:だけ L:いつか L:から L:通る L:速く L:ゆく L:本当は L:たとえば L:違う)
21

[参考]分布類似度
• 「似た語は似た文脈で出現する」
という仮説に基づいて算出される類似度。
- 上記の場合「さだまさし」と「中島みゆき」は似たよう
な文脈で語られているので似ているとする
さだ_まさし_の_歌_は_暗い_けど_好き
中島_みゆき_の_歌_は_暗い_けど_好き
彼_の_性格_は_暗い_から_嫌い
エグザイル_は_2038_年_に_日本_の_人口_を_抜くから_好き
エグザイル_の_歌_は_嫌い。
松崎_しげる_の_顔_は_暗い。いや_黒い。
22

[lib]Hadoop(はどぅーぷ)
• 世間では話題になってるらしいアレ
http://hadoop.apache.org/
• 本も出ている。
• Hadoop Streamingを用いることでPythonでも
Map/Reduceロジックが書ける
23

Hadoop Streaming
コマンド例
$hadoop jar ${HADOOP_HOME}/contrib/streaming/hadoop-0.20.x-streaming.jar
-mapper "python map.py"
-reducer "python reduce.py"
-input /python/input/
-output /python/output
-mapper:Mapタスク
-reducer:Reduceタスク
-input:解析対象のデータフォルダ/ファイル
-output:解析結果の出力フォルダ
※他にもJobConfに設定できる内容はだいたいオプションにある。
http://hadoop.apache.org/common/docs/r0.20.2/streaming.html#Streaming+Options+and+Usage
24

Map参考コード
[map.py]
if __name__ == "__main__":
for line in sys.stdin: #標準入力から１行づつ読み込み
line = line.strip()
words = parse(line)
fd = nltk.FreqDist(words)
for f in fd:
print f + “¥t” fd[f] #標準出力にKey/Valueのペアを出力
25

Reduce参考コード
[reduce.py]
if __name__ == "__main__":
word2count = {}
for line in sys.stdin: #標準入力からKey/Valueを取得
line = line.strip()
word, count = line.split('t', 1)
try:
count = int(count)
word2count[word] = word2count.get(word, 0) + count
exceptValueError:
pass
sorted_word2count = sorted(word2count.items(), key=itemgetter(0))
for word, count in sorted_word2count:
print '%st%s'% (word, count) #標準出力にKey/Valueのペアを出力
26

まとめにかえて
• NLTKがあるお陰で自然言語処理関連の実装を
する時はPythonで書くのが楽です。
- パフォーマンスやアルゴリズムのチューニングは別途必
要そう。お試しとしては良い。
• 仕事で使う機会がありそうであれば思い出し
てあげてください。
27

Pythonで自然言語処理

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Pythonで自然言語処理

Similar to Pythonで自然言語処理 (15)

More from moai kids

More from moai kids (20)

Recently uploaded

Recently uploaded (10)

Pythonで自然言語処理