Frequency with nltk

さくさくテキストマイニング勉強会

条件付き頻度分布 with NLTK
ーコーパスの比較ー

早川　敦士

http://www.slideshare.net/gepuro/
に資料が公開されています。

AGENDA

●自己紹介
●前回の反省

●ツイートの取得

●ゴミ取り

●条件付き頻度分布のプロット

●参考資料

自己紹介

早川　敦士
電気通信大学電気通信学部
システム工学科　三年
TwitterID: @gepuro

統計に興味津々なお年頃
コンピュータサークルに所属

さくさくテキストマイニング勉強会
の初心者代表

自己紹介

はてなダイアリーを始めました。
http://d.hatena.ne.jp/gepuro/

サークル
Microcomputer Making Association
http://wiki.mma.club.uec.ac.jp/
http://wiki.mma.club.uec.ac.jp/hayakawa

前回の反省

ツイートの取得を windows アプリケーション任せ
↓
Tweepy に挑戦

グラフをプロットする時に助詞等が残ったまま
↓
必要の無い語を削除

前回の反省

前回の反省を踏まえて、

4/9 〜 4/14 の間の
自分のタイムラインとパブリックなタイムライン
の比較をしてみます。

前回の反省

テキストマイニングの成果がでるよう

意外な発見を期待して、

取り組みました。

ツイートの取得

パブリックなタイムラインの取得
●

Api.public.timeline()
なるものを使って
過去のパブリックタイムラインを取得しようとした。


●

出来なかった。

パブリックタイムラインに対しては、
過去のツイートに遡るような事が出来ない。


●

現在から未来へかけて取得する方針に変更
↓
VPS 上で５日間取得し続けました。


５日後


自分のタイムラインの取得
●

比較が出来ることを楽しみにしながら、

自分の TL を
過去に遡って取得を試みました。


API 制限

＼ (^o^) ／


●

自分のタイムラインに対しては、

過去 800 件までしか取得できない。
（ 4/15 現在）


●

涙を拭いながら、

http://dev.twitter.com/doc

を見てみると、
ユーザー毎のタイムラインなら、
3200 件まで取得できる。


●

フォローしている人のタイムラインを

順番に取得することに変更


予定が
次々と変更したものの、

２種類のテキストが手に入った。

ゴミ取り

パブリックなタイムラインは複数の言語を含む
↓
日本語だけに

形態素解析
↓
名詞だけを残す（代名詞は除く）

ゴミ取り

多言語を含むテキストから日本語を抽出
●

１行１ツイートのテキストファイル
各行に対して、文字コードを変更する（例： shift-jis)

変更できなければ、日本語以外
変更できれば、日本語 or 英語

ゴミ取り

●

アスキーコードに変更してみる。

出来なければ、日本語

ゴミ取り

●

一部のツイートに対して、
うまく作用しないものがありました。
↓
大体 OK

ゴミ取り

　　　　　　　　　　　　／）
　　　　　　　　　　　／／／）
　　　　　　　　　／ ,.=ﾞ ''" ／　　　
　　　／　　　　 i f 　 ,.r='"-‐' つ＿＿＿ _ 　　こまけぇこたぁいいんだよ！！
　　 / 　　　　　 / 　　　 _,.-‐'~ ／⌒　　⌒＼
　　　　／　　 ,i 　　　 , 二ﾆ ⊃（ ●） . 　（ ●）＼
　　　 / 　　　ﾉ　　　 ilﾞフ ::::::⌒ （ __ 人 __ ）⌒ ::::: ＼
　　　　　　 , ｲ｢ﾄ､　　 ,!,!| 　　　　　 |r┬-| 　　　　　 |
　　　　　 / 　 i ﾄヾヽ _/ ｨ " ＼　　　 ` ー '´ 　　／

ゴミ取り

テキストから名詞を取り出す
●

おなじみの
MeCab
を使いました。

条件付き頻度分布のプロット

ここからは、

NLTK が使える。

頼むぞ！


実行したことその１
●

テキストを読み込み、トークン化させる
@ や RT 、 http といった
必要の無いものを取り除く

１文字の語を取り除く

頻度の多い順にソート (vcb_tl)

f = open('tl.txt')
raw = f.read()
f.close()

token = re.split(' ', raw)

ngword = ['.', '/', '@', '://', 'http', '#', 'RT', '_', ':', '(', ')', '-', '0',
'1', '2', '3', '4', '5', '6', '7', '8', '9', ',']

clean = []
for w in token:
if not w in ngword:
clean.append(w)

tl = []
for w in clean:
if len(w) > 3:
tl.append(w)

fdist = nltk.FreqDist(tl)
vcb_tl = fdist.keys()


実行したこと　その２
●

PlaintextCorpusReader で
テキストを読み込む。

ConditionalFreqDist() で
条件付き頻度分布の準備

from nltk.corpus import PlaintextCorpusReader
corpus_root = '.'
wordlists = PlaintextCorpusReader(corpus_root, '.*', encoding='utf-8')

corpus = ['tl_for_kaiseki.txt', 'public_for_kaiseki.txt']

cfd = nltk.ConditionalFreqDist(
(target, text)
for target in corpus
for text in wordlists.words(target)
)


実行したこと　その３
●

文字コードを utf-8 へ
条件付き頻度分布表の表示
グラフの表示
tl_utf = [w.decode('utf-8') for w in voc_tl]

cfd.tabulate(samples=tl_utf[:20])
cfd.plot(samples=tl_utf[:20])


パブリックと比較して、
地震というワードが多いが、
大震災が少ない。

tl_for_kaiseki.txt は 88,861 outcomes
public_for_kaiseki.txt は 447,175 outcomes

を考慮すれば、 TL にはかなりの頻度で
大震災というワードが流れたことになる。


「こと」、「さん」、「今日」などの

一般的な言葉が含まれるので、

グラフの面白さが半減してしまう。


パブリックの上位１００語に含まれる語
を取り除いてみる

change = []
for w in tl_utf:
if not w in public_utf[:100]:
change.append(w)

cfd.plot(samples=change[1:30])


特徴的に感じた語

知事、被災、震災、
調布、必要、
首相、普通


パブリックなタイムラインと
自分のタイムラインを比較すると、
違いを確認する事ができた。

特に、地域に関する部分で
大きな違いを観測できた。

参考資料

出版　 O'RELLY 　
入門　自然言語処理
Steven Bird, Ewan Klein, Edward Loper 著
萩原　正人、中山　敬広、水野　貴明　訳

バイト及びインターンシップ先
を探しています。

関心のある事柄
テキストマイニング、データマイニング、
マーケティング、自然言語処理、
統計学が関わる仕事、
Python,R 言語

よろしくお願いします。
連絡先： hayakawa アットマーク mma.club.uec.ac. ジェイピー

おわり

ご清聴ありがとうございました。

Frequency with nltk

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (11)

Similar to Frequency with nltk

Similar to Frequency with nltk (20)

More from Atsushi Hayakawa

More from Atsushi Hayakawa (20)

Recently uploaded

Recently uploaded (12)

Frequency with nltk