6. 自己紹介
はてなダイアリーを始めました。
http://d.hatena.ne.jp/gepuro/
サークル
Microcomputer Making Association
http://wiki.mma.club.uec.ac.jp/
http://wiki.mma.club.uec.ac.jp/hayakawa
34. 条件付き頻度分布のプロット
from nltk.corpus import PlaintextCorpusReader
corpus_root = '.'
wordlists = PlaintextCorpusReader(corpus_root, '.*', encoding='utf-8')
corpus = ['tl_for_kaiseki.txt', 'public_for_kaiseki.txt']
cfd = nltk.ConditionalFreqDist(
(target, text)
for target in corpus
for text in wordlists.words(target)
)
35. 条件付き頻度分布のプロット
実行したこと その3
●
文字コードを utf-8 へ
条件付き頻度分布表の表示
グラフの表示
tl_utf = [w.decode('utf-8') for w in voc_tl]
cfd.tabulate(samples=tl_utf[:20])
cfd.plot(samples=tl_utf[:20])
39. 条件付き頻度分布のプロット
パブリックの上位100語に含まれる語
を取り除いてみる
change = []
for w in tl_utf:
if not w in public_utf[:100]:
change.append(w)
cfd.plot(samples=change[1:30])