Zipf?
2015/4/29 DSIRNLP #7
@shuyo
ジップ則(べき乗則)
• 単語の頻度がよく従う分布
• 𝑟 番目に多い単語の頻度 𝑓𝑟 について※
𝑓𝑟 ∝
1
𝑟
• 両対数グラフが直線になる
• 80-20 の法則+ロングテール
– 大部分をごく一部が占めるが、
すそも異様に長い
※より一般には、ある 𝑠 があって 𝑓𝑟 ∝
1
𝑟 𝑠 (べき乗則)
ジップ則、謎い
• 言語によらない
– 英語、イタリア語、日本語(単語、漢字)、……
• 言語に限らない
– 都市の人口、遺伝子、アクセス数、株価、 ……
• スケールフリーネットワークのモデルで説明
がつく場合もある
– 最小努力原理での説明を試みている人もいる
[Zipf 1949][Cancho+ 2003]
– けどまだ説明しきれてはいない(よね?)
ランダムテキストがZipf則に従う
[Li 1992]
• a~z と空白の 27 文字を一様分布させてラ
ンダムテキストを生成
• 空白で区切られた「単語」の頻度がなん
と! Zipf 則に従うんだ! すげー!
– ほんまに?
実験しよう!
実験その1
• a~z と空白の 27 文字を一様分布
• 1千万単語の頻度ランキングを両対数で
Zipf 則だ!?
ちゃうやろ~
一様分布アカン
実験その2
• Reuters コーパスの文字割合を生成確率に
使ってランダムコーパスを作る
_ 0.2186 i 0.0568 r 0.0560
a 0.0646 j 0.0016 s 0.0591
b 0.0119 k 0.0054 t 0.0694
c 0.0292 l 0.0360 u 0.0213
d 0.0331 m 0.0205 v 0.0090
e 0.0885 n 0.0575 w 0.0101
f 0.0176 o 0.0566 x 0.0025
g 0.0139 p 0.0198 y 0.0116
h 0.0270 q 0.0016 z 0.0007
それっぽい!
単語の分布に
• 文字の分布が関係してそう?
– 実は文字もジップ分布だと ぴったり直線に
• でも(表音)文字の分布≒音素の分布
– 英語は読みと綴りの対応ひどいけどね!
• 音素は言語の発展に反比例して減少傾向
– 経済性の原理?
• 音素の分布とジップ則に関連ある? ない?
– そこらへんに言語の秘密が……???
References
• Manning and Schuetze (1999). "Foundations of
Statistical Natural Language Processing"
• Zipf (1949). "Human Behavior and the Principle
of Least Effort"
• Wentian Li (1992). "Random Texts Exhibit Zipf's-
Law-Like Word Frequency Distribution"
• Cancho and Sole (2003). "Least effort and the
origins of scaling in human language"

Zipf? (ジップ則のひみつ?) #DSIRNLP