Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Zipf?
2015/4/29 DSIRNLP #7
@shuyo
ジップ則(べき乗則)
• 単語の頻度がよく従う分布
• 𝑟 番目に多い単語の頻度 𝑓𝑟 について※
𝑓𝑟 ∝
1
𝑟
• 両対数グラフが直線になる
• 80-20 の法則+ロングテール
– 大部分をごく一部が占めるが、
すそも異様に長い
※より...
ジップ則、謎い
• 言語によらない
– 英語、イタリア語、日本語(単語、漢字)、……
• 言語に限らない
– 都市の人口、遺伝子、アクセス数、株価、 ……
• スケールフリーネットワークのモデルで説明
がつく場合もある
– 最小努力原理での説明...
ランダムテキストがZipf則に従う
[Li 1992]
• a~z と空白の 27 文字を一様分布させてラ
ンダムテキストを生成
• 空白で区切られた「単語」の頻度がなん
と! Zipf 則に従うんだ! すげー!
– ほんまに?
実験しよう!
実験その1
• a~z と空白の 27 文字を一様分布
• 1千万単語の頻度ランキングを両対数で
Zipf 則だ!?
ちゃうやろ~
一様分布アカン
実験その2
• Reuters コーパスの文字割合を生成確率に
使ってランダムコーパスを作る
_ 0.2186 i 0.0568 r 0.0560
a 0.0646 j 0.0016 s 0.0591
b 0.0119 k 0.0054 t 0...
それっぽい!
単語の分布に
• 文字の分布が関係してそう?
– 実は文字もジップ分布だと ぴったり直線に
• でも(表音)文字の分布≒音素の分布
– 英語は読みと綴りの対応ひどいけどね!
• 音素は言語の発展に反比例して減少傾向
– 経済性の原理?
• 音素...
References
• Manning and Schuetze (1999). "Foundations of
Statistical Natural Language Processing"
• Zipf (1949). "Human B...
Zipf? (ジップ則のひみつ?) #DSIRNLP
Upcoming SlideShare
Loading in …5
×

Zipf? (ジップ則のひみつ?) #DSIRNLP

3,799 views

Published on

DSIRNLP #7 の LT 資料。ジップ則の謎に迫っていません。

Published in: Technology
  • Be the first to comment

Zipf? (ジップ則のひみつ?) #DSIRNLP

  1. 1. Zipf? 2015/4/29 DSIRNLP #7 @shuyo
  2. 2. ジップ則(べき乗則) • 単語の頻度がよく従う分布 • 𝑟 番目に多い単語の頻度 𝑓𝑟 について※ 𝑓𝑟 ∝ 1 𝑟 • 両対数グラフが直線になる • 80-20 の法則+ロングテール – 大部分をごく一部が占めるが、 すそも異様に長い ※より一般には、ある 𝑠 があって 𝑓𝑟 ∝ 1 𝑟 𝑠 (べき乗則)
  3. 3. ジップ則、謎い • 言語によらない – 英語、イタリア語、日本語(単語、漢字)、…… • 言語に限らない – 都市の人口、遺伝子、アクセス数、株価、 …… • スケールフリーネットワークのモデルで説明 がつく場合もある – 最小努力原理での説明を試みている人もいる [Zipf 1949][Cancho+ 2003] – けどまだ説明しきれてはいない(よね?)
  4. 4. ランダムテキストがZipf則に従う [Li 1992] • a~z と空白の 27 文字を一様分布させてラ ンダムテキストを生成 • 空白で区切られた「単語」の頻度がなん と! Zipf 則に従うんだ! すげー! – ほんまに?
  5. 5. 実験しよう!
  6. 6. 実験その1 • a~z と空白の 27 文字を一様分布 • 1千万単語の頻度ランキングを両対数で Zipf 則だ!?
  7. 7. ちゃうやろ~
  8. 8. 一様分布アカン
  9. 9. 実験その2 • Reuters コーパスの文字割合を生成確率に 使ってランダムコーパスを作る _ 0.2186 i 0.0568 r 0.0560 a 0.0646 j 0.0016 s 0.0591 b 0.0119 k 0.0054 t 0.0694 c 0.0292 l 0.0360 u 0.0213 d 0.0331 m 0.0205 v 0.0090 e 0.0885 n 0.0575 w 0.0101 f 0.0176 o 0.0566 x 0.0025 g 0.0139 p 0.0198 y 0.0116 h 0.0270 q 0.0016 z 0.0007
  10. 10. それっぽい!
  11. 11. 単語の分布に • 文字の分布が関係してそう? – 実は文字もジップ分布だと ぴったり直線に • でも(表音)文字の分布≒音素の分布 – 英語は読みと綴りの対応ひどいけどね! • 音素は言語の発展に反比例して減少傾向 – 経済性の原理? • 音素の分布とジップ則に関連ある? ない? – そこらへんに言語の秘密が……???
  12. 12. References • Manning and Schuetze (1999). "Foundations of Statistical Natural Language Processing" • Zipf (1949). "Human Behavior and the Principle of Least Effort" • Wentian Li (1992). "Random Texts Exhibit Zipf's- Law-Like Word Frequency Distribution" • Cancho and Sole (2003). "Least effort and the origins of scaling in human language"

×