目次
I. 背景など (3 slides)
II. 蓄積されたデータ列の意味を解読する (7 slides)
III. 数から意味を見出そう (5 slides)
IV. 新しいソフトウェア (10 slides)
V. 補足 (5 slides)
VI. 予備スライド (16 slides)
found IT project #8 — 2017-07-27 LODGE
(Yahoo! JAPAN)
3
プログラマーの三大美徳
• 怠慢 Laziness ;
全体の手間を減らす手間は惜しまない。
• 短気 Impatience ;
コンピュータ側の怠慢に対する怒り。
• 傲慢 Hubris ;
過剰な自尊心で良いソフトウェアを作り保守する。
— Larry Wall
found IT project #8 — 2017-07-27 LODGE (Yahoo! JAPAN) 48
crosstable (2-way contingency table)
Provides the cross-table from
2 columned table
(Add blue color on “0” )(Extract 3rd and 4th columns)
You may draw many cross-table from a table data.
The crosstable commands provides cross-tables very quickly. 49
vars : extracting columns
• Easier than AWK and Unix-cut .
vars –t 2 ⇒ moves the 2nd column to rightmost.
vars –h 3 ⇒ moves the 3rd column to leftmost.
vars –p 5,9..7 ⇒ shows 5th,9th,8th,7th columns.
vars –d 6..9 ⇒ shows except 6th,7th,8th,9th columns.
-d stands for deleting, -p for printing,
-h for head, -t for tail.
50found IT project #8 — 2017-07-27 LODGE (Yahoo! JAPAN)
累積ヒストグラム (数値分布の把握)
• 通常のヒストグラムは、数値データの
分布によって、ビン(分割)の分け方に
事前指定の困難性が発生。
• 数値データを左から右に、小さい順に
並べて、隙間の無い棒グラフと考える
と良い。
• 提供するコマンドは、対数で動作する
動作モードも用意している。ただし、
R言語に現状依存している。
• 通常の統計グラフに無いような、「グ
ラフから直接かなり正確な数値が読み
取れる」ように、格子の描き方を工夫
している。
Green : Following #
Blue : Followers #
of millions of twitter
accounts
Same plot in
LOG-SCALE
<- The wall
of 2000
53