SlideShare a Scribd company logo
1 of 68
Download to read offline
1
2
3
4
5
要件定義 
データ収集 
クレンジング・ 加工 
集計・分析 
ビジュアライズ 
・リサーチ 
・課題抽出 
・前提条件確認 
-時間 
-金額 
-データ 
-インフラ 
・ダウンロード 
・API 
・スクレイピング 
・データ統合 
・修正 
・RDBM化 
タス ク 
必 要 ス キル・ 技 能 
・単純集計 ・クロス集計 ・統計解析 ・機械学習 
・表化 
・グラフ化 
・ダッシュボード化 
・コンサルティング 
・プロジェクトマネジ メント 
・業界知見 
・ビジネス知見 
(会計、その他) 
・クローリング 
・HTML/FTP等の サーバーインフラ 系知識 
・データ加工のプロ グラミング 
・データベース設計 
・SQL系のデータ ベース 
・R、SAS系の予測分 析、機械学習系の プログラミング 
・Excel、PowerPoint でのプレゼンテー ション 
・Tableau系のダッ シュボードツール 
時 間 
3日~1週間 
25% 
1日~2日 
10% 
3日~1週間 
25% 
1日~1週間 
20% 
1日~1週間 
20% 
6
要件定義 
データ収集 
クレンジング・ 加工 
集計・分析 
ビジュアライズ 
・リサーチ 
・課題抽出 
・前提条件確認 
-時間 
-金額 
-データ 
-インフラ 
・ダウンロード 
・API 
・スクレイピング 
・データ統合 
・修正 
・RDBM化 
タス ク 
・分析設計 
・単純集計 
・クロス集計 
・統計解析 
・機械学習 
・表化 
・グラフ化 
・ダッシュボード化 
・メッセージング 
本 日 の 内 容 
皆さんに 
わかりやすく 
楽しいデータ 
”分析例”を提供 
wget一撃 
json⇒SQL 
Python 
UNIXによる加工 
SQLによる集計 
とサンプリング 
Pentaho集計 
Rによる解析 
Tableauで可視化 
ダッシュボード化 
所 要 時 間 
1日 
30分 
1時間 
1日~3日 
4時間 
7
8
9
http://www.nii.ac.jp/cscenter/idr/nico/nico.html 
ニコニコ動画コメント等データ 
-動画メタデータ 
【理由】 
・無料/使いやすい 
・実サービスで、結果の解釈がしやすい 
・時系列、テキストマイニング等、 
あらゆるものをはめられる。 
・大きさもそこそこ(12GBくらい) 
・ブログ書いてます 
(http://d.hatena.ne.jp/monnalisasmile/) 
10
wget –r example.com ≪格納先≫ 
参考URL:http://girigiribauer.com/archives/925 
【wgetコマンドをクローラーとして使う】 
wget 
--recursive 
--level inf 
--no-clobber 
--random-wait 
--restrict-file-names=windows 
--convert-links 
--no-parent 
--adjust-extension 
example.com 
11
12
13
14
【各設定の説明】 
Headers:カラム名の出力有無 
⇒ON 
Output:画面出力orファイル出力 
⇒.output ファイル名で、ファイル出力 
separator:区切り文字の説明 
⇒.separator ,でカンマ区切り 
旧設定 
設定変更 
新設定 
15
http://www.sql-reference.com/ 
http://www.1keydata.com/jp/sql/ 
16
【各カラムの説明】 
video_id:ビデオのID番号 
Title:ビデオのタイトル 
view_counter:再生数 
mylist_counter:マイリスト数 
Length:動画の長さ(秒) 
comment_counter:コメント数 
upload_time:アップロードした時間 
Tags:タグ(複数の場合、”_”で接続。 
17
Select avg(view_count),avg(xxxx),・・・ from yyyy; 
18
19
20
21 
A = B + B’ 
C = B/A 
A > B
22
23
24
区切り文字をSqlite3上でxxyyzzへ変換 
Sedコマンドによる置換 
25
http://orangain.hatenablog.com/entry/20100916/1284631280 
・cat:縦結合 
・paste/join:横結合 
・head:行頭x行だけ抜く 
・grep:条件による行抽出 
・cut:列抽出 
・sed:置換 
・sort:並び変え、uniqの前処理 
・uniq:ユニーク化 
・wc:行数を数える(答え併せ用) 
・nkf:エンコーディング(要インスト) 
・awk:スクリプト言語 
26
27
28
29
30
31
32
33
34
35
経過日数 
※正確にアップロード経過日数の再生数を記録しているわけではなく、 
ある時点でのアップロードから3日経過した動画の平均値を出している。 
36
37 
動画タイトル日付再生数 
AAAAAAA 2014/9/20 8,241 
AAAAAAA 2014/9/21 6,125 
AAAAAAA 2014/9/22 5,391 
AAAAAAA 2014/9/23 531 
AAAAAAA 2014/9/24 4,399 
AAAAAAA 2014/9/25 3,123 
AAAAAAA 2014/9/26 4,574 
BBBBBBB 2014/9/14 3,715 
BBBBBBB 2014/9/15 2,717 
BBBBBBB 2014/9/16 8,460 
BBBBBBB 2014/9/17 2,454 
BBBBBBB 2014/9/18 1,982 
BBBBBBB 2014/9/19 2,092 
BBBBBBB 2014/9/20 7,444 
BBBBBBB 2014/9/21 3,663 
BBBBBBB 2014/9/22 4,246 
BBBBBBB 2014/9/23 5,155 
BBBBBBB 2014/9/24 9,400 
BBBBBBB 2014/9/25 9,163 
BBBBBBB 2014/9/26 1,855 
動画タイトルアップロード日付再生数経過期間 
AAAAAAA 2014/8/20 9,642 42 
BBBBBBBB 2014/7/11 1,252 82 
CCCCCCCC 2014/6/1 3,532 122 
DDDDDDDD 2014/5/22 1,576 132 
EEEEEEEEEE 2014/5/12 7,681 142 
DF 2014/2/1 9,555 242 
asdjhgtagaqg 2013/10/24 3,804 342 
sgajghjahgah 2013/11/13 5,270 322 
gdahdjkgahlgal 2013/12/3 3,669 302 
ajsghjasdhgaklg 2013/8/25 1,437 402 
sghajhjehahg 2013/7/16 7,166 442 
aghajhgahjkerga 2013/6/6 8,006 482 
egahjghaehgajkl 2013/7/27 8,983 431 
gajseghjahjlghaj 2013/9/16 557 380 
gnasjgjhdfakh@ 2013/11/6 9,941 329 
nlghakjhiarh; 2013/12/27 1,282 278 
algjoiwheghal 2012/11/18 4,090 682 
gnalkgh;aoeugp 2011/10/11 2,327 1,086 
gnklanhgheoha 2012/8/30 1,341 762 
gnklao;ho;gweh 2013/7/20 5,367 438
y = 415.55x-0.666 R² = 0.9161 
0 
100 
200 
300 
400 
500 
600 
700 
800 
0 
200 
400 
600 
800 
1000 
1200 
1400 
1600 
view_count 
累乗 (view_count) 
38
固いが、基本につい ては一番しっかり書 いてある。 
いや、使ってみて決 めるわというヒトに。 知識俯瞰にも有効。 
データサイエンスを 一番よく俯瞰してい る。ここから各専門 書へ。 
久保さんが神。 
最小二乗法⇒尤 度推定⇒階層ベ イズの説明の流 れは神です。 
39
Rの学習をしながら 
統計の勉強も出来る おトクな一冊 
様々なデータセットを 使って実際に勉強でき る。米系データセットが 多いので、分析結果に ピンとこないものも。 
会話形式で進むわかりや すい入門書。取り敢えずR で色々な分析回したい人 にはうってつけの書籍。 
40
参考:「でたぁっ 感動と失敗の備忘録」 
佐藤さんのブログhttp://deta.hateblo.jp/entry/2014/05/08/052916 
> source('~/Desktop/R/decrease_model.R') 
It. 0, RSS = 44314.9, Par. = 4.2 819.469 -0.800566 
It. 1, RSS = 15135.2, Par. = -3.27199 689.324 -0.719096 
It. 2, RSS = 15049.2, Par. = -4.06311 692.061 -0.713378 
It. 3, RSS = 15049.2, Par. = -4.05919 692.114 -0.713528 
It. 4, RSS = 15049.2, Par. = -4.05942 692.113 -0.713525 
41 
R^2=0.9849772> 0.9161 (Excel)
0.0% 
20.0% 
40.0% 
60.0% 
80.0% 
100.0% 
120.0% 
0 
5 
10 
15 
20 
25 
30 
35 
view_count 
predictionR 
prediction_xls 
アップロードからの経過日数 
初速に 対する摩耗率 1日あたりの再生数摩耗状況 
42
43 
Y = a + b*x^cモデル AIC:2401.326 
Y = b*x^cモデル AIC:2431.819 
当てはまりの良さ 
パラメーター数によるペナルティ
44
分析対象①タイトル文 
分析対象②タグ 
動画検索もキーワード、タグと分かれている。 
45
MeCabインストール 
RMeCabインストール 
辞書編集 
46
47
順位 
word 
Info1 
Info2 
Freq 
topとの比 
タグ順位 
1 
実況 
名詞 
一般 
952337 
100.0% 
15 
2 
実況プレイ 
名詞 
固有名詞 
563761 
59.2% 
3 
3 
part 
名詞 
固有名詞 
504697 
53.0% 
82 
4 
プレイ 
名詞 
一般 
373371 
39.2% 
12 
5 
動画 
名詞 
一般 
330019 
34.7% 
2 
6 
Part 
名詞 
固有名詞 
298372 
31.3% 
82 
7 
part 
名詞 
一般 
242152 
25.4% 
82 
8 
Part 
名詞 
一般 
169590 
17.8% 
82 
9 
東方 
名詞 
一般 
141042 
14.8% 
5 
10 
オリジナル 
名詞 
固有名詞 
112628 
11.8% 
24 
11 
初音ミク 
名詞 
固有名詞 
98884 
10.4% 
22 
12 
MAD 
名詞 
固有名詞 
89329 
9.4% 
75 
13 
曲 
名詞 
一般 
81770 
8.6% 
21 
14 
マスター 
名詞 
固有名詞 
81592 
8.6% 
14 
15 
アイドル 
名詞 
固有名詞 
81489 
8.6% 
13 
16 
三国志大戦 
名詞 
固有名詞 
78016 
8.2% 
26 
17 
ゲーム 
名詞 
一般 
77174 
8.1% 
1 
18 
MMD 
名詞 
固有名詞 
64352 
6.8% 
69 
19 
MUGEN 
名詞 
固有名詞 
62111 
6.5% 
39 
20 
大会 
名詞 
一般 
60204 
6.3% 
249 
21 
男 
名詞 
一般 
53692 
5.6% 
65 
22 
ポケモン 
名詞 
固有名詞 
53435 
5.6% 
30 
23 
パート 
名詞 
一般 
50766 
5.3% 
2838 
24 
ver 
名詞 
一般 
50679 
5.3% 
1036 
25 
人 
名詞 
一般 
50032 
5.3% 
18 
26 
最終 
名詞 
一般 
48204 
5.1% 
147 
27 
ブレイク 
名詞 
固有名詞 
47859 
5.0% 
29 
28 
amp 
名詞 
固有名詞 
47796 
5.0% 
74 
29 
後編 
名詞 
一般 
47608 
5.0% 
出現なし 
30 
鬼 
名詞 
一般 
47246 
5.0% 
52 
タイトル文の頻度分析結果 
タグ文の頻度分析結果 
順位 
word 
Info1 
Info2 
Freq 
topとの比 
タイトル文順位 
1 
ゲーム 
名詞 
一般 
3722758 
100.0% 
17 
2 
動画 
名詞 
一般 
1879199 
50.5% 
5 
3 
実況プレイ 
名詞 
固有名詞 
1516231 
40.7% 
2 
4 
音楽 
名詞 
一般 
903688 
24.3% 
222 
5 
東方 
名詞 
一般 
482625 
13.0% 
9 
6 
コメント 
名詞 
固有名詞 
475409 
12.8% 
608 
7 
シリーズ 
名詞 
固有名詞 
388444 
10.4% 
109 
8 
アニメ 
名詞 
一般 
384343 
10.3% 
72 
9 
ニコニコ 
名詞 
固有名詞 
376676 
10.1% 
111 
10 
VOCALOID 
名詞 
固有名詞 
363480 
9.8% 
179 
11 
エンターテイメント 
名詞 
固有名詞 
320936 
8.6% 
出現なし 
12 
プレイ 
名詞 
一般 
307308 
8.3% 
4 
13 
アイドル 
名詞 
固有名詞 
289150 
7.8% 
15 
14 
マスター 
名詞 
固有名詞 
285313 
7.7% 
14 
15 
実況 
名詞 
一般 
271741 
7.3% 
1 
16 
ー 
名詞 
一般 
203125 
5.5% 
4055 
17 
ムービー 
名詞 
固有名詞 
173192 
4.7% 
89 
18 
人 
名詞 
一般 
168323 
4.5% 
25 
19 
メーカー 
名詞 
固有名詞 
166108 
4.5% 
1729 
20 
ボカロオリジナル 
名詞 
一般 
165151 
4.4% 
出現なし 
21 
曲 
名詞 
一般 
162986 
4.4% 
13 
22 
初音ミク 
名詞 
固有名詞 
162355 
4.4% 
11 
23 
スポーツ 
名詞 
固有名詞 
149003 
4.0% 
2440 
24 
オリジナル 
名詞 
固有名詞 
146090 
3.9% 
10 
25 
ラジオ 
名詞 
一般 
141972 
3.8% 
50 
26 
三国志大戦 
名詞 
固有名詞 
122582 
3.3% 
16 
27 
神 
名詞 
一般 
113649 
3.1% 
54 
28 
動物 
名詞 
一般 
101485 
2.7% 
1477 
29 
ブレイク 
名詞 
固有名詞 
101299 
2.7% 
27 
30 
ポケモン 
名詞 
固有名詞 
100628 
2.7% 
22 上位30KW中、13KWがタグ文、タイトル文の両方に出てきている。また、トップとの比率で見ると、タグ文の方が上位KWへの頻度集中が強い。 タイトル文では、ボーカロイドのようなワードよりも「初音ミク」と指定されることが多く、逆に「曲」のような範囲の広いワードも多い。 タグ文は、検索に対しても、独特のルールがあるのか「ボカロオリジナル」のようなワードが抽出されている。 
48
49
50
51
本日のまとめ 
本日のまとめ 
52
53
54
55
56
57
58
Occam’s Razor by Avinash Kaushik 
http://www.kaushik.net/avinash/ 
The information Lab 
http://www.theinformationlab.co.uk/ 
The Datographer 
http://datographer.blogspot.jp/ 
サイエンスメディアな日々、インフォグラフィックな日々 
http://scivis.hateblo.jp/ 
59
参考【第38回Tokyo webmining資料LT20140726用】 
http://www.slideshare.net/koichirokondo/tokyo-webmining20140726 
60
61
62
• 
• 
• 
• 
– 
– 
– 
63
http://thinkit.co.jp/article/70/1/ 
64
ビジュアライズ 
対象データ 
処理&分析 
・スケーラビリティ ・リアルタイム性 (更新頻度) ・クレンジング有無 
・分析インフラ 
・集計インフラ 
・DB、データマート化? 
ビジュアライズプロジェクト運用における検討ポイント 
ビジュアライズプロジェクト開始における検討ポイント 
・誰が何を確認するためのビジュアライズなのか?(ビジュアライズ大方針) 
-目的(Purpose)は何か? 
-閲覧者、意思決定者(Target)は誰か? 
⇒例:外部要因・内部要因から、明日の売上を予測するダッシュボード? 
お客様の属性別に購買行動を可視化するためのダッシュボード? 
・いつ、どこで、どのように確認するのか? (ビジュアライズのディティール) 
-どのデバイス(where)で確認するのか?⇒スマホ?PC?スクリーン? 
-どのくらいの頻度(when)で確認するのか?⇒毎日?週次?月次? 
-どのようなオケージョン(How)で確認するのか?⇒会議?朝の電車? デザイン 
・ツール 
・デバイス 
・インタラクションの増減 
組織共有 
・オンライン 
・アプリケーション 
・メール 
・紙 
選 択オプショ ン 
評 価ポイン ト 
・属性データ 
・トランザクションデータ 
・ウェブログ等 
・速度 
・高度分析の有無 
・デザインツールとの連携 
・見やすさ/わかりやすさ 
・包括性 
・情報量とメッセージング 
・深掘りの可否 
・アクション誘引 
・アベイラビリティ 
・意思決定者のリテラシー 
65
経過日数 
摩耗率少ない 
摩耗率少ない 
摩耗率高い 
摩耗率超高い 
摩耗率高い 
摩耗率普通 
摩耗率普通 
摩耗率少ない 
摩耗率少ない 
摩耗率少ない 
66
【ダッシュボードの定義】 
1.A dashboard is a visual display(ディスプレイ上のビジュアル) 
of 
2.the most important information needed to achieve one or more objectives 
(目標を達成するための最も大切な情報を集約している) 
that has been 
3.consolidated on a single computer screen(一つのスクリーンで見ることが出来る) 
so it can be 
4.monitored at a glance(一目で確認が出来る) 
67
対象期間の設定 
対象通貨の設定 
68

More Related Content

Viewers also liked

改アイデアをグイグイ拡げましょうシート
改アイデアをグイグイ拡げましょうシート改アイデアをグイグイ拡げましょうシート
改アイデアをグイグイ拡げましょうシート
Tomoya Takahashi
 
マルチスレッド学習のミッシングリンク
マルチスレッド学習のミッシングリンクマルチスレッド学習のミッシングリンク
マルチスレッド学習のミッシングリンク
Satoshi KOBAYASHI
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニング
Hiroshi Ono
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
antibayesian 俺がS式だ
 

Viewers also liked (20)

変化に強いインフラを楽して構築するために考えること
変化に強いインフラを楽して構築するために考えること変化に強いインフラを楽して構築するために考えること
変化に強いインフラを楽して構築するために考えること
 
改アイデアをグイグイ拡げましょうシート
改アイデアをグイグイ拡げましょうシート改アイデアをグイグイ拡げましょうシート
改アイデアをグイグイ拡げましょうシート
 
Tableau事例発表20151028
Tableau事例発表20151028Tableau事例発表20151028
Tableau事例発表20151028
 
データサイエンス業務と「ツール」
データサイエンス業務と「ツール」データサイエンス業務と「ツール」
データサイエンス業務と「ツール」
 
Rのインストール
RのインストールRのインストール
Rのインストール
 
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
 
ニコニコ動画データセット分析環境作ってみたその後
ニコニコ動画データセット分析環境作ってみたその後ニコニコ動画データセット分析環境作ってみたその後
ニコニコ動画データセット分析環境作ってみたその後
 
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
 
統計学の良著 データサイエンティストのひよこになるまで
統計学の良著 データサイエンティストのひよこになるまで統計学の良著 データサイエンティストのひよこになるまで
統計学の良著 データサイエンティストのひよこになるまで
 
R入門編
R入門編R入門編
R入門編
 
マルチスレッド学習のミッシングリンク
マルチスレッド学習のミッシングリンクマルチスレッド学習のミッシングリンク
マルチスレッド学習のミッシングリンク
 
KDD2014_study
KDD2014_study KDD2014_study
KDD2014_study
 
データ・テキストマイニング
データ・テキストマイニングデータ・テキストマイニング
データ・テキストマイニング
 
20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)20130916第3回テキストマイニングシンポジウム資料(浅野)
20130916第3回テキストマイニングシンポジウム資料(浅野)
 
データサイエンスの全体像
データサイエンスの全体像データサイエンスの全体像
データサイエンスの全体像
 
書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説
 
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
 
京都大学鹿島研究室勉強会資料-配布用-
京都大学鹿島研究室勉強会資料-配布用-京都大学鹿島研究室勉強会資料-配布用-
京都大学鹿島研究室勉強会資料-配布用-
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた
 

Similar to 第二回データサイエンティスト木曜勉強会20141016

リアルタイムデータを活用したインターネットユーザーへのアプローチ
リアルタイムデータを活用したインターネットユーザーへのアプローチリアルタイムデータを活用したインターネットユーザーへのアプローチ
リアルタイムデータを活用したインターネットユーザーへのアプローチ
菊池 佑太
 

Similar to 第二回データサイエンティスト木曜勉強会20141016 (12)

Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
Mind’s Eye: A Recurrent Visual Representation for Image Caption GenerationMind’s Eye: A Recurrent Visual Representation for Image Caption Generation
Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation
 
まとめ.pdf
まとめ.pdfまとめ.pdf
まとめ.pdf
 
Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築
 
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
文献紹介:SegFormer: Simple and Efficient Design for Semantic Segmentation with Tr...
 
IPv6 Survey 2019
IPv6 Survey 2019IPv6 Survey 2019
IPv6 Survey 2019
 
リアルタイムデータを活用したインターネットユーザーへのアプローチ
リアルタイムデータを活用したインターネットユーザーへのアプローチリアルタイムデータを活用したインターネットユーザーへのアプローチ
リアルタイムデータを活用したインターネットユーザーへのアプローチ
 
楽天プロジェクトX:基幹DB移設 編
楽天プロジェクトX:基幹DB移設 編楽天プロジェクトX:基幹DB移設 編
楽天プロジェクトX:基幹DB移設 編
 
【Oracle ORION編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
【Oracle ORION編】サーバ環境が進化する今話題のPCIe SSDを評価してみた【Oracle ORION編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
【Oracle ORION編】サーバ環境が進化する今話題のPCIe SSDを評価してみた
 
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
第16回Lucene/Solr勉強会 – ランキングチューニングと定量評価 #SolrJP
 
リクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+αリクルートにおけるhadoop活用事例+α
リクルートにおけるhadoop活用事例+α
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
Scis2017 2007-01-27-02
Scis2017 2007-01-27-02Scis2017 2007-01-27-02
Scis2017 2007-01-27-02
 

第二回データサイエンティスト木曜勉強会20141016

  • 1. 1
  • 2. 2
  • 3. 3
  • 4. 4
  • 5. 5
  • 6. 要件定義 データ収集 クレンジング・ 加工 集計・分析 ビジュアライズ ・リサーチ ・課題抽出 ・前提条件確認 -時間 -金額 -データ -インフラ ・ダウンロード ・API ・スクレイピング ・データ統合 ・修正 ・RDBM化 タス ク 必 要 ス キル・ 技 能 ・単純集計 ・クロス集計 ・統計解析 ・機械学習 ・表化 ・グラフ化 ・ダッシュボード化 ・コンサルティング ・プロジェクトマネジ メント ・業界知見 ・ビジネス知見 (会計、その他) ・クローリング ・HTML/FTP等の サーバーインフラ 系知識 ・データ加工のプロ グラミング ・データベース設計 ・SQL系のデータ ベース ・R、SAS系の予測分 析、機械学習系の プログラミング ・Excel、PowerPoint でのプレゼンテー ション ・Tableau系のダッ シュボードツール 時 間 3日~1週間 25% 1日~2日 10% 3日~1週間 25% 1日~1週間 20% 1日~1週間 20% 6
  • 7. 要件定義 データ収集 クレンジング・ 加工 集計・分析 ビジュアライズ ・リサーチ ・課題抽出 ・前提条件確認 -時間 -金額 -データ -インフラ ・ダウンロード ・API ・スクレイピング ・データ統合 ・修正 ・RDBM化 タス ク ・分析設計 ・単純集計 ・クロス集計 ・統計解析 ・機械学習 ・表化 ・グラフ化 ・ダッシュボード化 ・メッセージング 本 日 の 内 容 皆さんに わかりやすく 楽しいデータ ”分析例”を提供 wget一撃 json⇒SQL Python UNIXによる加工 SQLによる集計 とサンプリング Pentaho集計 Rによる解析 Tableauで可視化 ダッシュボード化 所 要 時 間 1日 30分 1時間 1日~3日 4時間 7
  • 8. 8
  • 9. 9
  • 10. http://www.nii.ac.jp/cscenter/idr/nico/nico.html ニコニコ動画コメント等データ -動画メタデータ 【理由】 ・無料/使いやすい ・実サービスで、結果の解釈がしやすい ・時系列、テキストマイニング等、 あらゆるものをはめられる。 ・大きさもそこそこ(12GBくらい) ・ブログ書いてます (http://d.hatena.ne.jp/monnalisasmile/) 10
  • 11. wget –r example.com ≪格納先≫ 参考URL:http://girigiribauer.com/archives/925 【wgetコマンドをクローラーとして使う】 wget --recursive --level inf --no-clobber --random-wait --restrict-file-names=windows --convert-links --no-parent --adjust-extension example.com 11
  • 12. 12
  • 13. 13
  • 14. 14
  • 15. 【各設定の説明】 Headers:カラム名の出力有無 ⇒ON Output:画面出力orファイル出力 ⇒.output ファイル名で、ファイル出力 separator:区切り文字の説明 ⇒.separator ,でカンマ区切り 旧設定 設定変更 新設定 15
  • 17. 【各カラムの説明】 video_id:ビデオのID番号 Title:ビデオのタイトル view_counter:再生数 mylist_counter:マイリスト数 Length:動画の長さ(秒) comment_counter:コメント数 upload_time:アップロードした時間 Tags:タグ(複数の場合、”_”で接続。 17
  • 19. 19
  • 20. 20
  • 21. 21 A = B + B’ C = B/A A > B
  • 22. 22
  • 23. 23
  • 24. 24
  • 26. http://orangain.hatenablog.com/entry/20100916/1284631280 ・cat:縦結合 ・paste/join:横結合 ・head:行頭x行だけ抜く ・grep:条件による行抽出 ・cut:列抽出 ・sed:置換 ・sort:並び変え、uniqの前処理 ・uniq:ユニーク化 ・wc:行数を数える(答え併せ用) ・nkf:エンコーディング(要インスト) ・awk:スクリプト言語 26
  • 27. 27
  • 28. 28
  • 29. 29
  • 30. 30
  • 31. 31
  • 32. 32
  • 33. 33
  • 34. 34
  • 35. 35
  • 37. 37 動画タイトル日付再生数 AAAAAAA 2014/9/20 8,241 AAAAAAA 2014/9/21 6,125 AAAAAAA 2014/9/22 5,391 AAAAAAA 2014/9/23 531 AAAAAAA 2014/9/24 4,399 AAAAAAA 2014/9/25 3,123 AAAAAAA 2014/9/26 4,574 BBBBBBB 2014/9/14 3,715 BBBBBBB 2014/9/15 2,717 BBBBBBB 2014/9/16 8,460 BBBBBBB 2014/9/17 2,454 BBBBBBB 2014/9/18 1,982 BBBBBBB 2014/9/19 2,092 BBBBBBB 2014/9/20 7,444 BBBBBBB 2014/9/21 3,663 BBBBBBB 2014/9/22 4,246 BBBBBBB 2014/9/23 5,155 BBBBBBB 2014/9/24 9,400 BBBBBBB 2014/9/25 9,163 BBBBBBB 2014/9/26 1,855 動画タイトルアップロード日付再生数経過期間 AAAAAAA 2014/8/20 9,642 42 BBBBBBBB 2014/7/11 1,252 82 CCCCCCCC 2014/6/1 3,532 122 DDDDDDDD 2014/5/22 1,576 132 EEEEEEEEEE 2014/5/12 7,681 142 DF 2014/2/1 9,555 242 asdjhgtagaqg 2013/10/24 3,804 342 sgajghjahgah 2013/11/13 5,270 322 gdahdjkgahlgal 2013/12/3 3,669 302 ajsghjasdhgaklg 2013/8/25 1,437 402 sghajhjehahg 2013/7/16 7,166 442 aghajhgahjkerga 2013/6/6 8,006 482 egahjghaehgajkl 2013/7/27 8,983 431 gajseghjahjlghaj 2013/9/16 557 380 gnasjgjhdfakh@ 2013/11/6 9,941 329 nlghakjhiarh; 2013/12/27 1,282 278 algjoiwheghal 2012/11/18 4,090 682 gnalkgh;aoeugp 2011/10/11 2,327 1,086 gnklanhgheoha 2012/8/30 1,341 762 gnklao;ho;gweh 2013/7/20 5,367 438
  • 38. y = 415.55x-0.666 R² = 0.9161 0 100 200 300 400 500 600 700 800 0 200 400 600 800 1000 1200 1400 1600 view_count 累乗 (view_count) 38
  • 39. 固いが、基本につい ては一番しっかり書 いてある。 いや、使ってみて決 めるわというヒトに。 知識俯瞰にも有効。 データサイエンスを 一番よく俯瞰してい る。ここから各専門 書へ。 久保さんが神。 最小二乗法⇒尤 度推定⇒階層ベ イズの説明の流 れは神です。 39
  • 40. Rの学習をしながら 統計の勉強も出来る おトクな一冊 様々なデータセットを 使って実際に勉強でき る。米系データセットが 多いので、分析結果に ピンとこないものも。 会話形式で進むわかりや すい入門書。取り敢えずR で色々な分析回したい人 にはうってつけの書籍。 40
  • 41. 参考:「でたぁっ 感動と失敗の備忘録」 佐藤さんのブログhttp://deta.hateblo.jp/entry/2014/05/08/052916 > source('~/Desktop/R/decrease_model.R') It. 0, RSS = 44314.9, Par. = 4.2 819.469 -0.800566 It. 1, RSS = 15135.2, Par. = -3.27199 689.324 -0.719096 It. 2, RSS = 15049.2, Par. = -4.06311 692.061 -0.713378 It. 3, RSS = 15049.2, Par. = -4.05919 692.114 -0.713528 It. 4, RSS = 15049.2, Par. = -4.05942 692.113 -0.713525 41 R^2=0.9849772> 0.9161 (Excel)
  • 42. 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0% 0 5 10 15 20 25 30 35 view_count predictionR prediction_xls アップロードからの経過日数 初速に 対する摩耗率 1日あたりの再生数摩耗状況 42
  • 43. 43 Y = a + b*x^cモデル AIC:2401.326 Y = b*x^cモデル AIC:2431.819 当てはまりの良さ パラメーター数によるペナルティ
  • 44. 44
  • 47. 47
  • 48. 順位 word Info1 Info2 Freq topとの比 タグ順位 1 実況 名詞 一般 952337 100.0% 15 2 実況プレイ 名詞 固有名詞 563761 59.2% 3 3 part 名詞 固有名詞 504697 53.0% 82 4 プレイ 名詞 一般 373371 39.2% 12 5 動画 名詞 一般 330019 34.7% 2 6 Part 名詞 固有名詞 298372 31.3% 82 7 part 名詞 一般 242152 25.4% 82 8 Part 名詞 一般 169590 17.8% 82 9 東方 名詞 一般 141042 14.8% 5 10 オリジナル 名詞 固有名詞 112628 11.8% 24 11 初音ミク 名詞 固有名詞 98884 10.4% 22 12 MAD 名詞 固有名詞 89329 9.4% 75 13 曲 名詞 一般 81770 8.6% 21 14 マスター 名詞 固有名詞 81592 8.6% 14 15 アイドル 名詞 固有名詞 81489 8.6% 13 16 三国志大戦 名詞 固有名詞 78016 8.2% 26 17 ゲーム 名詞 一般 77174 8.1% 1 18 MMD 名詞 固有名詞 64352 6.8% 69 19 MUGEN 名詞 固有名詞 62111 6.5% 39 20 大会 名詞 一般 60204 6.3% 249 21 男 名詞 一般 53692 5.6% 65 22 ポケモン 名詞 固有名詞 53435 5.6% 30 23 パート 名詞 一般 50766 5.3% 2838 24 ver 名詞 一般 50679 5.3% 1036 25 人 名詞 一般 50032 5.3% 18 26 最終 名詞 一般 48204 5.1% 147 27 ブレイク 名詞 固有名詞 47859 5.0% 29 28 amp 名詞 固有名詞 47796 5.0% 74 29 後編 名詞 一般 47608 5.0% 出現なし 30 鬼 名詞 一般 47246 5.0% 52 タイトル文の頻度分析結果 タグ文の頻度分析結果 順位 word Info1 Info2 Freq topとの比 タイトル文順位 1 ゲーム 名詞 一般 3722758 100.0% 17 2 動画 名詞 一般 1879199 50.5% 5 3 実況プレイ 名詞 固有名詞 1516231 40.7% 2 4 音楽 名詞 一般 903688 24.3% 222 5 東方 名詞 一般 482625 13.0% 9 6 コメント 名詞 固有名詞 475409 12.8% 608 7 シリーズ 名詞 固有名詞 388444 10.4% 109 8 アニメ 名詞 一般 384343 10.3% 72 9 ニコニコ 名詞 固有名詞 376676 10.1% 111 10 VOCALOID 名詞 固有名詞 363480 9.8% 179 11 エンターテイメント 名詞 固有名詞 320936 8.6% 出現なし 12 プレイ 名詞 一般 307308 8.3% 4 13 アイドル 名詞 固有名詞 289150 7.8% 15 14 マスター 名詞 固有名詞 285313 7.7% 14 15 実況 名詞 一般 271741 7.3% 1 16 ー 名詞 一般 203125 5.5% 4055 17 ムービー 名詞 固有名詞 173192 4.7% 89 18 人 名詞 一般 168323 4.5% 25 19 メーカー 名詞 固有名詞 166108 4.5% 1729 20 ボカロオリジナル 名詞 一般 165151 4.4% 出現なし 21 曲 名詞 一般 162986 4.4% 13 22 初音ミク 名詞 固有名詞 162355 4.4% 11 23 スポーツ 名詞 固有名詞 149003 4.0% 2440 24 オリジナル 名詞 固有名詞 146090 3.9% 10 25 ラジオ 名詞 一般 141972 3.8% 50 26 三国志大戦 名詞 固有名詞 122582 3.3% 16 27 神 名詞 一般 113649 3.1% 54 28 動物 名詞 一般 101485 2.7% 1477 29 ブレイク 名詞 固有名詞 101299 2.7% 27 30 ポケモン 名詞 固有名詞 100628 2.7% 22 上位30KW中、13KWがタグ文、タイトル文の両方に出てきている。また、トップとの比率で見ると、タグ文の方が上位KWへの頻度集中が強い。 タイトル文では、ボーカロイドのようなワードよりも「初音ミク」と指定されることが多く、逆に「曲」のような範囲の広いワードも多い。 タグ文は、検索に対しても、独特のルールがあるのか「ボカロオリジナル」のようなワードが抽出されている。 48
  • 49. 49
  • 50. 50
  • 51. 51
  • 53. 53
  • 54. 54
  • 55. 55
  • 56. 56
  • 57. 57
  • 58. 58
  • 59. Occam’s Razor by Avinash Kaushik http://www.kaushik.net/avinash/ The information Lab http://www.theinformationlab.co.uk/ The Datographer http://datographer.blogspot.jp/ サイエンスメディアな日々、インフォグラフィックな日々 http://scivis.hateblo.jp/ 59
  • 61. 61
  • 62. 62
  • 63. • • • • – – – 63
  • 65. ビジュアライズ 対象データ 処理&分析 ・スケーラビリティ ・リアルタイム性 (更新頻度) ・クレンジング有無 ・分析インフラ ・集計インフラ ・DB、データマート化? ビジュアライズプロジェクト運用における検討ポイント ビジュアライズプロジェクト開始における検討ポイント ・誰が何を確認するためのビジュアライズなのか?(ビジュアライズ大方針) -目的(Purpose)は何か? -閲覧者、意思決定者(Target)は誰か? ⇒例:外部要因・内部要因から、明日の売上を予測するダッシュボード? お客様の属性別に購買行動を可視化するためのダッシュボード? ・いつ、どこで、どのように確認するのか? (ビジュアライズのディティール) -どのデバイス(where)で確認するのか?⇒スマホ?PC?スクリーン? -どのくらいの頻度(when)で確認するのか?⇒毎日?週次?月次? -どのようなオケージョン(How)で確認するのか?⇒会議?朝の電車? デザイン ・ツール ・デバイス ・インタラクションの増減 組織共有 ・オンライン ・アプリケーション ・メール ・紙 選 択オプショ ン 評 価ポイン ト ・属性データ ・トランザクションデータ ・ウェブログ等 ・速度 ・高度分析の有無 ・デザインツールとの連携 ・見やすさ/わかりやすさ ・包括性 ・情報量とメッセージング ・深掘りの可否 ・アクション誘引 ・アベイラビリティ ・意思決定者のリテラシー 65
  • 66. 経過日数 摩耗率少ない 摩耗率少ない 摩耗率高い 摩耗率超高い 摩耗率高い 摩耗率普通 摩耗率普通 摩耗率少ない 摩耗率少ない 摩耗率少ない 66
  • 67. 【ダッシュボードの定義】 1.A dashboard is a visual display(ディスプレイ上のビジュアル) of 2.the most important information needed to achieve one or more objectives (目標を達成するための最も大切な情報を集約している) that has been 3.consolidated on a single computer screen(一つのスクリーンで見ることが出来る) so it can be 4.monitored at a glance(一目で確認が出来る) 67