More Related Content
More from Yohei Sato (10)
Japan r2 tokyor
- 1. 2011年
X.R 活動報告
Tokyo.R @yokkuns
Nagoya.R @sakaue
Hiroshima.R @sakaue
Osaka.R @langstat
Tsukuba.R @wakuteka
kashiwa.R @tsutatsuta
2011年11月28日月曜日
- 2. AGENDA
• Tokyo.R
• Nagoya.R & Hiroshima.R
• Osaka.R
• Tsukuba.R
• Kashiwa.R
2011年11月28日月曜日
- 3. Tokyo.R
主催者 @yokkuns
2011年11月28日月曜日
- 6. 里 洋平
• ID : @yokkuns
• 名前 : 里 洋平
• 職業 : データマイニング
エンジニア
2011年11月28日月曜日
- 9. 活動例(抜粋): Time Series Analysis
Anomaly detection
複数時系列から異常な振る舞いを検知する
C
A
時系列のモデリング 複数時系列の異常検知 B
時系列A 時系列A
異常な振る舞い
時系列B
時系列C 時系列B 時系列C
異常な振る舞いの時系列を検出
例1:トラフィック異常検知 例2:CM効果のノイズ除去
トラフィックA ケースA
CM効果
トラフィックB ケースB
トラフィックC 調査 ケースC
異常な振る舞いをしている 異常な振る舞いをしているケースを
トラフィックの原因を調査する 除外して、CMの効果を算出する
85
2011年11月28日月曜日
- 10. 活動例(抜粋): Time Series Analysis
Anomaly detection
新しいデータと過去時系列モデルの乖離から異常検出
8000.0000
異常スコア推移 3.0000
モデル構築
異常値
◇例 : ARIMAモデル 2.2500
5970.7500 1.5000
0.7500
3941.5000 0
異常スコアの算出
-0.7500
◇例 : 対数損失
1912.2500 -1.5000
-2.2500
-117.0000 -3.0000
t
4/ 週
4/ 1 週
4/ 8 週
5/ 週
2週
5/ 週
5/ 6 週
5/ 3 週
6/ 週
6/ 週
6/ 3 週
6/ 0 週
7/ 週
7/ 週
7/ 1 週
7/ 週
週
4
25
9
30
6
27
4
18
25
4/
1
1
5/
1
2
1
2
1
86
2011年11月28日月曜日
- 11. 活動例(抜粋): Time Series Analysis
TV Commercial Effects
時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
イベン
CM時系列 ト
新規
登録
CM ARPPU
ARPU
各KPIの時系列
その他
外部
継続率
要因
ケース
87
2011年11月28日月曜日
- 13. Tokyo.Rとは
◆ 数少ない社会人中心のRコミュニティ
◆ 2010年に設立し、現在第19回まで開催
◆ 様々な業種•職種の方が参加
2011年11月28日月曜日
- 14. 参加人数推移
参加
人数
キャンセル
開催日
2011年11月28日月曜日
- 18. 告知日と参加人数
パッケージ本
著者サイン会
参加人数
上半期
告知日から開催日までの日数
2011年11月28日月曜日
- 19. 告知日と参加人数
パッケージ本
著者サイン会
参加人数
上半期
告知日から開催日までの日数
2011年11月28日月曜日
- 20. 告知日と参加人数
下半期は
パッケージ本
1週間前に告知すれば
著者サイン会
60名水準?
参加人数
上半期
告知日から開催日までの日数
2011年11月28日月曜日
- 21. 発表テーマ
• テキスト: Rによるデータサイエンス
• 金融・時系列解析
• 計量経済・マーケティング
• 機械学習•最適化
• パターン認識
• テキストマイニング
• 異常検知
• 大規模データ・高速化
• その他いろいろ
2011年11月28日月曜日
- 22. Rによるデータサイエンス
・第6章 自己組織化マップ
・Rによる回帰分析入門
・線形判別分析
・非線形判別の勉強をしてみました
・テキスト第11章 生存分析
・第12章「時系列」
・第13章「樹木モデル」
・第14章 ニューラルネットワーク
2011年11月28日月曜日
- 23. 金融・時系列解析
• Rで学ぶ回帰分析と単位根検定
• xtsパッケージで時系列解析
• Rで学ぶ現代ポートフォリオ理論
• デリバティブについて
2011年11月28日月曜日
- 24. 計量経済・マーケティング
• Rで学ぶ傾向スコア解析入門
• Rによる計量経済学入門
• Rで計量経済
(操作変数を使ったバイアス調整)
2011年11月28日月曜日
- 25. 機械学習•最適化
• caretパッケージの紹介
• R言語による Random Forest 徹底入門
• Rで解く最適化問題 ‒ 線型計画問題編 ‒
• 近似ベイズ計算でカジュアルなベイズ推定
• 部分的最小二乗法
• 最適化アレ コレ ソレ
2011年11月28日月曜日
- 26. パターン認識
• 判別能力の評価
• K-平均法
• 混合正規分布モデル
• k-近傍法、学習ベクトル量子化
2011年11月28日月曜日
- 27. テキストマイニング
• Rで始めるテキストマイニング
• YjdnJlpの紹介とか
2011年11月28日月曜日
- 28. 異常検知
• Rによる異常検知入門
• 異常行動検出入門
• サーバ異常検知入門
2011年11月28日月曜日
- 29. 大規模データ・高速化
• RにおけるHPC 並列計算編
• Rが黄色い象に出会った
• 大規模データマイニングでのモデル探索手法:
K-sample plot
• Rで大規模データ解析
• RHadoopの紹介
• RでGPU使ってみるわ∼
2011年11月28日月曜日
- 31. 次回以降の
発表者を募集しています
2011年11月28日月曜日