データサイエンティスト養成勉強会
こんな僕がデータサイエンティストになれた秘密
2016/10/21
澪標アナリティクス株式会社
会社概要
会 社 名: 澪標アナリティクス株式会社
代表取締役: 井原 渉
顧 問: 川村 秀憲(北海道大学教授)
栗原 聡(電気通信大学教授)
所 在 地: 東京都中央区日本橋茅場町1丁目10-8
グリンヒルビル6階
事 業 内 容: データ分析に関する各種事業
アドバイザリーサービス
教育研修
分析組織・IT基盤構築
分析官派遣
受託分析
U R L : http://www.mioana.com/
©Miotsukushi Analytics Inc. 2016, All rights reserved. 2
話者紹介
3
澪標アナリティクス
松浦 遼(アナリスト・シニアコンサルタント)
データ分析と全く関係ない業界から、紆余曲折あり澪標アナリティクスに入社。
上場ソーシャルゲームプラットフォーム運営企業の分析チーム立ち上げプロジェクトに一年弱参画。
ブラウザゲーム・ネイティブアプリ・プラットフォームの分析について、分析設計や実分析作業とそのノウハウ共有、社内報告会
などを担当。
その後、上場ソーシャルゲーム運営企業の分析チーム立ち上げプロジェクトにてコンサルタント・アナリストとして数ヶ月参画。
現在は、国内最大級ゲーム企業の大規模ゲームログの集計・分析プロジェクトをプロジェクトマネージャとして推進し、
十名規模の分析チームのマネージャ業務を行っている。
その他複数のゲーム分析プロジェクトへ、プロジェクトマネージャおよびチーフアナリストとして参画。
主な実績
・ゲーム分析組織構築
・ブラウザゲーム・ネイティブアプリのログ要件設計
・ゲーム内詳細KPI設定と監視
・ゲームログによる継続率・課金率・LTV予測分析
・その他ゲーム内課題に対するアドホック調査分析
Agenda
序.ゲーム分析とデータサイエンティスト
1. キミも使える! データサイエンティストの四つの武器 旅人編
⁻ 全ての道は集計に通ず
⁻ ExcelとSPSS ModelerとSQL
⁻ 集計は母集団とデータ仕様で決まる
2. キミも使える! データサイエンティストの四つの武器 戦士編
⁻ ビジネス理解が推進力に
⁻ データ分析は人の心を読み取ること
3. キミも使える! データサイエンティストの四つの武器 魔法使い編
⁻ 得意な分析手法を一つ身に付けよう
⁻ 魔法は正しく、的確に
4. キミも使える! データサイエンティストの四つの武器 僧侶編
⁻ 分析環境に合わせよう
©Miotsukushi Analytics Inc. 2016, All rights reserved. 4
5
ゲーム分析とデータサイエンティスト
©Miotsukushi Analytics Inc. 2016, All rights reserved.
ゲーム分析って何してたっけ??
6©Miotsukushi Analytics Inc. 2016, All rights reserved.
KPI
ウォッチング
イベント
レポート
ガチャの売上
セグメント調査 ユーザペルソナ
策定と監視
初心者の
離脱要因
ヘビーユーザー
継続・課金要因
ルーチンとアドホック
7©Miotsukushi Analytics Inc. 2016, All rights reserved.
KPI
ウォッチング
イベント
レポート
ガチャの売上
セグメント調査 ユーザペルソナ
策定と監視
初心者の
離脱要因
ヘビーユーザー
継続・課金要因
課題に応じて調査
→現状を把握し、
問題点を見つけ『改善』
ルーチンとアドホック
8©Miotsukushi Analytics Inc. 2016, All rights reserved.
KPI
ウォッチング
イベント
レポート
ガチャの売上
セグメント調査 ユーザペルソナ
策定と監視
初心者の
離脱要因
ヘビーユーザー
継続・課金要因定常的に監視
→異常検知して『対応』
ゲーム分析の目標とは?
9©Miotsukushi Analytics Inc. 2016, All rights reserved.
運営
分析
施策
反映
10©Miotsukushi Analytics Inc. 2016, All rights reserved.
ゲーム分析における業務フロー
•ターゲットKPI設定
•運営スケジュールとターゲット施策分析戦略策定
•データ理解
•基盤構築・クレンジングデータ導入
•運営上の課題感
•分析での検証ターゲットとなる仮説課題と仮説の設定
•分析ターゲットのセグメント決定
•具体的なデータ分析フローの策定分析プランと分析設計
•データマート構築
•状況俯瞰のための集計基礎集計
•狙いを定めたクリティカルなクロス集計
•アルゴリズムの適用とモデル作成分析作業
•分析を理解可能な形で表現解釈とレポート
•施策の検討
•施策導入か追加分析かの判断施策反映
私は昔こうだった……
11©Miotsukushi Analytics Inc. 2016, All rights reserved.
ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
私は昔こうだった……
12©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
13
キミも使える! データサイエンティストの四つの武器
旅人編
~全ての道は集計に通ず~
©Miotsukushi Analytics Inc. 2016, All rights reserved.
キミも使える! データサイエンティストの四つの武器
旅人編 ~全ての道は集計に通ず~
14©Miotsukushi Analytics Inc. 2016, All rights reserved.
データの樹海を迷わず
上手に渡り歩くには……?
集計スキルが全ての基本
15©Miotsukushi Analytics Inc. 2016, All rights reserved.
【再掲】ゲーム分析における業務フロー
•ターゲットKPI設定
•運営スケジュールとターゲット施策分析戦略策定
•データ理解
•基盤構築・クレンジングデータ導入
•運営上の課題感
•分析での検証ターゲットとなる仮説課題と仮説の設定
•分析ターゲットのセグメント決定
•具体的なデータ分析フローの策定分析プランと分析設計
•データマート構築
•状況俯瞰のための集計基礎集計
•狙いを定めたクリティカルなクロス集計
•アルゴリズムの適用とモデル作成分析作業
•分析を理解可能な形で表現解釈とレポート
•施策の検討
•施策導入か追加分析かの判断施策反映
赤字の部分で
集計を使っている
キミも使える! データサイエンティストの四つの武器
旅人編 ~全ての道は集計に通ず~
16©Miotsukushi Analytics Inc. 2016, All rights reserved.
集計へ
の理解
このレポートって、
結局誰のこと
言ってるの?
抽出期間正確に
絞れてる??
この分析って、
自動化するときに
どんな形でデータ
持てばいい?
キミも使える武器! 旅人編 ~全ての道は集計に通ず~
データ分析に求められる集計の質
17©Miotsukushi Analytics Inc. 2016, All rights reserved.
インストールログからユーザーごとのインストール日時を取得し、インストール72時間後の
時刻を算出する
ユーザーキャラクター強化ログから素材キャラでないキャラを抽出し、各キャラクターのイン
ストール72時間以内の最後のレコードを取り出し、キャラクター種類とレベルを取得する
ユーザーキャラクター消費ログと結合し、そのキャラが72時間以内に消費・売却された場
合は除外する
キャラクターマスタと結合し、そのキャラの各パラメータを取得し、所定の式で変換し戦闘
力を算出する
各ユーザーの上記結果に順位づけをして上位2キャラを判定する
デッキ編集ログから各ユーザーインストール72時間以内の最後に編集されたデッキデー
タを取得し、その中上記の2キャラが含まれているかのパターンごとのフラグをたてる
インストール日ごとに、デッキ枚数と上位2キャラ含有パターンごとのUU数を集計する
例題:初心者ってちゃんと強いキャラ使ってんの?
キミも使える武器! 旅人編 ~全ての道は集計に通ず~
SQLが書けなかった私
18©Miotsukushi Analytics Inc. 2016, All rights reserved.
SELECTって何?
テーブルって?
なんか表出てくるの??
CREATE TABLE hogehoge AS
WITH install_201608 AS
(SELECT
user_id
,date(install_datetime) as install_date
,platform
FROM
log_user_install
WHERE
date(install_datetime) >= '2016-08-01'
and
date(install_datetime) < '2016-09-01'
)
SELECT
user_id
,quest_category
,datediff(date(quest_start_timestamp),install_date) as interval_day
,count(id)
FROM
log_quest_start
INNER JOIN
install_201608
ON
log_quest_start.user_id
=
install_201608.user_id
WHERE
quest_category != 0
and
datediff(date(quest_start_timestamp),install_date) <= 3
GROUP BY
quest_category
,datediff(date(quest_start_timestamp),install_date)
キミも使える武器! 旅人編 ~全ての道は集計に通ず~
Excelを使ってみた
19©Miotsukushi Analytics Inc. 2016, All rights reserved.
SUMPRODUCT
VLOOKUP
SUMIFS
COUNTIFS
SLOPE/INTERCEPT
RSQ
Pivotテーブル
キミも使える武器! 旅人編 ~全ての道は集計に通ず~
SPSS Modelerを使ってみた
20©Miotsukushi Analytics Inc. 2016, All rights reserved.
機能別にノードを配置してデータ処理を行う
キミも使える武器! 旅人編 ~全ての道は集計に通ず~
SPSS Modelerを使ってみた
21©Miotsukushi Analytics Inc. 2016, All rights reserved.
集計の途中経過を確認できる
キミも使える武器! 旅人編 ~全ての道は集計に通ず~
SQLが書けなかった私
22©Miotsukushi Analytics Inc. 2016, All rights reserved.
• 関数を使ってみる→式の対象を意識
• pivotを使ってみる→縦持ち・横持ち・集計軸・
フィルタ
Excel
• 1ノード1処理をきちんと追いかける
• 途中経過を確認し、データと処理の関係を理解
SPSS
Modeler
• サブクエリ
• ウィンドウ関数・ユーザー定義変数SQL
キミも使える武器! 旅人編 ~全ての道は集計に通ず~
母集団とデータ仕様
23©Miotsukushi Analytics Inc. 2016, All rights reserved.
いつのデータ?
– 何月のデータ?
– インストール何日目?
どんな人のデータ?
– 例:『7日目までに○○たくさんしてる人は7日目まで残りやすいんです
よ!』
– 例:『離脱した人の方が戦闘力低いんですよ!!』
何のデータがどのように入っている?
– どのボタンをタップした時にどのテーブルにデータが落ちるのか?
集計では細かいことばかり考えよう!
キミも使える! データサイエンティストの四つの武器
旅人編 ~全ての道は集計に通ず~
24©Miotsukushi Analytics Inc. 2016, All rights reserved.
簡単なツールで丁寧に集計しよう!
ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
レベルアップ!
25©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
26
キミも使える! データサイエンティストの四つの武器
戦士編
~ビジネス理解が推進力に~
©Miotsukushi Analytics Inc. 2016, All rights reserved.
キミも使える! データサイエンティストの四つの武器
戦士編 ~ビジネス理解が推進力に~
27©Miotsukushi Analytics Inc. 2016, All rights reserved.
データ分析の推進力を
手に入れるには……?
ビジネス理解で皆を味方に
キミも使える! データサイエンティストの四つの武器
戦士編 ~ビジネス理解が推進力に~
28©Miotsukushi Analytics Inc. 2016, All rights reserved.
運営
分析
施策
反映
何調べればいいの??
で、結局どうすればいいの??
29©Miotsukushi Analytics Inc. 2016, All rights reserved.
【再掲】ゲーム分析における業務フロー
•ターゲットKPI設定
•運営スケジュールとターゲット施策分析戦略策定
•データ理解
•基盤構築・クレンジングデータ導入
•運営上の課題感
•分析での検証ターゲットとなる仮説課題と仮説の設定
•分析ターゲットのセグメント決定
•具体的なデータ分析フローの策定分析プランと分析設計
•データマート構築
•状況俯瞰のための集計基礎集計
•狙いを定めたクリティカルなクロス集計
•アルゴリズムの適用とモデル作成分析作業
•分析を理解可能な形で表現解釈とレポート
•施策の検討
•施策導入か追加分析かの判断施策反映
赤字の部分で
ビジネス理解が必要
キミも使える! 戦士編 ~ビジネス理解が推進力に~
人の心を考えよう(社内編)
30©Miotsukushi Analytics Inc. 2016, All rights reserved.
運営
チーム
開発
チーム
インフラ
チーム
分析
チーム
分析
チーム
分析
チーム
こういう施策入れてください……
このデータどんな意味ですか?
こんな分析環境欲しいです!
そんな施策ダメに決まってる
この前の運営会議で話したよ
問い合わせばっかり投げて来る
それいくらかかると思ってんの?
キミも使える! 戦士編 ~ビジネス理解が推進力に~
頑張って仲良くなった後
31©Miotsukushi Analytics Inc. 2016, All rights reserved.
運営
チーム
開発
チーム
インフラ
チーム
分析
チーム
分析
チーム
分析
チーム
こういう施策入れてください……
このデータどんな意味ですか?
こんな分析環境欲しいです!
それは運営的にNGなんだよね
何か代案教えてよ
仕様のメモ探してみるね
いやーコスト的にそれ無理
こっちなら安いけどダメ?
キミも使える! 戦士編 ~ビジネス理解が推進力に~
人の心を考えよう(ユーザー編)
32©Miotsukushi Analytics Inc. 2016, All rights reserved.
ユーザ
分析
チーム
カード所持枠を拡張している
ユーザーが継続しやすい!
じゃあ拡張させるために
要らんカードたくさん配ろう!!
枠キツキツでゲーム辞めたい……
拡張すればまだマシだけど
分析
チーム
ユーザ
うわ、本当に枠キツすぎる……
もうついていけない
ゲームをやり込むしかない……
キミも使える! データサイエンティストの四つの武器
戦士編 ~ビジネス理解が推進力に~
33©Miotsukushi Analytics Inc. 2016, All rights reserved.
ユーザーの気持ちになろう
– サービスをきちんと触ろう
関係者の気持ちになろう
– 社内で関係者と話して回ろう
ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
レベルアップ!
34©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
35
キミも使える! データサイエンティストの四つの武器
魔法使い編
~得意な分析手法を一つ身に付けよう~
©Miotsukushi Analytics Inc. 2016, All rights reserved.
キミも使える! データサイエンティストの四つの武器
魔法使い編 ~得意な分析手法を一つ身に付けよう~
36©Miotsukushi Analytics Inc. 2016, All rights reserved.
統計分析を魔法のように
使いこなす秘訣とは……?
まずは1つに集中しよう
キミも使える! データサイエンティストの四つの武器
魔法使い編 ~得意な分析手法を一つ身に付けよう~
37©Miotsukushi Analytics Inc. 2016, All rights reserved.
http://pypr.sourceforge.net/
wikipedia 等より
分析手法は数多い
– 各手法について、一度学んで終わりではなく、使い込むことで精度と効率が上がる
• パラメータ調整の勘所
• 数理的根拠の正確な理解
– 利用手法が多いと分析の受け手も混乱しがち
1つに集中して使い込む
キミも使える! 魔法使い編 ~得意な手法を一つ~
まずは一つ勉強しました!
38©Miotsukushi Analytics Inc. 2016, All rights reserved.
私はまず決定木分析を覚えました
– 平易でかつ実用的な手法である
– 分析を行いビジネス反映していく流れを試す
パラメータ調整の勘所
– ドキュメントを探そう!
数理的根拠の正確な理解
– 勉強は、まずはつまみ食い!
詳しくは後半の発表にて
キミも使える! 魔法使い編 ~得意な手法を一つ~
魔法使いの心得
39©Miotsukushi Analytics Inc. 2016, All rights reserved.
魔法を正しく覚えよう
– 数理的根拠を可能な範囲で理解しよう
– 入力データの制限や、パラメータの意味を把握しよう
– 出力データの数理的・企画的意味を正確に読み取れるように
なろう
魔法を暴発させないようにしよう
– 統計分析が要らない場合もある→MPを大事に
ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
レベルアップ!
40©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
41
キミも使える! データサイエンティストの四つの武器
僧侶編
~分析環境に合わせよう~
©Miotsukushi Analytics Inc. 2016, All rights reserved.
キミも使える! データサイエンティストの四つの武器
僧侶編 ~分析環境に合わせよう~
42©Miotsukushi Analytics Inc. 2016, All rights reserved.
いつでもわがまま環境を
使えるとは限らない
与えられた環境を使いやすく
キミも使える! 僧侶編 ~分析環境に合わせよう~
分析環境構築の壁あるある
データは『どこに』あるの??
– そもそもログ吐いてる?
• 『ゲームが動けばいいじゃん』
• 『最低限のCS対応ができればいいじゃん』
– マスタがないと何もできない
• 『マスタはエクセルで作ってツール通して読み込んでるんです』
• 『終わったガチャのマスタは消えてます、運用カレンダーもないです』
– 聞き方が悪いと二度手間に……
43©Miotsukushi Analytics Inc. 2016, All rights reserved.
キミも使える! 僧侶編 ~分析環境に合わせよう~
分析環境構築の壁あるある
『どんな形』のデータがあったのか
– きちんとテーブルが構築されてない場合
• JSONをカラム展開してDBに突っ込む手間……
• もっと厄介な形式での出力
いざDBに入れるとき
– 重いクエリを投げたい
– 昨日のデータをすぐ分析すべきか?
– 一連の抽出・集計に必要な中間テーブル作成
コストが!工数が!!!
44©Miotsukushi Analytics Inc. 2016, All rights reserved.
キミも使える! 僧侶編 ~分析環境に合わせよう~
与えられた環境をどう活かすか
データエンジニアリングの知識があるなら……
– 今まで培った集計力・ビジネス知識・データサイエンス力で理
想の環境を策定
• →一層の業務効率化に
データエンジニアリングの知識がない場合は?
– 可能なデータ活用方法≒データの持ち方は企業によって千差
万別
• 何を勉強すればいいのかわからない状態になりがち
• データを持っている部署と仲良くして聞くしかない!
– 貰った環境に合わせて一つ一つ覚えよう
45©Miotsukushi Analytics Inc. 2016, All rights reserved.
キミも使える! 僧侶編 ~分析環境に合わせよう~
ド素人の私が身に付けたこと
仮想マシンの概念が分からなかった私でも、超簡単な
シェルを書いてローカル環境で流せるようになった
データベースの概念が分からなかった私でも、Redshift
のカラム設定とDB変換が分かるようになった
46©Miotsukushi Analytics Inc. 2016, All rights reserved.
ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
レベルアップ!
47©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
I'll do my BEST.
©Miotsukushi Analytics Inc. 2016, All rights reserved. 48

データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密