Excel でのデータ分析
- Python 勉強する前に -
畠山 大有 | Daiyu Hatakeyama
Architect && Software Engineer && Applied Data Scientist
Microsoft Japan
/dahatake
@dahatake
/in/dahatake
/dahatake
/dahatake
データが
ビジネスを動かす
新しい原動力になる
フェルミ推定
Fermi Problems
200
調律師
1000
調律回数
毎年必要な
調律回数
毎年調律が必要
50 営業週/年
5 営業日/週
8 営業時間/日
2 作業時間/調律
20軒に1軒は
ピアノがある
ざっくり
回答
(移動時間
など引いて)
Chicago 市の人口は約900万人
コスト
時間
• ラフな見積もり
⚠ 実践投入の前に、あなたの仮定をしっかりとテストする必要あり
データ分析
最初の一歩
何が起こっているのか?
現状把握
なぜそれが発生したのか?
何の相関関係があるのか?
次に何をすればいい?
そのためにこの先はどうなる?
日付
通貨
UPC
商品コー
ド
店舗
説明
コスト
カテゴリー
店舗名
など…
• 知りたい事
• 各店舗のパフォーマンスは?
• 売れ筋トップ製品は何ですか?
• 売上最悪の店舗は何が原因?
• 次の四半期の売上に対して
何を期待すればよい?
• 利益を上げるためにはどのよう
な
ステップを踏めば良い?
何が起こっているのか?
現状把握
Requires Cindy to know:
• Pivot Chart
• Pivot Table
• Data Model
• Relationship
• Calculated Measure
• Calendar Table
• … and more!
アヤメさんの知っている機能
• Pivot Chart
• Pivot Table
• VLOOKUP
• Calc Column
• Query Tables
• 日付を正しく処理する方
法
サキさんの勤務時間の
80%以上は、この作業
largest
value
smallest
value
Histogram
Boxplot
Median
Outliers
目的: データのパターンや課題をチェックする
何が起こっているの
か?
現状把握
なぜそれが発生したのか?
何の相関関係があるの
か?
必要な事:
• 仮説の作成
• 仮説を分析「レシピ」に変
える
• 50,000 品目の製品カテゴ
リを手動で入力
• 計算されるメンバを作成す
る
個別の分析をするの
が手作業だし、
時間もかかるし
• 知りたい事
• 各店舗のパフォーマンスは?
• 売れ筋トップ製品は何ですか?
• 売上最悪の店舗は何が原因?
• 次の四半期の売上に対して
何を期待すればよい?
• 利益を上げるためにはどのよう
な
ステップを踏めば良い?
サキさんは常に仮説を持っ
ているわけではなく、ほと
んどの場合、
正しい「レシピ」を知らな
い
なぜそれが発生したの
か?
何の相関関係があるの
か?
http://tylervigen.com/spurious-correlations
• キャンペーン・広告に反応する優
良顧客の属性分析
• 品質不良に影響を与える
製造工程データの分析
ユースケース
機械学習を用いた KPI 要因探索を行うビジュアル
内部では統計解析のアルゴリズムが
複雑なデータの特徴を自動分析
• 主要なインフルエンサ
• L-BFGS回帰、SDCA回帰
• 上位セグメント
• FAST Tree
対話型の木構造で KPI
に関連するセグメント
を特定
次に何をすればいい?
そのためにこの
先はどうなる?
結果の共有
殆どの場合で
ここまで到達しない
彼女のチームを巻き込む時間が
殆どない
• 知りたい項目
• 各店舗のパフォーマンスは?
• 売れ筋トップ製品は何ですか?
• 売上最悪の店舗は何が原因?
• 次の四半期の売上に対して
何を期待すればよい?
• 利益を上げるためにはどのよう
な
ステップを踏めば良い?
ビジネスシナリオ #1
次に何をすればいい?
そのためにこの先はどう
なる?
ビジネスシナリオ #2
ビジネスシナリオ #1
次に何をすればいい?
そのためにこの先はどう
なる?
ビジネスシナリオ #2
ビジネスシナリオ #1
次に何をすればいい?
そのためにこの先はどう
なる?
ビジネスシナリオ #2
次に何をすればいい?
そのためにこの先はどうなる?
サキさんの勤務時間の
80%以上は、この作業
個別の分析をするのが手作業
だし、時間もかかるし
サキさんは常に仮説を持って
いる
わけではなく、ほとんどの場
合、
正しい「レシピ」を知らない
ツールとしての
Excel の位置づけ
Visual Basic for
Applications
一つのファイルに、プ
ログラムとデータが一
緒に(※)
スクリプト言語
豊富なデータ分析用
パッケージ
取得
保存
加工
可視化
取得
保存
加工
可視化
取得
保存
加工
可視化
データの検証 プロトタイプ 本番
データ
イン
ポート
データ
イン
ポート
Excel Power BI Database
(SQL Serverなど)
Big Data
(Spark など)
Python / R
取組み データ接続先 豊富 (Power
Query経由)
豊富 (Power
Query経由)
制限なし 制限なし 制限なし
保存 扱えるデータ
量
PC の容量に依存
(Cloud 版も)
Cloud も
使える
Server / Cloud の容
量制限
ほぼ無制限 インフラに依存
加工 画面操作での
データ加工
豊富 豊富 ほぼ無い ある場合が
増えた
無い
加工
・可視化
複数テーブル
連携
可能ではあるが、
Inner JOIN のみ
可能 制限なく可能 制限なく可能 制限なく可能
可視化 グラフの種類 豊富 豊富 ほぼ無い ほぼ無い 豊富
共有 ファイル共有 Web アプリ経由 アプリ経由 アプリ経由
利用者 PC/Mac の相当
のユーザー数
BI ユーザー データエンジニア データエンジニ
ア
データサイエン
ティスト
データサイエン
ティスト
習得難易度 容易 容易 専門性は必要 高度な専門性が プログラミング
最後に
• 何を意味しているのか?
• いつ、どこで、取得したの
か?
• 入手漏れが無いのか?
• 項目同士に関連があるの
か?
• 欠損や例外がどれだけ
「ゴミデータからは、
ゴミの結果しか生まれな
い」
1
2
3
高品質な17,000のコース
(日本語は900コース以上)
ビジネス、テクノロジー、クリエイティブなどの多
様なカテゴリーから成る学習コースをご提供
データに基づいたコース設計と
パーソナライゼーション機能
リンクトインの会員データをもとにコース開発を実施
リンクトインプロフィール情報(スキル、経験等)に
基づいた推奨コースをAI機能を使い受講者に表示
マイクロラーニング
短時間でPC・モバイルからいつでもどこでも受
講可能
Step-by-Step Achievements スムーズな学習環境
 無料
 日本語対応
 ブラウザーのみでOK
ハンズオン環境も含めて
 ダウンロード可能なサンプ
ルコード
 Product/Service, 技術レベル,
job role, などに応じたガイダ
ンス
 Video, チュートリアル, ハンズ
オン
 スキルアップを促す
 ユーザー プロファイ
ル毎に
カスタマイズ
www.microsoft.com/learn
www.microsoft.com/ja-jp/events
Invent with purpose.

Python に行く前に Excel で学ぶデータ分析のいろは