全部Excelでやろうとして後悔するデータ分析

全部Excelだけで実現しようとして後悔するデータ分析
じょんすみす

2お前誰よ？
じょんすみす
クラスメソッド
データアナリティクス事業本部インテグレーション部
ML推進チームリーダー
普段のお仕事
• 機械学習, SageMakerおじさん
• Hadoop, EMRおじさん
• Alteryx ACEの人
• クソExcelにモンク言うおじさん

4お題目
• なぜExcelは万能で人々に愛されるのか？
• データ分析のためのExcel活用
• Alteryx ～Excelのその先へ～

5お題目

6なぜExcelは万能で人々に愛されているのか？
世界で最も多く使われているソフトウェアの1つ、それがExcelと言っても
過言ではないでしょう。
• 誰でも簡単に「とりあえず使ってみる」が可能
• 自由すぎるセルと圧倒的多機能により割と何でも実現
• 自由に使えすぎるので他の人のExcelは何してるかわからん
• 「正しいExcelの使い方」なんて概念すらも...
• 誰でもフリーダムに使えるのでエンジニアにとって忌み嫌われる存在
• 自動化や効率化の妨げ的存在として扱われる
• もっと適切なツールがあるでしょ...と言われる

7実践！嫌われるExcelの使い方

8ちょっと待て
その使い方は本当に悪なのか？

9データ分析の流れで考える必要な要素
データの取得分析レポーティング
テーブルデータ
以下の内容を明確化
• 取得元
• フォーマット
• 含まれる情報
定期的な取得・更新の検討
分析内容に合わせた加工
分析処理の実施
専門知識が必要
意思決定で活用可能な形式
帳票やダッシュボード作成
この部分でレイアウトや
印刷形式を整える

10お題目

11データ分析の話
Gartnerによる分類

12データを整備しよう
何処にあるのかわからないデータは存在しないのと同じ
また、データとして利用可能な形式になっていない場合も同様

13今あるデータをカタログ化する
データの情報をリスト化し、HYPERLINK関数を使って紐づける。

14今あるデータをカタログ化する
データの情報をリスト化し、HYPERLINK関数を使って紐づける。
HYPERLINK(“https://dev.classmethod.jp/”, “Developers.IO”)
HYPERLINK(“Z:analysisdata”, “データフォルダ”)
HYPERLINK(“[iris.xlsx]iris!A1”, “irisデータセット”)

15カタログを使ってデータ取得
Power Queryを使ってデータの取得を行う。
ODBCを使ってSQLでDBからのデータ取得 GUI上で各種データ整形・加工処理

16カタログを使ってデータ取得
データモデルを作成してPower Pivotで扱う。
データモデルに対するリレーションリレーションはPivot Tableでそのまま利用可能

17分析をはじめていこう
さあ、準備は整った！いよいよここからデータ分析が始まるゾ！！

18データを用意したらまず最初にやること
それは、基本統計量の確認。
データ > データ分析を選択(ない場合はアドオンで追加)

それは、基本統計量の確認。
データ > データ分析を選択(ない場合はアドオンで追加) > 基本統計量

ヒストグラムは1列1列心を込めて丁寧に作成
対象の列を選択し、グラフの種類にあるヒストグラム(棒グラフではないよ！)で作成

ヒストグラムは1列1列心を込めて丁寧に作成
そんなことはやってられないので、VBAで全列のヒストグラム作成
Sub test()
Dim col As Variant
For Each col In Range("boston").ListObject.HeaderRowRange
Range("boston").ListObject.ListColumns(col.Value).Range.Select
ActiveSheet.Shapes.AddChart2(366, xlHistogram).Select
ActiveChart.ChartTitle.Select
Selection.Caption = col
Next col
End Sub
※ このままだと全部同じ位置に出力されるので適当に調整する

22カーネル密度推定もしてみよう
カーネル関数にぶっこんである値周辺の確率値を求める
𝑓 𝑥 =
1
𝑛ℎ
𝑖=1
𝑛
𝐾
𝑥 − 𝑥𝑖
ℎ
𝐾 𝑥 =
1
2𝜋
𝑒𝑥𝑝 −
𝑥2
2
x についての確率密度ガウシアンカーネルを使用
n : データ件数
xi : 観測された各データ
h : パラメータ
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
カーネル密度関数

取りうるxの範囲をデータから決める
• 最大値 : MAX(boston[medv])
• 最小値 : MIN(boston[medv])
• データ件数 : COUNT(boston[medv])
• ついでにパラメータhもセルに入れておく
編集 > フィル > 連続データの作成でmin/maxを参照にxの値を生成する
• 今回は0～60までを0.1刻みで生成

カーネル関数の中身を計算
1 / SQRT(2 * PI()) * EXP(-POWER((D$2 - Sheet2!$N2) / $B$6, 2) / 2)
1
2𝜋 −
𝑥2
2
xiの数だけこの値を計算する
最初に生成したxの値となる列方向も同様
※ オートフィルするだけ

確率密度を計算する
SUM(D3:D508) / ($B$5 * $B$6)
おまけ : 配列数式を使えば一発で計算することも可能
𝑖=1
𝑛
𝐾
𝑥 − 𝑥𝑖
ℎ
1
𝑛ℎ

この値で折れ線グラフを作ることでカーネル密度関数の完成！
いい感じになるようにhを調整しよう
h = 1 h = 1.5 h = 2

27異常値を見つけてみる
箱ひげ図で確認する
ヤベェ値

z値を計算する
• 𝑧 = (𝑥 − 𝜇) 𝜎
• 平均を計算
• Q2セル : AVERAGE(boston[medv])
• 標準偏差を計算
• Q3セル : STDEV.S(boston[medv])
• 各値のz値を計算する
• ([@medv] - $Q$2) / $Q$3
• まとめて計算しちゃうことも可能
• ([@medv] - AVERAGE([medv])) / STDEV.S([medv])
テーブルの列名で範囲を指定
この列に追加

異常値となるものに対して条件付き書式を割り当てて確認する
z値の絶対値が2以上のものを異常値として設定。
この結果を元にフィルタの対象にするなど、どのように対処するかを決める。

30相関係数を求めてみる
どのデータとどのデータに関連がありそうなのか俯瞰する
𝑟 =
1
𝑛 𝑖=1
𝑛
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
1
𝑛 𝑖=1
𝑛
(𝑥𝑖 − 𝑥)2 1
𝑛 𝑖=1
𝑛
(𝑦𝑖 − 𝑦)2
• 相関係数は2つの列データにの関連性を数値で表す
• 値が1に近いほど正の相関(片方が高くなればもう片方も高くなる)がある
• 値が-1に近いほど負の相関(片方が高くなればもう片方は低くなる)がある
• 値が0に近ければ相関なし
• 列の組み合わせ分だけ相関係数が計算できるので行列で表せる
相関係数の求め方

どのデータとどのデータに関連がありそうなのか俯瞰する
データ > データ分析 > 相関で利用可能

別解 : 頑張って計算する
各データのz値を計算行列積を計算してデータ件数-1で割る

33散布図を見てみる
相関係数と同じように2つのデータの関連を見るためのもの
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 5 10 15 20 25 30
nox
indus
散布図

34回帰分析をしよう
我々は未知の数値を予測する
データ分析ツールにある回帰分析

0
2
4
6
8
10
12
切片 crim zn indus chas nox rm age dis rad tax ptratio black lstat
変数重要度
y = 0.7406x + 5.844
R² = 0.7406
-10
0
10
20
30
40
50
0 10 20 30 40 50 60
予測値
medv

37ロジスティック回帰もしよう
我々は分類もする
Excelの機能にロジスティック回帰は無いので実装する
切片の項を追加
wをランダムな値で初期化

各wで損失関数を微分した結果を計算
𝜕𝐸
𝜕𝑤 𝑛
= 𝒚 − ∅ 𝒙
𝑇
𝒙𝑖
∅ 𝒙 =
1
1 + exp 𝒘 𝑇 𝒙
𝐸 = −
𝑖=1
𝑛
𝑦𝑖 𝑙𝑛∅ 𝑥𝑖 + 1 − 𝑦 𝑙𝑛 1 − ∅ 𝑥𝑖

αの値を使って各wの値を更新
𝑤𝑖 = 𝑤𝑖 + 𝛼
𝜕𝐸
𝜕𝑤𝑖
この値で再び先ほどの計算

ひたすら繰り返す
1行目だけできればあとは
オートフィル

実装できたロジスティック回帰で推論する
• {=1 / (1 + EXP(-MMULT(iris[@[Sepal.Length]:[w_0]], TRANSPOSE(Sheet1!$D$300:$H$300))))}
• =IF([@predict] > 0.5, 1, 0)

実装できたロジスティック回帰で推論する
そして無事それっぽい結果に

43時系列予測をしよう
Excelなら時系列データだって扱えちゃうんです！
今度はExcelの機能を使えるよ！
時系列の売上データデータタブにある「予測シート」

46ダッシュボートを作ろう
色々データが出そろったのでまとめようと思うんだ...

DAX式を使ったメジャーを作成することで独自の集計値を実装可能

52Excel編まとめ(?)
Excelを活用したデータ分析においてこの点に注意しておこう。
• データソースと活用・出力は明確に分ける
• データモデルをベースにすることで変更があった時に更新が可能
• Power Queryで行ったデータ編集・加工はプロセスが確認可能
• セルの範囲ではなくテーブルの列名で指定することで更新時にも対応可能

53Excel編まとめ(?)
そんなことはない！！

54お題目

55最近何かと話題のワード「脱Excel」
【レポート】新認定資格登場！Alteryxをもっと学ぶTips満載のキーノート: GET AMPLIFIED – Alteryx Inspire 2019

56なぜ今「脱Excel」なのか？
Excelってなんでもできるじゃん！
• 「なんでもできる」と「なんでもやるべき」は異なる
• できはするけどあまり効率的とは言えないこともある
• より深く、より専門的なことを簡単にとなるとその機能が用意されてるといい
• Excelでの処理内容はあとからプロセスを確認するのが困難
• 何をどういう手順でやってるのかドキュメントが必要？
• ルールで縛ったとして、それを確実に強制することは難しい
• 専用のシステムを「作ってもらう」ではなく「自分たちでやる」もそのままに！
• 「ガッツリこれだけ！」を実現したわけじゃない
• どうしてもサイクルが長くなる

57セルフサービス型データ分析ツール

Drag & Dropで一覧から各種機能を持った
ツールを配置してワークフローを作成

必要な処理を行うためのツールを並べてつなげば
何度でも同じ処理を実行可能
→ 処理の再現性が担保されるともに、フローそのものが処理を説明

• テキストファイルや各種DBはもちろん、
他にも様々なデータソースに対応
• Excelを入力としてDBに出力するなど
ETL処理にも対応
• In-DBを使うことで重い処理をDB側で
実行させることも可能

62どんなことができるのか見ていこう！
基本統計量やヒストグラムが
一発で確認できる！！

相関係数のヒートマップや
散布図によるデータ確認

ツールの組み合わせこそがAlteryxを使ったワークフロー作成の神髄

平均と標準偏差を求める

元データの各行にその情報を付与

𝑧 = (𝑥 − 𝜇) 𝜎 を計算

工夫次第ではさらにいい感じな処理も可能
1. unpivot(縦持ちに変換)
2. 元の列名の値ごとに平均と標準偏差を計算
3. 列名をキーにして元データと結合(VLOOKUP)
4. 各行のz値を計算
5. pivot(横持ち)してすべての列のz値を得る

あらゆるソースに散らばったデータを結合するJoinツール

分析だってもちろんお手の物！！

回帰分析もツールで一発

予測値の取得もツールで

グラフの作成ももちろん可能

74どんなことができるか見ていこう！
これらすべてをワンストップで実現可能！！
• 全てのフローが明確になる
• データソースを変えるだけですべての情報をいつでも更新可能
• データ分析に関するあらゆる操作がツールの配置という共通の操作で実現可能

でも、やればやるほど似たような複雑な処理が増えてくんじゃない？
ワークフローの一部をマクロ化することで
共通処理を1つのツールとして扱うことが可能になる

でも、やればやるほど似たような複雑な処理が増えてくんじゃない？
Alteryx Serverを導入することによって
ワークフローやマクロ、処理結果のダッシュボードなとが共有可能

そうはいってもできないこともあるんじゃない？
ツールの組み合わせだけでできない場合RやPythonのスクリプトを組み込むことも可能

78Alteryxってすげぇ！！
Alteryxってすげぇ！！

79まとめ的な何か
データ分析とExcelとAlteryxの楽しいお話
• データを蓄える基盤と分析環境と見せ方は分けて考えよう
• 適切に分割して疎結合にすることで再利用が容易になる
• データはきちんとカタログで管理すると良さげ
• Excelはやろうと思えば何でもできてしまうがやるべきかはまた別な話
• ボタン1つで簡単に実現できる機能から頑張って実現するものまで様々
• 複雑なことは作ってる最中でも何してるのかわからんくなることもしばし...
• Alteryxってすげぇ！！
• データ分析に関連する様々な処理をワンストップで実現
• 処理内容の明確化や共有も可能

80参考資料
• Excelパワーピボット
• 最速で収益につなげる完全自動のデータ分析
• Excelで学ぶデータ分析本格入門
• プロコンサルタントの最強エクセル術
• 2017 Planning Guide for Data and Analytics
• HYPERLINK関数でハイパーリンクを作成する
• 主成分分析をExcelで理解する

全部Excelでやろうとして後悔するデータ分析

More Related Content

What's hot

Similar to 全部Excelでやろうとして後悔するデータ分析

More from __john_smith__

全部Excelでやろうとして後悔するデータ分析

Editor's Notes