データ解析技術2019

データ解析技術
山本祐輔
静岡大学情報学部講師
yusuke_yamamoto@acm.org
2019年前期集中講義
本スライドは，クリエイティブ・コモンズ・ライセンス国際4.0のもとで，
ライセンスされています．

講義スタイル
Hands-onデモ & 演習 with R
0：00 1:300：30
座学
デモ & 演習座学デモ & 演習座学デモ & 演習座学デモ & 演習座学
クラスタリング
はじめての機械学習
相関ルールマイニング
10:00 17:30
1コマの構成
「各種分析⼿法を使うと何が起こるか」の体験に焦点を当てる
1日の構成
上記スタイルで3つのトピックを学習
2

講座で使⽤するもの（1/2）
画像出典: https://www.r-project.org
配布スライド（座学用） R & RStudio
3

講座で使⽤するもの（2/2）
電子資料は以下からダウンロード
https://b.hontolab.org/2mR3KJa
演習用の電子資料
4

データ分析技術（in データ⼯学）の⼀般的な学習トピック
データラングリング
類似度・距離関数
クラスタリング
例外発⾒
回帰・分類
テキストデータ
グラフ (ネットワーク)
時系列データ
ストリームデータ
空間データ
汎用テクニックデータ特化型マイニング
…
データ可視化
本講座の目標
・実践的 & 汎用性が高いテクニックの直感的理解
・ケースに応じたデータ分析技術の選択 5

本講座で学ぶ5つの技術
1. K-means(K平均法)
2. 階層的クラスタリング
3. DBSCAN
4. 決定木
5. 相関ルールマイニング
6

3. DBSCAN
4. 決定木
A
B
D
C
E
F
G
H
I
A
B
D
C
E
F
G
H
I
N個のグループに分割
類似データを指定のグループ数に強引に分割
7

3. DBSCAN
4. 決定木
5. 相関ルールマイニング A B D CE F GH I
A
B
D
C
E
F
G
H
I
徐々にデータをマージ
類似データを徐々にグルーピング
8

3. DBSCAN
4. 決定木
密集しているものをグルーピング
A
B
D
C
E
F
G
H
I
A
B
D
C
E
F
G
H
I
ある程度密に群がっている
データのみグルーピング
9

3. DBSCAN
4. 決定木
結果を予測するための分岐ルールを構築
毒柄色柄形臭い
あり紫直線あり
なし朱末広刺激
… … … …
キノコの記録
毒キノコを分類するルールを抽出
臭い
ありなし
柄の色が緑
yes no
毒あり1% 毒あり100%
…
10

3. DBSCAN
4. 決定木
X⇒Yのルールを効率よく抽出
客ID 日付購入物
111 12/1 A, B, C
112 12/3 B, D
113 12/3 C, H, J
… … …
商品の購買記録
一緒によく買われる商品を抽出
A, B ⇒ H
B, I ⇒ J
K, Y ⇒ A, H
11

本⽇の講座でやらないこと
l各種データ分析技術の数学的理解
l最適化（パラメータチューニング）
l分析結果の評価方法
l前処理（データラングリング）
lディープラーニング
12

参考図書
画像出典2: https://www.amazon.co.jp/dp/B07GYS3RG7/画像出典1: https://www.amazon.co.jp/dp/B00MWODXX8
13

1
指定されたグループ数に強引にデータを分割する
K-meansクラスタリング

データを幾つかのクラスタに分割する手法
何らかの条件で類似するデータの集合
クラスタリングとは？
X
Y
0
15

私たちはどうやってグルーピングを⾏っているか？（1/2）
私たちは，直感的には何にもとづき
以下のデータをグルーピングするか？Q.
X
Y
0
16

私たちはどうやってグルーピングを⾏っているか？（2/2）
点と点の間の距離
A.
X
Y
0
がある程度⼩さければ
同じグループと⾒なす．
近い
遠い
遠い
17

クラスタリングのアプローチ
1. 距離を計算できるようにデータを表現
2. 距離を定義し，データ間の距離を計算
3. 距離をもとにあるルールでデータをまとめる
鳴き声の⾼さ0
鳴き声の⼤きさ
鳴き声の⾼さ
XY平⾯上での距離
が近いものをまとめる
18

クラスタリングのアプローチ
1. 距離を計算できるようにデータを表現
2. 距離を定義し，データ間の距離を計算
3. 距離をもとにあるルールでデータをまとめる
鳴き声の⾼さ0
鳴き声の⾼さ
XY平⾯上での距離
が近いものをまとめる
ポイント
クラスタリング手法の違いはデータをまとめるルールにある
19

K-meansクラスタリングの概要
A
B
D
C
E
F
G
H
I
A
B
D
C
E
F
G
H
I
入力
・ベクトルの集合（表データ）
・クラスタ数
出力
各ベクトルが所属するクラスタ
利用するケース
データを決まった数のグループに
分けたいとき
20
N個のグループに分割

K-meansクラスタリングの利⽤例（1/2）
出典： https://mercan.mercari.com/articles/2016-06-21-160000/
「社会⼈？」クラスタの平均傾向「主婦？」クラスタの平均傾向
メルカリを使う時間帯によって
メルカリユーザを9つのグループに分割
※ ユーザは「時間帯ごとのアクセス回数の⽐率」でベクトル化
21

K-meansクラスタリングの利⽤例（2/2）
画像出典：https://jp.mathworks.com/help/images/color-based-segmentation-using-k-means-clustering.html
細胞の画像を各ピクセルの色の近さを考慮して
K-meansクラスタリング．細胞核とそうでない箇所に分割
22

K-meansの直感的アイデア
＋
＋
＋
⾚クラスタの重⼼が最も
近いので⾚に割り当て
各クラスタの重心との距離を計算し，
距離が最も近いクラスタに割り当てる
ある点をどのクラスタに割り当てるか？
23

K-meansのアルゴリズム（1/12）
各データをランダムにクラスタに割り当て1.
24

各データをランダムにクラスタに割り当て1.
25

各クラスタの重心を計算する2.
＋
＋
＋
26

すべての点について，先ほど計算した
クラスタ重心との距離を計算し，
最も距離が小さくなるクラスタに再割り当て
3.
＋
＋
27
＋

3.
＋
＋
28
＋

3.
＋
＋
29
＋

すべての点のクラスタ割り当てが
変わらなくなるまでステップ2と3を繰り返す
4.
＋
＋
＋
30

4.
＋
＋
＋
31

4.
＋
＋
＋
32

4.
＋
＋
＋
33

4.
＋
＋
＋
34

＋
＋
＋
4.
35

Hands-on & 演習タイム
以下のURLにアクセスして，
K-meansクラスタリングを体験しましょう
https://b.hontolab.org/2n0d6lU
36

2
類似するデータを徐々にグルーピングする
階層的クラスタリング

階層的クラスタリングの概要
入力
ベクトルの集合（表データ）
出力
& その階層図（デンドログラム）
A B D CE F GH I
A
B
D
C
E
F
G
H
I
類似データを徐々にマージ
・クラスタ数を柔軟に決めたいとき
・クラスタが分かれていく様を
確認したいとき
38

階層的クラスタリングの利⽤例
出典：https://www.macromill.com/service/data_analysis/cluster-analysis.html
寿司ネタの選好度データから寿司ネタをクラスタリング
39

階層的クラスタリングの直感的アイデア
「クラスタ距離が最も近いクラスタ同士を併合する」
操作を繰り返し，徐々にクラスタを大きくする
最も近いクラスタ
40

階層的クラスタリングのアルゴリズム（1/14）
各データを個々のクラスタとして初期化1.
G
B
C
D
A
H
E
I
F
41

各データを個々のクラスタとして初期化1.
G
B
C
D
A
H
E
I
F
42

G
B
C
D
A
H
E
I
F
すべての点間の距離を計算し，
最も近い点同士をクラスタとして併合
2.
43

G
B
C
D
A
H
E
I
F
最も近い点
すべての点間の距離を計算し，
最も近い点同士をクラスタとして併合
2.
44

G
B
C
D
A
H
E
I
F
最新のクラスタ情報にもとづき，
すべてのクラスタ間の距離を計算し，
最も近いクラスタ同士をクラスタとして併合
3.
45

最新のクラスタ情報にもとづき，
すべてのクラスタ間の距離を計算し，
最も近いクラスタ同士をクラスタとして併合
3.
G
B
C
D
A
H
E
I
F
最もクラスタ（点）
46

すべての点が1つのクラスタに併合される
までステップ3の操作を繰り返す
4.
G
B
C
D
A
H
E
I
F
47

4.
G
B
C
D
A
H
E
I
F
48

4.
G
B
C
D
A
H
E
I
F
49

4.
G
B
C
D
A
H
E
I
F
50

4.
G
B
C
D
A
H
E
I
F
51

4.
G
B
C
D
A
H
E
I
F
52

4.
G
B
C
D
A
H
E
I
F
53

4.
G
B
C
D
A
H
E
I
F
54

デンドログラム
● クラスタが併合されていく様子を表した樹形図
● 適当な高さで木を切ることで，任意の数のクラスタを抽出可
A E H BD G IC F
55

素朴な疑問1
クラスタ間の距離は
どう計算（定義）するのか？Q.
D
A
H
E
？
56

クラスタ間の距離の定義（1/3）
最長距離法最短距離法
B
A
C
D
E
B
A
C
D
E
クラスタの要素間の最⻑距離クラスタの要素間の最短距離
○ 計算コストが⼩さい
× クラスタ同⼠が離れやすい
○ 計算コストが⼩さい
× クラスタが鎖状になりやすい
57

重心法（セントロイド法）
B
A
C
D
E
クラスタの重⼼間の距離
× 計算コストが⼤きい
× 平均化により要素の散らばり情報が失われる
× ×
58

B
A C
D
E
B
A
F
G
I
H
ウォード法
● 2つのクラスタを併合したと仮定したときの，
クラスタ内の要素の散らばり具合
<
● 計算コストは⾼いが，分類感度がよい
× ×
59

素朴な疑問2
データ点の距離は
どう計算（定義）するのか？Q.
BA
？
60

実数値ベクトルの距離（1/2）
A B
数学：80点
英語：70点
数学：50点
英語：90点
AさんとBさんの距離はどの程度？
（どれくらい類似？）Q.
?
61

実数値ベクトルの距離（2/2）
数学
英語
●
●
A
B
数学
英語
●
●
A
B
ユークリッド距離
・⼀般的に使われる距離
・直線的な距離
コサイン類似度
・ベクトルの⾓度
・傾向の類似性を評価
62

カテゴリ値ベクトルの距離（1/2）
B
AさんとBさんの距離はどの程度？
（どれくらい類似？）Q.
?
A
Aさんの好きな寿司ネタ Bさんの好きな寿司ネタ
はまち
あじたまご
イクラたまご
バイ貝
イクラ
63

カテゴリ値ベクトルの距離（2/2）
ジャカード係数
2つの集合に含まれる要素のうち共通する要素の割合
たまご
はまち
イクラ
たまご
あじ
バイ⾙
イクラ
＝
5
2
64

階層的クラスタリングを体験しましょう
https://b.hontolab.org/2n0Motq
65

3
密集しているものをグルーピングする
DBSCAN

DBSCAN (Density-based spatial clustering of applications with noise)の概要
入力
・ベクトルの集合（表データ）
・密度の閾値
出力
& ノイズデータ
クラスタ数は未知だが，
密集度でクラスタリングしたいとき
A
B
D
C
E
F
G
H
I
A
B
D
C
E
F
G
H
I
ある程度密に群がっている
データのみグルーピング
67

密度ベースクラスタリングの利⽤例
米国のGPSの位置情報データをクラスタリングして
人が密集している地域を抽出
L. Cao et al., 2009. Enhancing semantic and geographic annotation of web images via logistic canonical correlation
regression. In Proceedings of the 17th ACM international conference on Multimedia (MM '09). 68

DBSCANの直感的アイデア
あるデータの一定の距離内にデータが一定数以上
あれば，それらデータは同じクラスタに属するとみなす
⼀定の範囲に
データが3個以上
3個は⾚⾊データと
同じクラスタに 69

DBSCANのアルゴリズム（1/16）
ランダムに点を選び，一定の範囲内に
他のデータ点がないかを調べる
1.
70

一定の範囲内に一定個数の点がない場合，
その点はノイズと見なし，次の点を調べる．
1a.
71

一定の範囲内に一定個数の点がない場合，
その点はノイズと見なし，次の点を調べる．
1a.
72

一定の範囲内に一定個数の点がある場合，
起点データをコア点と見なす．範囲内にある
点はコア点と同じクラスタと見なす．
1b.
73

一定の範囲内に一定個数の点がある場合，
起点データをコア点と見なす．範囲内にある
点はコア点と同じクラスタと見なす．
1b.
74

ステップ1の処理を繰り返す2.
75

76

77

78

79

80

81

82

83

すべての点について，ステップ1の処理が
完了すれば，クラスタリング終了
3.
84

すべての点について，ステップ1の処理が
完了すれば，クラスタリング終了
3.
85

DBSCANによるクラスタリングを体験しましょう
https://b.hontolab.org/2nmOhRC
86

クラスタリング⼿法の⽐較
K-means 階層的クラスタリング DBSCAN
ケース
クラスタ数を指定して
データを分割したい
データが分割される
様子を確認したい
密度を基に
クラスタリングしたい
クラスタ数の指定 Yes No No
その他パラメータ
• コア点から到達可
能なデータの個数
（minPts）
• 距離の閾値（eps）
計算量 ○ △ ×
クラスタの形状超球状
超球状（クラスタ
距離の定義による）
任意
メリット良い意味で単純
クラスタが作られる
様子が把握できる
（デンドログラム）
• 任意の形状のクラ
スタが抽出可
• 外れ値（ノイズ）を
考慮できる
デメリット
クラスタ数の指定が
必要
データ数が多いと
解釈が難しい
パラメータ調整が
難しい
87

より性能がよいクラスタリング⼿法
K-means
X-means
EMアルゴリズム
DBSCAN OPTICS
クラスタ数指定なし & ⾼速化
• データが複数クラスタに属してもOK
• クラスタの形状を柔軟に
DBSCANのパラメータ問題を解決
88

4
結果を予測するためのルールを構築
決定木から始める機械学習

AI! ⼈⼯知能! ディープラーニング!! ????
画像出典：NHKスペシャル「AIに聞いてみたどうすんのよ!? ニッポン」画像出典：https://www.amazon.co.jp/dp/B07JYYCG1D
90

⼈⼯知能（AI）
人工知能
強いAI
弱いAI
（Artificial Intelligence）
⼈間のような⾃意識を持ち，⼈間の
ような知能をもって作業が可能な機械
⼈間の知的処理の⼀部を模倣する
特定問題解決器
・現在行われているAI研究の大半は弱いAIの研究
参考：⼈⼯知能研究（https://www.ai-gakkai.or.jp/whatsai/AIresearch.html）
・強いAI研究の成果（e.g. 推論）も人間の知能には遠く及ばず
91

⼈⼯知能の研究トピック
人工知能
推論探索機械学習知識表現 …
教師あり学習教師なし学習強化学習
・クラスタリング
・データ圧縮
・分類
・回帰
92

分類問題
画像出典：https://ja.wikipedia.org/wiki/ハタタテダイ
全長が25cmくらいで，長く伸びた白いヒレ．
白い体に2本の黒い帯．背びれが黄色い．
この特徴がある魚は「ハタタテダイ」！
対象を分類する特徴を機械にどう学習させるか？ 93

教師あり学習（1/2）
ふぐ
ブリ鯛
鰹
大量のラベル付データ
機械学習
アルゴリズム
○○の識別に必要となる
特徴と分類ルール
画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
全長が25cmくらいで，
長く伸びた白いヒレ．
白い体に2本の黒い帯．
背びれが黄色い．
これは「ハタタテダイ」
大量のラベル（答え）付データを与えて
ラベルを分類する特徴とルールを抽出（学習）する
94

教師あり学習（2/2）
ふぐ
ブリ鯛
鰹
大量のラベル付データ
機械学習
アルゴリズム
画像出典: https://jp.mathworks.com/help/deeplearning/examples/visualize-features-of-a-convolutional-neural-network.html
大量のラベル（答え）付データを与えて
ラベルを分類する特徴とルールを抽出（学習）する
⼈間が理解できる必要はない
○○の識別に必要となる
特徴と分類ルール
95

LINNE LENS
画像出典：https://global-square.com/blog/linne-lens_display_fish_info/ 96

教師あり学習の歴史
ロジスティック回帰
サポートベクタマシン
With カーネルトリック
ID3（決定木）
パーセプトロン
単純ベイズ分類器
ランダムフォレスト
k-近傍法
ベイジアンネットワーク
深層学習
1958年
1957年
1951年
1979年
1985年
1992年
1960年代
2001年
2010年代
本講座で学ぶのはコレ
（初学者が勉強しやすい）
98

決定⽊の概要
入力
分類ラベルのついた
ベクトルの集合（表データ）
出力
ラベルを予測するための
ルールを要約した⽊
予測モデルに加えて，
分類ルールを確認したいとき
毒柄色柄形臭い
あり紫直線あり
なし朱末広刺激
… … … …
キノコの記録
毒キノコを分類するルールを抽出
臭い
ありなし
柄の色が緑
yes no
毒あり1% 毒あり100%
…
99

決定⽊アルゴリズムの直感的アイデア
分類ルールを仮適応したときにデータの不純度が
最も小さくなるような特徴と閾値を選ぶ
柄の⾊が緑
有毒
無毒
データの割合
有毒
無毒
データの割合
YES NO
カサの裏にヒダ
有毒
無毒
データの割合
有毒
無毒
データの割合
YES NO
vs.
100

決定⽊アルゴリズムの直感的アイデア
分類ルールを仮適応したときにデータの不純度が
最も小さくなるような特徴と閾値を選ぶ
柄の⾊が緑
有毒
無毒
データの割合
有毒
無毒
データの割合
YES NO
カサの裏にヒダ
有毒
無毒
データの割合
有毒
無毒
データの割合
YES NO
>
分類後の
データの不純度
101

決定⽊のアルゴリズム
1.
3. ステップ2で選択したルールでデータを分割
2.
4.
5. 分割の必要がなくなったら終了
全データについて，各特徴による分割パターン
をすべて調査
データの不純度にもとづき，最適な分割ルール
をひとつ選択
分割されたデータ群に対して，上記⼿順を
繰り返し適⽤
102

予測⽊の成⻑の抑制（1/2）
予測木をできるだけ汎用的にするために
木の大きさを制限する（過学習の防止）
● ⽊の葉っぱに含まれているデータの数
● 不純度の変化量
● ⽊の深さ
● ⽊の葉っぱでの誤り率
103

ここの深さまで
木の深さで制限
わざわざ点を分けても
不純度がほとんど変化しない
深すぎ
不純度の変化量で制限
104

ここの深さまで
木の深さで制限不純度の変化量で制限
わざわざ点を分けても
不純度がほとんど変化しない
深すぎ
105

決定木による教師あり学習を体験しましょう
https://b.hontolab.org/2nnXR6u
106

機械学習の精度を⾼めるポイント
良質なデータ
学習データがゴミなら結果もゴミ
データクリーニング
データには⽋損しているものや不正なものが含まれるものしばしば
データ変換
データの形式，単位，散らばり具合を考慮したデータ補正が重要
パラメータチューニング
アルゴリズムの性能を最⼤限引き出すには，調整が必要
適切な手法の選択
データの性質を考慮した適切な学習アルゴリズムを選択すべし
107

おススメの機械学習アルゴリズム（1/3）
ロジスティック回帰
サポートベクタマシン
With カーネルトリック
ID3（決定木）
パーセプトロン
単純ベイズ分類器
ランダムフォレスト
k-近傍法
ベイジアンネットワーク
深層学習
1958年
1957年
1951年
1979年
1985年
1992年
1960年代
2001年
2010年代
108

Q. ある程度データがあり，⼿軽に精度よく予測したい!!
A. ランダムフォレスト
Q. どんな特徴量が予測に効いているのか知りたい!!
A. ランダムフォレスト
109

Q. 超⼤量にデータはあり，可能な限り精度を出したい!!
A. ディープラーニング
（計算資源と計算時間が必要）
Q. データ数が少ないが，精度よく予測したい!!
A. サポートベクターマシン
（パラメータチューニングが必要）
これらの方針は絶対ではないので，
データ特性をふまえて手法を選択する必要あり
110

5
X⇒Yのルールを効率よく抽出する

トランザクションデータ
9⽉28⽇にYYさんが購⼊したもの
・かにぱん
・アサヒドライゼロ
・オリオンドラフト
112

POSデータは宝の⼭
111 10/1 おにぎり, 切手
コーラ, 週刊マガジン
112 10/2 コーラ,
週間マガジン
113 10/2 コーラ, 歯ブラシ，週
刊マガジン
… … …
トランザクションデータ
コーラを購入する人は
高い確率で
週刊マガジンを購入している!?
113

相関ルール
X ⇒ Y
ある行動とある行動が一緒に行われるという法則
ビールを購⼊する⼈は，紙オムツを買いやすい
たばこを購⼊する⼈は，同時に⽸コーヒーを買いやすい
コーラを購⼊する⼈は，同時に週刊マガジンを買いやすい
化粧品と何かを合わせて購⼊する⼈は，同時に雑誌を買いやすい
…
114

相関ルールマイニングの概要
入力
トランザクションデータの集合
出力
X⇒Y形式の相関ルールの集合
⼤量のトランザクションデータから，
相関ルールを網羅的に抽出したい場合
111 12/1 A, B, C
112 12/3 B, D
113 12/3 C, H, J
… … …
商品の購買記録
一緒によく買われる商品を抽出
A, B ⇒ H
B, I ⇒ J
K, Y ⇒ A, H
115

相関ルールの価値指標（1/3）
支持度
（support）
おむつビール
＝
全トランザクション数
全トランザクションの中で
XとYの組合せが登場する割合
X Y
おむつビール
X Y
X⇒Yの
116

確信度
（confidence）
おむつビール
＝
Xが出現したとき
Yも出現する確率
X Y
おむつ
X
X⇒Yの
117

リフト
（lift）＝
Yの出現に対する
Xの出現の貢献度
X⇒Yの
ビール
Y
おむつビール
X Y
Confidence (X⇒Y)
118

相関ルール分析のアルゴリズム
{A, B, C, D, E}
{B, D, E}
{B, C}
{A, C, E}
{D, F, H, M}
…
トランザクション集合
相関ルール支持度確信度リフト
A⇒B 0.2 0.1 0.4
A⇒C 0.3 0.7 1.2
A, C⇒E 0.1 0.80 1.8
… … … …
1. トランザクション集合から，考えられうる
相関ルール候補をピックアップ
2. 相関ルール候補群に対して⽀持度，確信度および
リフトの値を計算
3. 各種スコアが閾値を超えたルールを抽出
119

素朴な疑問
相関ルールの候補数が莫大で
計算が終わらないのでは？Q.
A B C D E
F G H I J
考えられる相関ルール候補数は
アイテム数10でも57,000!
120

解決策
計算候補をうまく削る
アプリオリ・アルゴリズムを使うA.
A⇒Bの支持度が閾値以下なら，
{A,C}⇒Bは調べる必要はない!!
⽀持度の閾値の制約を利⽤
121

アプリオリ・アルゴリズム
支持度＝
A⇒B
A B
A⇒Bの支持度が閾値以下なら，
{A, … }⇒Bは調べる必要はない
支持度＝
A,C⇒B
A B
C
＞
「{A,C}⇒Bの⽀持度」は
「A⇒Bの⽀持度」より必ず⼩さくなる
122

相関ルール分析を体験しましょう
https://b.hontolab.org/2ny7gIJ
123

データサイエンティストになるには?6
騒がれているが，課題はたくさん

（再掲）21世紀に最も注⽬される職業であるデータサイエンス⼈材
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ 125

不⾜するビッグデータ分析⼈材
126

急ピッチで整備されるデータサイエンス教育環境
127

128http://www.mi.u-tokyo.ac.jp/consortium/

データサイエンティストには
どんなスキル・知識が求められるか？
Q.
129

データサイエンス
= 機械学習?
= 統計学?
= プログラミング?
130

= 機械学習?
= 統計学?
= プログラミング?
= 計算機科学!!
131

データ分析に必要な
データを収集・構築する
データ
構築
前処理
アルゴリズム
適用
評価・分析
データ解析・活⽤のプロセス
アルゴリズムを走らせるために
データをクリーニング，統合，変形
種々のアルゴリズムの
適用・開発
構築したモデルの評価，
データマイニングした知見の分析
132

● データベース
● センサーネットワーク
データ
構築
前処理
アルゴリズム
適用
評価・分析
データサイエンスに必要となるスキル
● データラングリング
● 自然言語処理
● 音声・画像処理
● 機械学習
● データマイニング
● 分散処理
■ 必ず必要となる専門スキル
■ オプションとして必要となる専門スキル
専門スキルを支えるための基本スキル
● データ構造
● プログラミング
● 線形代数学
● 離散数学
● 数理・統計
133

● データベース
● センサーネットワーク
データ
構築
前処理
アルゴリズム
適用
評価・分析
データサイエンスに必要となるスキル
● データラングリング
● 自然言語処理
● 音声・画像処理
● 機械学習
● データマイニング
● 分散処理
■ 必ず必要となる専門スキル
■ オプションとして必要となる専門スキル
専門スキルを支えるための基本スキル
● データ構造
● プログラミング
● 線形代数学
● 離散数学
● 数理・統計
社会が考えるデータサイエンスはこれ
134

データ分析に必要な
データを収集・構築する
データ
構築
前処理
アルゴリズム
適用
評価・分析
データ解析・活⽤のプロセス
アルゴリズムを走らせるために
データをクリーニング，統合，変形
種々のアルゴリズムの
適用・開発
構築したモデルの評価，
データマイニングした知見の分析
データ解析の8割は「データ構築と前処理」
135

https://biz.trans-suite.jp/15958
https://jp.depositphotos.com/
https://ecotopia.earth/article-134/
情報系学部を卒業して
憧れのデータサイエンティスト
として就職!!
期待の新人
データサイエンティスト
職場にはビッグデータ活用という
概念がなく，データ分析できる
状況ではない．
職場にデータがない
or ゴミデータの山
データサイエンスが定着しない企業の現実
データ分析は勉強したが，データ
収集・構築なんて習っていない
136

データサイエンスの不都合な真実
https://tjo.hatenablog.com/entry/2018/04/02/190000
o 同僚・上司からの期待感が
現実とマッチしない
o 社内政治が最優先される
o データに関わるもの全てを
扱う何でも屋扱いされる
o 他の事業から孤立した
チームで働かされる
137

データサイエンスはどこにある？
機械学習
計算機科学
データ分析の対象
となる分野
数学
統計学
Jeff Ulman, “Data Science: Is It Real?”より 138

学習モデルの構築・評価の⾃動化もある程度AIにお任せできる
学習モデルの構築・評価にはもはや人間は必要ない?
139

データサイエンス作業の分担と職種
データサイエンティストデータエンジニア
高度な数学・統計知識
機械学習
高度な分析技術
高度なプログラミング
データベース
データパイプライン
分散処理
140https://www.oreilly.com/ideas/data-engineers-vs-data-scientists

データサイエンス作業の分担と職種
https://www.oreilly.com/ideas/data-engineers-vs-data-scientists
データサイエンティストデータエンジニア
高度な数学・統計知識
機械学習
高度な分析技術
高度なプログラミング
データベース
データパイプライン
分散処理
機械学習エンジニア
データラングリング
機械学習の運用
機械学習のチューニング
141

データ解析技術2019

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to データ解析技術2019

Similar to データ解析技術2019 (20)

More from Yusuke Yamamoto

More from Yusuke Yamamoto (20)

Recently uploaded

Recently uploaded (14)

データ解析技術2019