SlideShare a Scribd company logo
1 of 39
Download to read offline
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1
データサイエンスの
全体像
2016年6月15日
株式会社 金融エンジニアリング・グループ
創業者 チーフデータサイエンティスト
中林三平
データサイエンティスト協会 2016年第一回勉強会資料
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 2
本日のアジェンダ
Ⅰ.「情報」、「分析」、「データサイエンティスト」
 データサイエンスとデータサイエンティスト
 データサイエンティストとは何者か
 気軽に使っている言葉は、皆が共通の意味で使っているのか
Ⅱ.「分析」に関わる技術の簡単な紹介
 伝統的統計分析とデータマイニング
 ホワイトボックスからブラックボックスへ
 Deep Learning への進化
Ⅲ.データサイエンティストの育成方法
 データサイエンティストとしての自己教育
 「競う」、「共に学ぶ」
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ.「情報」、「分析」、「データサイエンティスト」
ここでは、データサイエンティストに要求される3つのスキル
セットのうち「データサイエンス力」に焦点を当てる
データサイエンス力は、「情報」を「分析」する力と言い換える
ことができるが、気軽に使っている「情報」、「分析」という言
葉にも実際には様々なレベルがあることを示し、技術的な研究開
発が最も盛んである “Predictive Analytics” の基本的な手法群を
概観する
3
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
0.まず初めに
質問:状況によって話すことの内容を若干調整します
① Rまたは Python を使ったことのある人は?
② Kaggle や KDD CUP などに参加したことのある人は?
4
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-1 データサイエンスとデータサイエンティスト(1)
1960年代に「データサイエンス」という言葉の使用が開始された
 「コンピュータサイエンス」という言葉が、どちらかと言えば、H/Wに関す
る研究を指していたのに対して、コンピュータが扱う情報の分析に関わる研究
分野を総称する言葉として使われていた
 しかし、現時点では少し様相が異なって来ている
• 「データサイエンティスト」という職種が徐々に社会的に認知されてきた
• データサイエンティストの担うべき仕事、備えるべきスキルは、過去の
「データサイエンス」が意味していたものより、格段に範囲が広い
• 現在では、データサイエンスは、データサイエンティストの行う仕事を指し
示すという、若干自己撞着的な意味でつかわれることもある
• しかし、データを分析する技術者の中には、『どこがサイエンスなのだ』と
して自分をデータサイエンティストと呼ぶのを嫌う人も少なくない
• また、データサイエンティスト協会による、データサイエンティストに要求
されるスキルの中には「データサイエンス力」というものがあり、これは伝
統的な情報を分析する力に他ならない
 ということで、データサイエンスは様々な範囲を示しながら、言葉とし
て流通している
5
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-2 データサイエンティストとは(1)
データサイエンティストの役割は、世の中に溢れるデータから、ビジネス
などに役にたつ情報を引き出すことである
 Wikiの英文記事を取りまとめて図示すると以下のような3つのエリアに
またがるスキルが求められるとしている
6
Hacking Skill Math/Stat
Substantive
Expertise
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-2 データサイエンティストとは(2)
データサイエンティスト協会では、以下のように必要なスキルセットを定
義しなおしている
この3つの力は、どのような局面で必要とされるのだろうか
• 基本的には、ビジネスの現場で、情報を活用することにより、課題を解決す
ることを想定している
7
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-2 データサイエンティストとは(3)
 Wikiの定義とデータサイエンティスト協会のスキルセットは似てい
るが、若干異なってもいる
 データエンジニアリング力より ”Hacking Skill“ の方が、範囲としては狭いが
より本質的なスキルを表現している
 データサイエンス力は、伝統的な “Math/Stats” の枠組みではとらえきれない、
新しい分析技術を含むものとしてのメッセージ力がある
 ビジネス力と “Substantive Expertise” は、ビジネスにフォーカスするのか、
それ以外の現場応用力も重視するのかという違いがある
 本日の課題のデータサイエンスについては、「情報を分析する」という
点に関しては、双方の定義はほぼ一致していると考えて良いだろう
 しかし、「情報」といった時に、各人のイメージする「情報」が同じよ
うなものを指しているとは限らない
 同様に、「分析」といった時にも、人によって様々な「分析」のイメー
ジがあるだろう
• 実際に、ネット上に示された各種の記事を読み合わせて、自分なり
の解釈をすることを「分析」と呼ぶ人もいる
8
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-3 情報の様々なレベル(1)
H.A.Simon(1916-2001:1978 ノーベル経済学賞受賞)は、企業の意思
決定に関する論文の中で、「情報」を以下のようなレベルに分けている
(実際には News から Information まで)
9
NEWS
FACT
DATA
Information
Intelligence
・新鮮さ、即時性、話題性
・事実であるニュース
・可搬性のある事実の集合体
・データを目的に沿って表現
・Knowledge をいかに現実に適用するか
Knowledge・INFO から隠れたパターンを抽出
出所) H.A..Simon 原案を中林が拡張
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-3 情報の様々なレベル(2)
データサイエンティストに求められる3つのスキルは、この情報のレベル
の各段階に比較的うまく対応している
 Data → Info, Info → Knowledge, Knowledge → Intelligence
10
NEWS
FACT
DATA
Information
Intelligence
Knowledge
Data Engineering
Data Science
Business Problem Solving
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-4 分析の様々なレベル(1)
 一般にデータをハンドリングする作業を「分析」と呼ぶことが多いが、
「分析」に関しても、いくつかのレベルが存在する
Descriptive Analytics: (Data Engineering)
• 現状把握のための各種の集計であり、モデル構築は行わない
• BIツールで行えるのはこの範囲
• 必要なデータの収集・蓄積のためのインフラが重要
• 基本的には分析というより集計作業に近い
Predictive Analytics: (Data Science)
• 確率的な予測を行うモデルを構築する
• 分析技術が問われるが、モデルの実装力も必要
Prescriptive Analytics: (Business Problem Solving)
• 構築されたモデルから最適な方策を立案する
• モデルの予測などをビジネスの現場に導入し、戦略決定を支援
注)多分、Lithium Technologies の Dr.Michael Wu が最初にこの分類を言い出したと思う
11
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅰ-4 分析の様々なレベル(2)
 Predictive Analytics に適用する分析ステップとして、以下のような分析
のプロセスが提唱されている
 KDD Process (KDD: Knowledge Discovery in Databases)
 1994年の第一回KDDカンファレンスで提唱され、現在でも分析
の基本的な体系として認められている
12
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ.「分析」に関わる技術の簡単な紹介
ここでは、主として Predictive Analytics で利用されている手法
の体系と概要を示す
手法自体は、Datamining や Machine Learning の領域から発生
したものが多いため、各種の用語についてもこれらの領域で使用
されているものに従う
13
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-1 伝統的統計分析とデータマイニング
データ分析というと、統計の勉強からスタートするというイメージがある
 これは、決して効果的とは言えない方法である
• 本格的な大規模データの分析は「データマイニング」という考え方や手法群
が整うことによりスタートした
• マイニング手法の多くは、伝統的統計学が暗黙の前提としていた事柄を否定
することを基礎としている
• 例えば、誤差が正規分布で近似できるとか、データ全体を記述するのに平均
値が役に立つとか、平均値への回帰が観察されるとか、変数間の交差効果は
無視できるほど小さいとか...
• これらの前提は実際の社会現象においては成立していないことが多い
 統計的手法は分析対象とするデータが少なく、偏りのない推計により全
体の姿を推し量ることが極めて重要であった時代に発達してきた
• 現在は、大量にあるデータから精度の高い分析を行うのが目的となった
 統計的な手法の勉強が不要というわけではない
• 基礎的な概念を知っておくことは必要であるが、「区間推定」や「検定」に非
常に詳しくなったとしても実際に使うことはほとんどないであろう
14
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-2 データ分析手法の概要
 ここでは、以下の体系により手法群を分野分けし、各分野に属する手法
の概要を述べる
 手法を選択する場合の最初の選択肢は、分析しようとする問題が「教
師あり」なのか、「教師なし」なのかという点である
• 「教師あり」とは、推定すべき指標が定義されており、分析対象と
するデータに含まれている場合である
• 「教師なし」はそれ以外の場合である
15
ML Algorithms
Unsupervised Learning Supervised Learning
Clustering Anomaly Detection Regression Classification
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-3 「教師あり」と「教師なし」の学習
「教師なし」学習と「教師あり」学習について、簡単に説明する
 「教師あり」の場合には、分析のターゲットとする変数が明確に決
まっており、過去のデータからターゲット変数を予測することが分析
の目標となる
 「教師なし」の場合は、ターゲット変数は存在しない(または、ター
ゲットを利用する意味がない)
16
V1 V2 V3 V4 ・・ Vm
C1
C2
C3
C4
C5
C6
C7
:
Cn
顧客行動データ
V1 V2 V3 V4 ・・ Vm FLG
C1 0
C2 0
C3 1
C4 0
C5 1
C6 0
C7 0
:
Cn 1
顧客行動データ
教師なしデータ 教師ありデータ
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-4 「教師なし」学習を適用する局面
 通常の分析では、「教師あり」に属する問題が圧倒的に多いが、いくつ
かの場合には「教師なし」学習の手法を適用する場合もある
 教師なし学習の手法が用いられる代表的な事例は、以下のようなタイ
プである
①クラスタリング:属性・行動プロファイルが似たものを寄せ集めて
いくつかのグループにまとめる
• 金融行動をもとにした顧客のグループ化など
• ただし、クラスタリングだけで問題解決に至ることは稀であり、
顧客クラスターごとの行動の特徴をモデリングするステップにつ
ながるのが普通である
②異常値検出:「普通」とは異なる行動を示す人を発見する
• 犯罪行為の摘出など
• 犯罪行為は極めて稀な事象であると同時に、手口が変化し続け、
特定手口を発見するモデルはすぐ陳腐化するため、過去の犯罪事
例を教師とすることは困難である
• 「普通ではない」行動を犯罪のシグナルと仮定する
17
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-5 クラスタリング手法の概要
 クラスタリングには大きく分けて2つの手法がある
①階層型クラスタリング:
• 従来の統計学的手法が該当するが、個々のサンプル間の類似性を計算するため、
大規模データの場合には計算コストが非常に大きい
• 数千万件のレコードの階層型クラスタリングは非現実的である
②非階層型クラスタリング(k-means 法とそのバリエーション)
• 極めて単純な発想に基づく手法であるが、有用性は高い
• k-means 法の場合には、K個のクラスターに分けることになるが、最適なK
の決め方に苦労する
• Observation のクラスタリングだけでなく、Variable のクラスタリングに用
いることもある
 双方の手法に共通して言えるのは、推定されたクラスタを定義するモデ
ルはかなり不安定な場合が多いということである
• また、サンプル間の類似性のみを分析対象とするため、分析結果として示され
たクラスタの解釈に苦しむこともある
18
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-6 異常値検出手法の概要
 異常値検出に関しては、観測する対象となる変数の数が少なかったり、
変数間の独立性が高い場合には、面倒なモデルを作る必要はない
 「見ればわかる」という状態であったり、個々の変数の値を個別に評
価すれば済む場合もある
 しかし、変数が数百あり、かつ、変数の組み合わせにより正常か異常
かの判断が変わる場合にはモデルを構築した方が良い
【事例】:機密文書の電子ファイルによる社外流出防止
• 社員Aが、ファイルBにアクセスし、出力を行った
• これが、機密の流出につながるかどうかを判定する
• 上記の行動が社員A(および類似した権限・職務を持つ社員群)
の通常行動の範囲に属するかどうかを確率的に推計するモデルを
構築する
 我々は One-Factor Support Vector Machine という手法を利用し、
成果を挙げることができた
19
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-7 「教師あり」学習を適用する局面
 「教師あり」分析の手法を分類する場合の伝統的な考え方は、被説明変
数(ターゲット)がカテゴリー(クラス)なのか、連続量なのかで分け
るというものである
 ターゲットがカテゴリーの場合には Classifier と呼ばれ、連続量の場合には
Regression と呼ばれる
• しかし、この分野で大きな業績を残してきている J.Friedmanが Breiman
と発表した手法は、CART(Classification and Regression Tree) と呼ばれ
るものであり、どちらにも対応できる
• 近年発表されている手法も、どちらにも対応できるものが多い
 また、伝統的には、判別分析(Discriminant Analysis) は、各サンプルがどの
クラスに属するのかを推定するが、実際の利用にあたっては、各クラスへの所
属確率で解を得た方が使いやすいため、良く使う Classifier ではクラス所属確
率を出力するのが一般的である
 Regression に関しては、通常の線形・非線形の回帰だけではなく、説明変数
が非常に多いケースに対応するための、Lasso/Ridge/Elastic-Net と呼ばれる
手法が発展してきており、新しい展開を見せている
20
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(1)
Decision Tree は典型的な教師あり学習のアルゴリズムである
 原型は CART(1984, Breiman et.al) や ID3(1986, Quinlan) が開発
したものであり、下図のようなツリーを生成する
• 2分木とする場合が多いが、n分木も扱うことが可能である
21
母集団(P=0.1)
NODE1
(P=0.05)
V4>XX?
NODE2
(P=0.20)
V3>YY? V8>ZZ?
NODE3
(P=0.02)
NODE4
(P=0.08)
NODE5
(P=0.12)
NODE6
(P=0.28)
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(2)
Decision Tree の手法は、枝分かれを追加することにより対象データの分
析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)
 その結果として、分析対象データ(Training Set)での精度は高いが
検証用データ(Validation Set)での精度は低いという現象(Over
Fitting)が発生しやすく、これを避けるために以下のような工夫が行
われている
22
Original
Data
Training
Set
Validation
Set
Model
Error
# of Partition
Validation
Training
Optimal
70%
30%
Random
Sampling
Build
Valid
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(3)
 モデルの安定性を高めるために、Cross Validation という方法が一般に
使われている
 Cross Validation の機能を埋め込んであるパッケージも多い
23
Original
Data
ランダムにN分割
Training Set
Validation
Set
Model
#1
Model
#2
Model
#3
Model
#N
アンサンブル モデル
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(4)
 Cross Validation を導入することにより、明らかにモデルの安定性は向
上する
 これを更に拡大したのが Random Forest(2001, L.Breiman)である
24
Column
Sampling
Row
Sampling
Training
Set
大量の繰り返し(数千回)
Model アンサンブル
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(5)
Random Forest は、ツリーを並列に生やしたものと言える
 これに対して、ツリーを直列に生やしたものもあり、Gradient
Boosting Machine(2001, J.Friedman)などと呼ばれている
 Boosting は、ツリーなどの精度を上げていくために開発された手法
であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー
で説明するという考え方に基づき、極めて多数のツリー(数千本)を
生成していく
 これに改良を加えたものが Xgboost(eXtreme Gradient
Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の
手法である
25
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-8 Decision Tree の技術的な発展(6)
 Xgboost により、高速・高精度・高安定性という条件をかなり満足させ
るモデルの構築が可能となっている
 その裏で犠牲になったもののある
• CART の時代には、生成されたツリーを見れば、特定のサンプルが
「なぜ」このような評価を受けたのかが完全に理解できた
• しかし、Random Forest にしろ、GBM や Xgboost にしろ、数千本
のツリーを生成する場合があり、個々のサンプルが「なぜ」そう評
価されたのかを説明することは実質的にできない
• ビジネスでモデルを利用する場合には、Accountability を求められ
ることが多くあり、手法を選択する場合には考慮すべき大きなファ
クターとなる
26
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-9 Feature Engineering(1)
 Xgboost のような手法を使い、同一のデータからモデルを構築したとし
ても、同一の精度・安定性が得られるわけではない
 オリジナルのデータセットに含まれる変数群をそのまま使ってモデル
を構築したとしたら、「分析コンペ」では下位に停滞したままになる
であろう
 変数を加工したり、組み合わせたりして適切な「特徴量」を生成する
作業を Feature Engineering と呼ぶ
 この作業には決まった手順や定石があるわけではなく、データサイエ
ンティストの感性・創造力が問われる部分である
• Data Scientist は Artist でもある
27
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅱ-9 Feature Engineering(2)
しかし、特徴量を定義するのが非常に難しい問題もある
下図は、kaggle というコンペ・サイトで出題されている Digital
Recognizer と名付けられた手書き数字の自動認識問題のサンプルであ
る(入門問題であり、現在も継続中である)
0~9の数字にも様々な癖のある書き方があり、適切な特徴量を定義
するのは極めて困難である
このコンペで上位にいる人達が使っているのは Deep Learning と呼
ばれる手法であり、現在急速に発展している
28
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ.データサイエンティストの育成方法
データサイエンティストを育成するのには、時間がかかる。
また、多くの場合、3つのスキルセットを1人で十分なレベルで
具備することは困難なことが多い
解決策はチームで3つのスキルセットを持つことができるような
体制を作ることである
その中で育成が比較的難しいのは、「データサイエンス力」を持
つ人材の育成である
FEG社での育成方法を紹介する
29
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-1 データサイエンティストの育成(1)
 バックグラウンドについて
 経験的には「理系」でも「文系」でも、優秀なデータ分析技術者になれる
• 例えば、「統計学」の知識が限られていたとしても、データを分析していく
うえで純粋な統計学の知識が要求されることはほとんどない
• もちろん、全体の知識体系の中に含まれている「常識」を持っていることは
貴重ではあるが、必要条件ではない
 修士と学卒の間にも、実質的な差異はない(博士課程の場合には差がある)
• 当社では、入社時に持っている知識のレベルは問わない(余程のデータ分析
経験者でない限り、新しくトレーニングを受ける人たちと大差はない)
• ただし、修士の方が課題に対して、全体像を掴み、一つの結果を取りまとめ
るという経験を持っているということが即戦力に育ちやすい
• さらに、修士の方が学問としての体系(各種の理論間の関係)をある程度ま
では学んでいるため、全体像を把握する訓練は受けている
 性差については全くないと言ってよい
• あえて言えば、女性の方が分析に向いている可能性があるが、性差よりも個
人差の方が経験的には大きい
30
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-1 データサイエンティストの育成(2)
FEGでの新卒データ分析技術者の教育は以下のようなものである
①ビジネス常識(特別なことは何もなし)
②言語教育(WPS[SAS系]、R、Python など)
③金融業界常識教育(特に銀行業務、関連金融業界業務)
④過去の実施プロジェクトの内容教育
⑤プレゼン・レポーティング
⑥企画書作成トレーニング
⑦データ分析コンペへの参加
 上記を概ね4月~6月の間に終了し、その後のスキルアップは基本的に
各自に任せている
 ただし、「コーチ」が最低一年は付くため、プロジェクト上の疑問への解決法
やスキルアップのための指導などはコーチが面倒を見る
 7月以降は、プロジェクトに参加し、常用する分析手法や、最も大事な「汚い
データへの対応」、「業務に対応した Feature Engineering」などはOJTで
勉強していくことになる
31
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-1 データサイエンティストの育成(3)
 データサイエンスの分野は、技術の進歩が極めて早いため、勉強を続け
ていない限りはあっという間に「時代遅れ」になってしまう
 実プロジェクトで利用する分析手法は、ある程度有効性が確認されたものを顧
客が望むため、あまり冒険的なものは利用できない
 これを補うための大きな機会は「社内勉強会」であり、週一度程度、夕方から
夜にかけて開催されている
• 勉強会は誰でも好きな時に好きなテーマで開催できる
• 開催したいテーマを持つ場合には、グループウェア上で開催を告知し、一定
の人数が集まれば、日時を調整の上、正式に開催する
• 正式な勉強会であれば、必要なテキストなどは全て会社が補助する
 勉強会のテーマとしては以下のようなものがある
①統計検定一級・二級取得のための勉強会
②Python(Scikit-Learn) の勉強会
③因果推論(Causal Inference)勉強会
④Deep Learning 勉強会
32
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-2 育成のためのトレーニンング(1)
 分析者としてのスキルをアップするためには、「実際の問題」に取り組
むことがベストである
 玩具の問題(Toy Problem)をいくら扱ってみても、現実の問題に対応できる
ようなスキルは中々身につかない
• 玩具の問題に利用されるデータは、多くの場合、小規模であったり、ノイズ
を含まなかったりして、新しいアルゴリズムの検証などには妥当であろうが
スキルを高めるのに最も必要な部分のトレーニングができない
• 実問題を解くうえで、下記のようなデータを吟味し、加工し、選択するプロ
セスが、分析時間の70~80%を占めている
• この部分を現実的なデータを扱うことで身に付けていくことがトレーニング
の非常に重要な部分となる
33
Feature Engineering
Data Cleaning
Data Profiling
Data Shaping
Feature Generation
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-2 育成のためのトレーニンング(2)
 実データの分析と言っても、社内で簡単に適切な問題が入手できるとは
限らない
 FEGでトレーニングのために重要視しているのか、ネット上で開催されてい
る「分析コンペティション」への参加である
• 様々なコンペの概要や功罪に関しては以下の論文を参照して頂きたい
http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf
• FEGで推奨しているのは「分析技術に特化した」コンペであり、「こんな
データがあるので、それを活用するアイデアを提出してほしい」というスタ
イルのコンペは推奨していない
• 新人研修の中での「コンペへの参加」というのは、毎年開催される KDD
Conference と同時に行われる KDD CUP への参加である
• KDD Conference はデータマイニングの分野では最大・最古の学会であり、
KDD CUP にはかなり手強い問題が出題される
• 新人には荷が重いが、このコンペには全社で(時間の取れる人が)参加して
おり、慣れた人たちのスキルを実際に見る良いチャンスとなっている
• FEGにとっても、ここでチャンピオンになるのが目標である(2009 年と
2015年に2位となっている)
34
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-3 KDD CUP 2016 @Sydney
 2位でも嬉しいものです
35
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-4 Kaggle について(1)
 参加者が多いのは kaggle (https://www.kaggle.com/competitions)
であり、ここで出題される問題はスポンサーから提出された課題であり、
実データの分析が対象となっている
 このサイトでは、常に数問の課題(チュートリアルなどを除く、コン
ペ問題)が出されている(例えば、下の問題)
36
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-4 Kaggle について(2)
 前ページの問題は、「パンの需要予測と収益最大化」が課題である
 現時点で、約2ヶ月の継続期間が残っており、取り組んでみるには適切な課題
であろう
 コンペの問題なので、賞金がかかっており、総額2万5千ドルである
 データは非常に汚く、例えば顧客IDが重複している場合などもがある
• 例えば、上記の重複IDなどをどのようにクリーニングするかは、分析者の
スキルに任されている
• 学習用のデータ中に存在しない製品が、予測用のデータ中に存在したりする
(新製品が出た場合など)
• スポンサー( “Grupo BIMBO” )がメキシコの会社であることもデータが
整っていない原因の一つであるが、日本のデータであっても「欠損値」や
「異常値」が発見されることは良くある
 予測対象が「パン」であることによる特殊要因が関わってくるが(在庫可能期
間など)、実際のビジネスでも頻繁に発生する問題である
• 数量を予測するタイプの問題は、通常データ量が少なく、このコンペのデー
タもアーカイブされた状態で400MB程度である
37
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-5 コンペ参加の面白さ(1)
「日経BigData」の記事を下に示す
 コンペの最優秀モデルが、これまでの「プロ」の予測より15%精度を向上さ
せたというもので、現場に採用された事例である
38
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
Ⅲ-5 コンペ参加の面白さ(2)
Kaggle にしろ、前出の豆腐の需要予測を行ったオプト社のサイト
“DeepAnalytics” (https://deepanalytics.jp/compelist) にしろ、参加
者には成績に応じてポイントが与えられる
 Kaggle には現在世界中から57万人が登録しており、自分がその中で何番目程
度かを知ることができる(ちなみに私は1700番目程度であり、全く大した
ことない順位である)
• Kaggle の場合には、一定の条件(コンペの上位10人に入るなど)を達成す
ると Kaggle Master の称号を得る
 Kaggle の最大のメリットは、各コンペごとに “Forum” が開かれており、そこ
で参加者が自由に討議できることである
• 「これは何も分かってないな」から「ふーん、なるほど」や「おー、これは
すごい」に至る様々なコメントが記載されており、本当に勉強になる
と言ったところで、コンペに参加してみたらいかがですか
39

More Related Content

What's hot

企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)よりThe Japan DataScientist Society
 
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysistetsuro ito
 
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料The Japan DataScientist Society
 
はじパタ2章
はじパタ2章はじパタ2章
はじパタ2章tetsuro ito
 
国内最大級のお笑いWebサービス「ボケて」におけるTableau活用事例
国内最大級のお笑いWebサービス「ボケて」におけるTableau活用事例国内最大級のお笑いWebサービス「ボケて」におけるTableau活用事例
国内最大級のお笑いWebサービス「ボケて」におけるTableau活用事例淳也 和田
 
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストThe Japan DataScientist Society
 
マルチクラウドで実演するカスタマーセントリックな分析基盤
マルチクラウドで実演するカスタマーセントリックな分析基盤マルチクラウドで実演するカスタマーセントリックな分析基盤
マルチクラウドで実演するカスタマーセントリックな分析基盤Recruit Lifestyle Co., Ltd.
 
米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向Takatsugu Kobayashi
 
正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方syou6162
 
AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルThe Japan DataScientist Society
 
オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用syou6162
 
さらば!データサイエンティスト
さらば!データサイエンティストさらば!データサイエンティスト
さらば!データサイエンティストShohei Hido
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題kurikiyo
 
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline Analytics2014
 
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密Ryo Matsuura
 
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーThe Japan DataScientist Society
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方Recruit Lifestyle Co., Ltd.
 
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgateデータ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate@yuzutas0 Yokoyama
 

What's hot (20)

企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
 
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
20150531分析プラットホームとその技術(bizreach) cookpad ito #dcube_analysis
 
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
 
はじパタ2章
はじパタ2章はじパタ2章
はじパタ2章
 
学生から見たデータサイエンティスト
学生から見たデータサイエンティスト学生から見たデータサイエンティスト
学生から見たデータサイエンティスト
 
国内最大級のお笑いWebサービス「ボケて」におけるTableau活用事例
国内最大級のお笑いWebサービス「ボケて」におけるTableau活用事例国内最大級のお笑いWebサービス「ボケて」におけるTableau活用事例
国内最大級のお笑いWebサービス「ボケて」におけるTableau活用事例
 
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリスト
 
データサイエンティストの就労意識
データサイエンティストの就労意識データサイエンティストの就労意識
データサイエンティストの就労意識
 
マルチクラウドで実演するカスタマーセントリックな分析基盤
マルチクラウドで実演するカスタマーセントリックな分析基盤マルチクラウドで実演するカスタマーセントリックな分析基盤
マルチクラウドで実演するカスタマーセントリックな分析基盤
 
米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向米国でのビッグデータビジネスの動向
米国でのビッグデータビジネスの動向
 
正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方正確な意思決定を阻む 問題・障害との向き合い方
正確な意思決定を阻む 問題・障害との向き合い方
 
AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキル
 
オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用オープンセミナー岡山 これから始めるデータ活用
オープンセミナー岡山 これから始めるデータ活用
 
さらば!データサイエンティスト
さらば!データサイエンティストさらば!データサイエンティスト
さらば!データサイエンティスト
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
 
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
 
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
 
リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方リクルートライフスタイル流!分析基盤との賢い付き合い方
リクルートライフスタイル流!分析基盤との賢い付き合い方
 
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgateデータ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
 

Viewers also liked

Xgboost for share
Xgboost for shareXgboost for share
Xgboost for shareShota Yasui
 
Impact of big data on analytics
Impact of big data on analyticsImpact of big data on analytics
Impact of big data on analyticsCapgemini
 
Big Data and the Art of Data Science
Big Data and the Art of Data ScienceBig Data and the Art of Data Science
Big Data and the Art of Data ScienceAndrew Gardner
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点Ichigaku Takigawa
 
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Data Science London
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 

Viewers also liked (8)

Xgboost for share
Xgboost for shareXgboost for share
Xgboost for share
 
Impact of big data on analytics
Impact of big data on analyticsImpact of big data on analytics
Impact of big data on analytics
 
Xgboost
XgboostXgboost
Xgboost
 
Big Data and the Art of Data Science
Big Data and the Art of Data ScienceBig Data and the Art of Data Science
Big Data and the Art of Data Science
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
 
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 

Similar to データサイエンスの全体像

SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)
SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)
SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)Tetsuo Yamabe
 
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8tatsuyasakaeeda
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポートnagix
 
研究データ管理の動向及びデータ利活用に向けた課題整理
研究データ管理の動向及びデータ利活用に向けた課題整理研究データ管理の動向及びデータ利活用に向けた課題整理
研究データ管理の動向及びデータ利活用に向けた課題整理Yasuyuki Minamiyama
 
20180730 ds womens
20180730 ds womens20180730 ds womens
20180730 ds womensRio Kurihara
 
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるかGoogle Cloud Platform - Japan
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方Shohei Hido
 
SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~
SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~
SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~SAS Institute Japan
 
新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー慧悟 岩本
 
20121208大学教育セミナー(名大)pub
20121208大学教育セミナー(名大)pub20121208大学教育セミナー(名大)pub
20121208大学教育セミナー(名大)pubkokabe
 
マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯Yasuki Ichishima
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルートIssei Kurahashi
 
[DSO]勉強会_データサイエンス講義_Chapter1,2
[DSO]勉強会_データサイエンス講義_Chapter1,2[DSO]勉強会_データサイエンス講義_Chapter1,2
[DSO]勉強会_データサイエンス講義_Chapter1,2tatsuyasakaeeda
 
[DSO]勉強会データサイエンス講義_Chapter10
[DSO]勉強会データサイエンス講義_Chapter10[DSO]勉強会データサイエンス講義_Chapter10
[DSO]勉強会データサイエンス講義_Chapter10tatsuyasakaeeda
 
金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?Tsunehiko Nagayama
 
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]Dentsu Razorfish
 
BtoBマーケティングにおけるML/NLPの活用
BtoBマーケティングにおけるML/NLPの活用BtoBマーケティングにおけるML/NLPの活用
BtoBマーケティングにおけるML/NLPの活用Akira Kitauchi
 

Similar to データサイエンスの全体像 (20)

SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)
SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)
SXSWedu 2016 報告会 〜EdTech JAPAN 世界への挑戦 セッション紹介(山邉分)
 
[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8[DSO]勉強会_データサイエンス講義_Chapter8
[DSO]勉強会_データサイエンス講義_Chapter8
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
 
研究データ管理の動向及びデータ利活用に向けた課題整理
研究データ管理の動向及びデータ利活用に向けた課題整理研究データ管理の動向及びデータ利活用に向けた課題整理
研究データ管理の動向及びデータ利活用に向けた課題整理
 
20180730 ds womens
20180730 ds womens20180730 ds womens
20180730 ds womens
 
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
[INEVITABLE ja night] 2019 年 3 月 1 日 - データでカスタマーエクスペリエンスを どう捉えるか
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
 
SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~
SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~
SAS Viyaによる意識改革からみえたData Scientistの生き方 ~僕たちはどう生きるか~
 
新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー
 
深層学習モデルと統計モデルHR現場で適切だったのはどっち!?
深層学習モデルと統計モデルHR現場で適切だったのはどっち!?深層学習モデルと統計モデルHR現場で適切だったのはどっち!?
深層学習モデルと統計モデルHR現場で適切だったのはどっち!?
 
ODSC East 2017 Report
ODSC East 2017 ReportODSC East 2017 Report
ODSC East 2017 Report
 
20121208大学教育セミナー(名大)pub
20121208大学教育セミナー(名大)pub20121208大学教育セミナー(名大)pub
20121208大学教育セミナー(名大)pub
 
マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯マーケティング視点で捉えるアクセス解析 株式会社真摯
マーケティング視点で捉えるアクセス解析 株式会社真摯
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
[DSO]勉強会_データサイエンス講義_Chapter1,2
[DSO]勉強会_データサイエンス講義_Chapter1,2[DSO]勉強会_データサイエンス講義_Chapter1,2
[DSO]勉強会_データサイエンス講義_Chapter1,2
 
[DSO]勉強会データサイエンス講義_Chapter10
[DSO]勉強会データサイエンス講義_Chapter10[DSO]勉強会データサイエンス講義_Chapter10
[DSO]勉強会データサイエンス講義_Chapter10
 
おしゃスタat銀座
おしゃスタat銀座おしゃスタat銀座
おしゃスタat銀座
 
金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?金融×AIで解くべき問題は何か?
金融×AIで解くべき問題は何か?
 
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
 
BtoBマーケティングにおけるML/NLPの活用
BtoBマーケティングにおけるML/NLPの活用BtoBマーケティングにおけるML/NLPの活用
BtoBマーケティングにおけるML/NLPの活用
 

More from The Japan DataScientist Society

コニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みコニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みThe Japan DataScientist Society
 
エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』The Japan DataScientist Society
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向The Japan DataScientist Society
 
機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望The Japan DataScientist Society
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』The Japan DataScientist Society
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~The Japan DataScientist Society
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティングThe Japan DataScientist Society
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~The Japan DataScientist Society
 
データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)The Japan DataScientist Society
 
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』The Japan DataScientist Society
 
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』The Japan DataScientist Society
 
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例  〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例  〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』The Japan DataScientist Society
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』The Japan DataScientist Society
 
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』The Japan DataScientist Society
 
データサイエンティスト協会 木曜勉強会#01 『Pythonによるデータ分析および最適化』
データサイエンティスト協会 木曜勉強会#01 『Pythonによるデータ分析および最適化』データサイエンティスト協会 木曜勉強会#01 『Pythonによるデータ分析および最適化』
データサイエンティスト協会 木曜勉強会#01 『Pythonによるデータ分析および最適化』The Japan DataScientist Society
 

More from The Japan DataScientist Society (16)

コニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みコニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組み
 
エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
 
機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
 
スキルチェックリスト 2017年版
スキルチェックリスト 2017年版スキルチェックリスト 2017年版
スキルチェックリスト 2017年版
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)
 
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
 
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
 
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例  〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例  〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
 
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
データサイエンティスト協会 木曜勉強会 #02『クレンジングからビジュアライズまで!実践!データ解析超入門!』
 
データサイエンティスト協会 木曜勉強会#01 『Pythonによるデータ分析および最適化』
データサイエンティスト協会 木曜勉強会#01 『Pythonによるデータ分析および最適化』データサイエンティスト協会 木曜勉強会#01 『Pythonによるデータ分析および最適化』
データサイエンティスト協会 木曜勉強会#01 『Pythonによるデータ分析および最適化』
 

データサイエンスの全体像

  • 1. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1 データサイエンスの 全体像 2016年6月15日 株式会社 金融エンジニアリング・グループ 創業者 チーフデータサイエンティスト 中林三平 データサイエンティスト協会 2016年第一回勉強会資料
  • 2. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 2 本日のアジェンダ Ⅰ.「情報」、「分析」、「データサイエンティスト」  データサイエンスとデータサイエンティスト  データサイエンティストとは何者か  気軽に使っている言葉は、皆が共通の意味で使っているのか Ⅱ.「分析」に関わる技術の簡単な紹介  伝統的統計分析とデータマイニング  ホワイトボックスからブラックボックスへ  Deep Learning への進化 Ⅲ.データサイエンティストの育成方法  データサイエンティストとしての自己教育  「競う」、「共に学ぶ」
  • 3. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ.「情報」、「分析」、「データサイエンティスト」 ここでは、データサイエンティストに要求される3つのスキル セットのうち「データサイエンス力」に焦点を当てる データサイエンス力は、「情報」を「分析」する力と言い換える ことができるが、気軽に使っている「情報」、「分析」という言 葉にも実際には様々なレベルがあることを示し、技術的な研究開 発が最も盛んである “Predictive Analytics” の基本的な手法群を 概観する 3
  • 4. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 0.まず初めに 質問:状況によって話すことの内容を若干調整します ① Rまたは Python を使ったことのある人は? ② Kaggle や KDD CUP などに参加したことのある人は? 4
  • 5. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-1 データサイエンスとデータサイエンティスト(1) 1960年代に「データサイエンス」という言葉の使用が開始された  「コンピュータサイエンス」という言葉が、どちらかと言えば、H/Wに関す る研究を指していたのに対して、コンピュータが扱う情報の分析に関わる研究 分野を総称する言葉として使われていた  しかし、現時点では少し様相が異なって来ている • 「データサイエンティスト」という職種が徐々に社会的に認知されてきた • データサイエンティストの担うべき仕事、備えるべきスキルは、過去の 「データサイエンス」が意味していたものより、格段に範囲が広い • 現在では、データサイエンスは、データサイエンティストの行う仕事を指し 示すという、若干自己撞着的な意味でつかわれることもある • しかし、データを分析する技術者の中には、『どこがサイエンスなのだ』と して自分をデータサイエンティストと呼ぶのを嫌う人も少なくない • また、データサイエンティスト協会による、データサイエンティストに要求 されるスキルの中には「データサイエンス力」というものがあり、これは伝 統的な情報を分析する力に他ならない  ということで、データサイエンスは様々な範囲を示しながら、言葉とし て流通している 5
  • 6. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-2 データサイエンティストとは(1) データサイエンティストの役割は、世の中に溢れるデータから、ビジネス などに役にたつ情報を引き出すことである  Wikiの英文記事を取りまとめて図示すると以下のような3つのエリアに またがるスキルが求められるとしている 6 Hacking Skill Math/Stat Substantive Expertise
  • 7. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-2 データサイエンティストとは(2) データサイエンティスト協会では、以下のように必要なスキルセットを定 義しなおしている この3つの力は、どのような局面で必要とされるのだろうか • 基本的には、ビジネスの現場で、情報を活用することにより、課題を解決す ることを想定している 7
  • 8. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-2 データサイエンティストとは(3)  Wikiの定義とデータサイエンティスト協会のスキルセットは似てい るが、若干異なってもいる  データエンジニアリング力より ”Hacking Skill“ の方が、範囲としては狭いが より本質的なスキルを表現している  データサイエンス力は、伝統的な “Math/Stats” の枠組みではとらえきれない、 新しい分析技術を含むものとしてのメッセージ力がある  ビジネス力と “Substantive Expertise” は、ビジネスにフォーカスするのか、 それ以外の現場応用力も重視するのかという違いがある  本日の課題のデータサイエンスについては、「情報を分析する」という 点に関しては、双方の定義はほぼ一致していると考えて良いだろう  しかし、「情報」といった時に、各人のイメージする「情報」が同じよ うなものを指しているとは限らない  同様に、「分析」といった時にも、人によって様々な「分析」のイメー ジがあるだろう • 実際に、ネット上に示された各種の記事を読み合わせて、自分なり の解釈をすることを「分析」と呼ぶ人もいる 8
  • 9. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-3 情報の様々なレベル(1) H.A.Simon(1916-2001:1978 ノーベル経済学賞受賞)は、企業の意思 決定に関する論文の中で、「情報」を以下のようなレベルに分けている (実際には News から Information まで) 9 NEWS FACT DATA Information Intelligence ・新鮮さ、即時性、話題性 ・事実であるニュース ・可搬性のある事実の集合体 ・データを目的に沿って表現 ・Knowledge をいかに現実に適用するか Knowledge・INFO から隠れたパターンを抽出 出所) H.A..Simon 原案を中林が拡張
  • 10. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-3 情報の様々なレベル(2) データサイエンティストに求められる3つのスキルは、この情報のレベル の各段階に比較的うまく対応している  Data → Info, Info → Knowledge, Knowledge → Intelligence 10 NEWS FACT DATA Information Intelligence Knowledge Data Engineering Data Science Business Problem Solving
  • 11. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-4 分析の様々なレベル(1)  一般にデータをハンドリングする作業を「分析」と呼ぶことが多いが、 「分析」に関しても、いくつかのレベルが存在する Descriptive Analytics: (Data Engineering) • 現状把握のための各種の集計であり、モデル構築は行わない • BIツールで行えるのはこの範囲 • 必要なデータの収集・蓄積のためのインフラが重要 • 基本的には分析というより集計作業に近い Predictive Analytics: (Data Science) • 確率的な予測を行うモデルを構築する • 分析技術が問われるが、モデルの実装力も必要 Prescriptive Analytics: (Business Problem Solving) • 構築されたモデルから最適な方策を立案する • モデルの予測などをビジネスの現場に導入し、戦略決定を支援 注)多分、Lithium Technologies の Dr.Michael Wu が最初にこの分類を言い出したと思う 11
  • 12. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅰ-4 分析の様々なレベル(2)  Predictive Analytics に適用する分析ステップとして、以下のような分析 のプロセスが提唱されている  KDD Process (KDD: Knowledge Discovery in Databases)  1994年の第一回KDDカンファレンスで提唱され、現在でも分析 の基本的な体系として認められている 12
  • 13. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ.「分析」に関わる技術の簡単な紹介 ここでは、主として Predictive Analytics で利用されている手法 の体系と概要を示す 手法自体は、Datamining や Machine Learning の領域から発生 したものが多いため、各種の用語についてもこれらの領域で使用 されているものに従う 13
  • 14. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-1 伝統的統計分析とデータマイニング データ分析というと、統計の勉強からスタートするというイメージがある  これは、決して効果的とは言えない方法である • 本格的な大規模データの分析は「データマイニング」という考え方や手法群 が整うことによりスタートした • マイニング手法の多くは、伝統的統計学が暗黙の前提としていた事柄を否定 することを基礎としている • 例えば、誤差が正規分布で近似できるとか、データ全体を記述するのに平均 値が役に立つとか、平均値への回帰が観察されるとか、変数間の交差効果は 無視できるほど小さいとか... • これらの前提は実際の社会現象においては成立していないことが多い  統計的手法は分析対象とするデータが少なく、偏りのない推計により全 体の姿を推し量ることが極めて重要であった時代に発達してきた • 現在は、大量にあるデータから精度の高い分析を行うのが目的となった  統計的な手法の勉強が不要というわけではない • 基礎的な概念を知っておくことは必要であるが、「区間推定」や「検定」に非 常に詳しくなったとしても実際に使うことはほとんどないであろう 14
  • 15. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-2 データ分析手法の概要  ここでは、以下の体系により手法群を分野分けし、各分野に属する手法 の概要を述べる  手法を選択する場合の最初の選択肢は、分析しようとする問題が「教 師あり」なのか、「教師なし」なのかという点である • 「教師あり」とは、推定すべき指標が定義されており、分析対象と するデータに含まれている場合である • 「教師なし」はそれ以外の場合である 15 ML Algorithms Unsupervised Learning Supervised Learning Clustering Anomaly Detection Regression Classification
  • 16. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-3 「教師あり」と「教師なし」の学習 「教師なし」学習と「教師あり」学習について、簡単に説明する  「教師あり」の場合には、分析のターゲットとする変数が明確に決 まっており、過去のデータからターゲット変数を予測することが分析 の目標となる  「教師なし」の場合は、ターゲット変数は存在しない(または、ター ゲットを利用する意味がない) 16 V1 V2 V3 V4 ・・ Vm C1 C2 C3 C4 C5 C6 C7 : Cn 顧客行動データ V1 V2 V3 V4 ・・ Vm FLG C1 0 C2 0 C3 1 C4 0 C5 1 C6 0 C7 0 : Cn 1 顧客行動データ 教師なしデータ 教師ありデータ
  • 17. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-4 「教師なし」学習を適用する局面  通常の分析では、「教師あり」に属する問題が圧倒的に多いが、いくつ かの場合には「教師なし」学習の手法を適用する場合もある  教師なし学習の手法が用いられる代表的な事例は、以下のようなタイ プである ①クラスタリング:属性・行動プロファイルが似たものを寄せ集めて いくつかのグループにまとめる • 金融行動をもとにした顧客のグループ化など • ただし、クラスタリングだけで問題解決に至ることは稀であり、 顧客クラスターごとの行動の特徴をモデリングするステップにつ ながるのが普通である ②異常値検出:「普通」とは異なる行動を示す人を発見する • 犯罪行為の摘出など • 犯罪行為は極めて稀な事象であると同時に、手口が変化し続け、 特定手口を発見するモデルはすぐ陳腐化するため、過去の犯罪事 例を教師とすることは困難である • 「普通ではない」行動を犯罪のシグナルと仮定する 17
  • 18. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-5 クラスタリング手法の概要  クラスタリングには大きく分けて2つの手法がある ①階層型クラスタリング: • 従来の統計学的手法が該当するが、個々のサンプル間の類似性を計算するため、 大規模データの場合には計算コストが非常に大きい • 数千万件のレコードの階層型クラスタリングは非現実的である ②非階層型クラスタリング(k-means 法とそのバリエーション) • 極めて単純な発想に基づく手法であるが、有用性は高い • k-means 法の場合には、K個のクラスターに分けることになるが、最適なK の決め方に苦労する • Observation のクラスタリングだけでなく、Variable のクラスタリングに用 いることもある  双方の手法に共通して言えるのは、推定されたクラスタを定義するモデ ルはかなり不安定な場合が多いということである • また、サンプル間の類似性のみを分析対象とするため、分析結果として示され たクラスタの解釈に苦しむこともある 18
  • 19. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-6 異常値検出手法の概要  異常値検出に関しては、観測する対象となる変数の数が少なかったり、 変数間の独立性が高い場合には、面倒なモデルを作る必要はない  「見ればわかる」という状態であったり、個々の変数の値を個別に評 価すれば済む場合もある  しかし、変数が数百あり、かつ、変数の組み合わせにより正常か異常 かの判断が変わる場合にはモデルを構築した方が良い 【事例】:機密文書の電子ファイルによる社外流出防止 • 社員Aが、ファイルBにアクセスし、出力を行った • これが、機密の流出につながるかどうかを判定する • 上記の行動が社員A(および類似した権限・職務を持つ社員群) の通常行動の範囲に属するかどうかを確率的に推計するモデルを 構築する  我々は One-Factor Support Vector Machine という手法を利用し、 成果を挙げることができた 19
  • 20. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-7 「教師あり」学習を適用する局面  「教師あり」分析の手法を分類する場合の伝統的な考え方は、被説明変 数(ターゲット)がカテゴリー(クラス)なのか、連続量なのかで分け るというものである  ターゲットがカテゴリーの場合には Classifier と呼ばれ、連続量の場合には Regression と呼ばれる • しかし、この分野で大きな業績を残してきている J.Friedmanが Breiman と発表した手法は、CART(Classification and Regression Tree) と呼ばれ るものであり、どちらにも対応できる • 近年発表されている手法も、どちらにも対応できるものが多い  また、伝統的には、判別分析(Discriminant Analysis) は、各サンプルがどの クラスに属するのかを推定するが、実際の利用にあたっては、各クラスへの所 属確率で解を得た方が使いやすいため、良く使う Classifier ではクラス所属確 率を出力するのが一般的である  Regression に関しては、通常の線形・非線形の回帰だけではなく、説明変数 が非常に多いケースに対応するための、Lasso/Ridge/Elastic-Net と呼ばれる 手法が発展してきており、新しい展開を見せている 20
  • 21. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(1) Decision Tree は典型的な教師あり学習のアルゴリズムである  原型は CART(1984, Breiman et.al) や ID3(1986, Quinlan) が開発 したものであり、下図のようなツリーを生成する • 2分木とする場合が多いが、n分木も扱うことが可能である 21 母集団(P=0.1) NODE1 (P=0.05) V4>XX? NODE2 (P=0.20) V3>YY? V8>ZZ? NODE3 (P=0.02) NODE4 (P=0.08) NODE5 (P=0.12) NODE6 (P=0.28)
  • 22. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(2) Decision Tree の手法は、枝分かれを追加することにより対象データの分 析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)  その結果として、分析対象データ(Training Set)での精度は高いが 検証用データ(Validation Set)での精度は低いという現象(Over Fitting)が発生しやすく、これを避けるために以下のような工夫が行 われている 22 Original Data Training Set Validation Set Model Error # of Partition Validation Training Optimal 70% 30% Random Sampling Build Valid
  • 23. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(3)  モデルの安定性を高めるために、Cross Validation という方法が一般に 使われている  Cross Validation の機能を埋め込んであるパッケージも多い 23 Original Data ランダムにN分割 Training Set Validation Set Model #1 Model #2 Model #3 Model #N アンサンブル モデル
  • 24. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(4)  Cross Validation を導入することにより、明らかにモデルの安定性は向 上する  これを更に拡大したのが Random Forest(2001, L.Breiman)である 24 Column Sampling Row Sampling Training Set 大量の繰り返し(数千回) Model アンサンブル
  • 25. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(5) Random Forest は、ツリーを並列に生やしたものと言える  これに対して、ツリーを直列に生やしたものもあり、Gradient Boosting Machine(2001, J.Friedman)などと呼ばれている  Boosting は、ツリーなどの精度を上げていくために開発された手法 であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー で説明するという考え方に基づき、極めて多数のツリー(数千本)を 生成していく  これに改良を加えたものが Xgboost(eXtreme Gradient Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の 手法である 25
  • 26. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-8 Decision Tree の技術的な発展(6)  Xgboost により、高速・高精度・高安定性という条件をかなり満足させ るモデルの構築が可能となっている  その裏で犠牲になったもののある • CART の時代には、生成されたツリーを見れば、特定のサンプルが 「なぜ」このような評価を受けたのかが完全に理解できた • しかし、Random Forest にしろ、GBM や Xgboost にしろ、数千本 のツリーを生成する場合があり、個々のサンプルが「なぜ」そう評 価されたのかを説明することは実質的にできない • ビジネスでモデルを利用する場合には、Accountability を求められ ることが多くあり、手法を選択する場合には考慮すべき大きなファ クターとなる 26
  • 27. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-9 Feature Engineering(1)  Xgboost のような手法を使い、同一のデータからモデルを構築したとし ても、同一の精度・安定性が得られるわけではない  オリジナルのデータセットに含まれる変数群をそのまま使ってモデル を構築したとしたら、「分析コンペ」では下位に停滞したままになる であろう  変数を加工したり、組み合わせたりして適切な「特徴量」を生成する 作業を Feature Engineering と呼ぶ  この作業には決まった手順や定石があるわけではなく、データサイエ ンティストの感性・創造力が問われる部分である • Data Scientist は Artist でもある 27
  • 28. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅱ-9 Feature Engineering(2) しかし、特徴量を定義するのが非常に難しい問題もある 下図は、kaggle というコンペ・サイトで出題されている Digital Recognizer と名付けられた手書き数字の自動認識問題のサンプルであ る(入門問題であり、現在も継続中である) 0~9の数字にも様々な癖のある書き方があり、適切な特徴量を定義 するのは極めて困難である このコンペで上位にいる人達が使っているのは Deep Learning と呼 ばれる手法であり、現在急速に発展している 28
  • 29. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ.データサイエンティストの育成方法 データサイエンティストを育成するのには、時間がかかる。 また、多くの場合、3つのスキルセットを1人で十分なレベルで 具備することは困難なことが多い 解決策はチームで3つのスキルセットを持つことができるような 体制を作ることである その中で育成が比較的難しいのは、「データサイエンス力」を持 つ人材の育成である FEG社での育成方法を紹介する 29
  • 30. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-1 データサイエンティストの育成(1)  バックグラウンドについて  経験的には「理系」でも「文系」でも、優秀なデータ分析技術者になれる • 例えば、「統計学」の知識が限られていたとしても、データを分析していく うえで純粋な統計学の知識が要求されることはほとんどない • もちろん、全体の知識体系の中に含まれている「常識」を持っていることは 貴重ではあるが、必要条件ではない  修士と学卒の間にも、実質的な差異はない(博士課程の場合には差がある) • 当社では、入社時に持っている知識のレベルは問わない(余程のデータ分析 経験者でない限り、新しくトレーニングを受ける人たちと大差はない) • ただし、修士の方が課題に対して、全体像を掴み、一つの結果を取りまとめ るという経験を持っているということが即戦力に育ちやすい • さらに、修士の方が学問としての体系(各種の理論間の関係)をある程度ま では学んでいるため、全体像を把握する訓練は受けている  性差については全くないと言ってよい • あえて言えば、女性の方が分析に向いている可能性があるが、性差よりも個 人差の方が経験的には大きい 30
  • 31. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-1 データサイエンティストの育成(2) FEGでの新卒データ分析技術者の教育は以下のようなものである ①ビジネス常識(特別なことは何もなし) ②言語教育(WPS[SAS系]、R、Python など) ③金融業界常識教育(特に銀行業務、関連金融業界業務) ④過去の実施プロジェクトの内容教育 ⑤プレゼン・レポーティング ⑥企画書作成トレーニング ⑦データ分析コンペへの参加  上記を概ね4月~6月の間に終了し、その後のスキルアップは基本的に 各自に任せている  ただし、「コーチ」が最低一年は付くため、プロジェクト上の疑問への解決法 やスキルアップのための指導などはコーチが面倒を見る  7月以降は、プロジェクトに参加し、常用する分析手法や、最も大事な「汚い データへの対応」、「業務に対応した Feature Engineering」などはOJTで 勉強していくことになる 31
  • 32. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-1 データサイエンティストの育成(3)  データサイエンスの分野は、技術の進歩が極めて早いため、勉強を続け ていない限りはあっという間に「時代遅れ」になってしまう  実プロジェクトで利用する分析手法は、ある程度有効性が確認されたものを顧 客が望むため、あまり冒険的なものは利用できない  これを補うための大きな機会は「社内勉強会」であり、週一度程度、夕方から 夜にかけて開催されている • 勉強会は誰でも好きな時に好きなテーマで開催できる • 開催したいテーマを持つ場合には、グループウェア上で開催を告知し、一定 の人数が集まれば、日時を調整の上、正式に開催する • 正式な勉強会であれば、必要なテキストなどは全て会社が補助する  勉強会のテーマとしては以下のようなものがある ①統計検定一級・二級取得のための勉強会 ②Python(Scikit-Learn) の勉強会 ③因果推論(Causal Inference)勉強会 ④Deep Learning 勉強会 32
  • 33. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-2 育成のためのトレーニンング(1)  分析者としてのスキルをアップするためには、「実際の問題」に取り組 むことがベストである  玩具の問題(Toy Problem)をいくら扱ってみても、現実の問題に対応できる ようなスキルは中々身につかない • 玩具の問題に利用されるデータは、多くの場合、小規模であったり、ノイズ を含まなかったりして、新しいアルゴリズムの検証などには妥当であろうが スキルを高めるのに最も必要な部分のトレーニングができない • 実問題を解くうえで、下記のようなデータを吟味し、加工し、選択するプロ セスが、分析時間の70~80%を占めている • この部分を現実的なデータを扱うことで身に付けていくことがトレーニング の非常に重要な部分となる 33 Feature Engineering Data Cleaning Data Profiling Data Shaping Feature Generation
  • 34. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-2 育成のためのトレーニンング(2)  実データの分析と言っても、社内で簡単に適切な問題が入手できるとは 限らない  FEGでトレーニングのために重要視しているのか、ネット上で開催されてい る「分析コンペティション」への参加である • 様々なコンペの概要や功罪に関しては以下の論文を参照して頂きたい http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf • FEGで推奨しているのは「分析技術に特化した」コンペであり、「こんな データがあるので、それを活用するアイデアを提出してほしい」というスタ イルのコンペは推奨していない • 新人研修の中での「コンペへの参加」というのは、毎年開催される KDD Conference と同時に行われる KDD CUP への参加である • KDD Conference はデータマイニングの分野では最大・最古の学会であり、 KDD CUP にはかなり手強い問題が出題される • 新人には荷が重いが、このコンペには全社で(時間の取れる人が)参加して おり、慣れた人たちのスキルを実際に見る良いチャンスとなっている • FEGにとっても、ここでチャンピオンになるのが目標である(2009 年と 2015年に2位となっている) 34
  • 35. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-3 KDD CUP 2016 @Sydney  2位でも嬉しいものです 35
  • 36. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-4 Kaggle について(1)  参加者が多いのは kaggle (https://www.kaggle.com/competitions) であり、ここで出題される問題はスポンサーから提出された課題であり、 実データの分析が対象となっている  このサイトでは、常に数問の課題(チュートリアルなどを除く、コン ペ問題)が出されている(例えば、下の問題) 36
  • 37. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-4 Kaggle について(2)  前ページの問題は、「パンの需要予測と収益最大化」が課題である  現時点で、約2ヶ月の継続期間が残っており、取り組んでみるには適切な課題 であろう  コンペの問題なので、賞金がかかっており、総額2万5千ドルである  データは非常に汚く、例えば顧客IDが重複している場合などもがある • 例えば、上記の重複IDなどをどのようにクリーニングするかは、分析者の スキルに任されている • 学習用のデータ中に存在しない製品が、予測用のデータ中に存在したりする (新製品が出た場合など) • スポンサー( “Grupo BIMBO” )がメキシコの会社であることもデータが 整っていない原因の一つであるが、日本のデータであっても「欠損値」や 「異常値」が発見されることは良くある  予測対象が「パン」であることによる特殊要因が関わってくるが(在庫可能期 間など)、実際のビジネスでも頻繁に発生する問題である • 数量を予測するタイプの問題は、通常データ量が少なく、このコンペのデー タもアーカイブされた状態で400MB程度である 37
  • 38. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-5 コンペ参加の面白さ(1) 「日経BigData」の記事を下に示す  コンペの最優秀モデルが、これまでの「プロ」の予測より15%精度を向上さ せたというもので、現場に採用された事例である 38
  • 39. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. Ⅲ-5 コンペ参加の面白さ(2) Kaggle にしろ、前出の豆腐の需要予測を行ったオプト社のサイト “DeepAnalytics” (https://deepanalytics.jp/compelist) にしろ、参加 者には成績に応じてポイントが与えられる  Kaggle には現在世界中から57万人が登録しており、自分がその中で何番目程 度かを知ることができる(ちなみに私は1700番目程度であり、全く大した ことない順位である) • Kaggle の場合には、一定の条件(コンペの上位10人に入るなど)を達成す ると Kaggle Master の称号を得る  Kaggle の最大のメリットは、各コンペごとに “Forum” が開かれており、そこ で参加者が自由に討議できることである • 「これは何も分かってないな」から「ふーん、なるほど」や「おー、これは すごい」に至る様々なコメントが記載されており、本当に勉強になる と言ったところで、コンペに参加してみたらいかがですか 39