SlideShare a Scribd company logo
1 of 37
Download to read offline
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1
データサイエンスの全体像と
データサイエンティスト
2017年5月29日
株式会社 金融エンジニアリング・グループ
創業者 チーフデータサイエンティスト
電気通信大学 産学官連携センター 客員教授
データサイエンティスト協会 理事
中林三平
データサイエンティスト協会 2017年第一回勉強会資料
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
1. データサイエンスという表現(1)
1960年代に「データサイエンス」という言葉の使用が開始された
 「コンピュータサイエンス」という言葉が、どちらかと言えば、H/Wに関す
る研究を指していたのに対して、コンピュータが扱う情報の分析に関わる研究
分野を総称する言葉として使われていた
2
Computer Science Data Science
高速化
大容量化
分散化
エコシステム拡大
:
相関・因果の分析
複雑・非線形の関係
場面の認識・理解
非構造化データ
:
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
1. データサイエンスという表現(2)
 データサイエンスとは、データの形式的なハンドリングではなく、デー
タが表現している事柄の意味を理解し、そこに含まれている情報を解き
放つことを目的としている
 多くの場合、データは「一目瞭然」な結果を表していることは少なく
慎重な分析を行うことにより、隠れていた構造が見えてくる
 データサイエンスを構成する要素は様々であるが、その中でも「分
析」が非常に重要なものである
3
Data A
Data B
Data C
Data Analytics
(Data Science)
データが
本来持って
いる情報
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
2.似た概念の整理
 大規模データが整理・蓄積されるにつれ、データサイエンスと関連の深
い言葉が気軽に使われるようになってきた
 その中で「AI」「機械学習」「データサイエンス」について概念的
に整理してみよう
4
Machine Learning
Data Science
AI
非常に広い概念であり
目標ではあるが、純粋な
技術を表現するものではない
(大規模な)データを活用する
ことを目標とした活動全般を
示し、個別技術の表現ではない
現在、利活用されているデータ
分析技術の基盤を構築している
技術群
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
3.AI(Artificial Intelligence)について(1)
 AIの開発目標が昔と変わっていないなら、人間と区別が付かないよう
な知的作業を行うシステムを開発することである
 この目標が達成できたかどうかを判定するために、”Turing Test” が
提案されている
• 人間の試験官が、お互いに隔離された人間の回答者とAIに対して
質問を行い、どちらがAIかが判定できなければテストに合格する
5
試験官
人間
AI
Q
Q
A
A
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
3.AI(Artificial Intelligence)について(2)
 1950年の技術水準をベースとして考えられた Turing Test は、現時
点ではナイーブすぎるとの指摘がある
インタフェイスは、音声・画像でなければならない
質問も狭い領域の知識で答えられるものではいけない
Robotic を含めて、動作についてもテストする必要がある
 ハードルは高くなるばかりであるが、上記の指摘に応える事例もある
IBM社の Watson は 2011年に、クイズ番組 “Jeopardy!” で優勝し
たが、この時のインタフェイスは自然言語であった
 また、回答には雑学的な広範な知識を要求されるものであった
 では、AIの完成は間近である、とか、最近のメディアに頻繁に表現さ
れているように、AI(人工知能)を利用してxxが可能になった、と
か言えるのだろうか
 次に述べる「弱いAI」の範囲では、ある程度のことができるように
なってきているが、人工知能が完成しつつあるとは思えない
6
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
3.AI(Artificial Intelligence)について(3)
 「強いAIと弱いAI」という概念は、John Searle (哲学者)が19
80年に提唱したものである
 「強いAI」とは、人間の知的活動と同等(もしくはそれ以上)の機能
を示すことができるAIである
 例えば、ビジネス上の課題を発見する能力
 ビジネスの中で課題を解決するための方策を探索する能力
 解決策を見出すのに、様々なコンフリクトの中で満足化を行う能力
 困難な解決への道をたどることを他者に納得させる能力 など
 「弱いAI」とは、問題が定式化され、考慮すべき範囲が限定された後
に、定義された規準から見てのより良い解決方法を探す能力などである
 「家計簿ソフト」などの「自動仕分け機能」は、果たしてAIなのか
 ネット通販で商品画像を送信すると、それにマッチする商品を探索し
てくれるサービスは、果たしてAIなのか
 「deep blue がチェスで思考していないというのは、飛行機は羽ばたい
ていないので飛んでいるとは言えない、というようなものだ」
Drew McDermott(1997)
7
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
4.機械学習について(1)
 機械学習(Machine Learning)は、技術群を指す言葉と考えて良い
 1980年代の「第2次AIブーム」の時には、AIを構成する技術の一
部として機械学習が位置付けられていたが、現在は広い範囲のデータ
分析技術が機械学習のカテゴリとして考えられている
 機械学習の基本としては、データが与えられたときに、目的に沿って
「分析」を行い、目的に叶うパターンを抽出し、それを実際の行動
ルールに変換するというステップがある
 データが更新されたら、自動的に行動ルールも更新されるというのが
論理的には正当であるが、実際には様々な制約があり、自動更新が行
われない場合も多い
8
データ
データを分析してパターンを抽出 パターンを行動ルールに翻訳
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
4.機械学習について(2)
 機械学習で用いられるアルゴリズムは極めて広範囲なものになってきた
例えば、以下のような手法が機械学習に含まれるとされている
• Decision tree learning(決定木)
• Association rule(アソシエーション)
• Neural networks(ニューラルネット)
• Deep learning(深層学習)
• Support vector machines(SVM)
• Clustering(クラスタリング)
• Bayesian networks(ベイジアンネット)
• Reinforcement learning(強化学習)
• Similarity and metric learning(類似度分析)
• Genetic algorithms(遺伝的アルゴリズム)
(WIKI:”Machine Learning“ より編集)
 「AI」関連で注目を浴びている深層学習や強化学習も技術要素とし
ては機械学習に含まれるとしている
9
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
4.機械学習について(3)
 機械学習の領域では、「学習のスタイル」により技術を分類することが
多い
「教師あり学習」は分析対象データの中に「正解/不正解」が含まれ
ており、それを精度高く、安定的に推定するモデル構築手法である
• 最近注目されている画像認識、強化学習もこの範疇に入る
 「教師なし学習」は、類似性をコアとして分析するモデルを構築する
 「半教師あり学習」は「教師あり」に近いが正解ラベルが存在しない
データも分析対象に取り込む
10
機械学習
教師あり学習 教師なし学習半教師あり学習
・Decision tree
・SVM
・Recommender
・線形判別モデル
・階層的クラスタリング
・非階層的クラスタリング
・アウトライヤー分析
・アソシエーション
・ベイジアン推定
・TSVM(特殊型)
・レアイベント分析
・Causal Inference
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
4.機械学習について(4)
 機械学習に固有の問題について、「決定木」を対象に考えてみる
 最も標準的なのは ”CART” (Classification and Regression Tree、
Breiman et.al., 1984)である
• 教師フラグをより効果的に判別できる項目を基準として、データの
分割を繰り返す、貪欲な手法(Greedy Method)
• 生成されるツリーは1本
• これに、“Bagging” や ”Boosting” の手法を取り入れることにより、
構築されるモデルの精度・安定性は大幅に向上した
 “Bagging” は ”Random Forest”、”Boosting” は “xgboost” など
• 共に、数千本のツリーを生成することが多い
 1本のツリーであれば「何故この結果がでたのか」は簡単に解釈可能
• 数千本であれば、人間には解釈不可能
 “Deep Learning” 系の技術を含めて、「何故その結果が出たのか」を
如何に説明するかが大きな課題となっている
• Black Box のホワイト化と呼ばれている
11
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
5.Deep Learning について(1)
 近年の「AIブーム」を先導しているのは “Deep Learning” 技術である
 極めて急速に発展してる分野であり、目を離すことができない
• どのような手法が生まれてきているかが把握できないほど
 基本的には、入力レイヤから中間層(隠れレイヤ)を経て、出力レイ
ヤに至るネットワークから構成される
 出力レイヤから「正解/不正解」の情報を受け取り、Back
Propagation などのロジックによりネットワークの結合状況を更新す
るというのは、この分野の様々な手法に共通している
 とはいえ、提唱されている手法はかなり異なった特徴を持っており、
次のようなものが代表的なものである
• DNN:Deep Neural Net (従来のものの多層化)
• CNN:Convolutional Neural Net(画像認識関連で大きな成果)
• RNN:Recursive Neural Net(文書理解関連で大きな成果)
 もう少しレビューしてみよう
12
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
5.Deep Learning について(2)
 私見だが、従来のニューラルネットに対して、近年の Deep Learning が
大きな成果を出しているのには、それなりの理由があると思う
 CNN による画像認識へのインパクトは、従来の「入力」が無次元で
あったのに対して、「位置」が定義され、batch を設定することによ
り、ノイズのカット、類似性の測定などが円滑に行うことができるよ
うになったことが大きな影響を与えているのではないだろうか
 また、文章理解に関しても、RNN の導入は単なる “Bag of Words” と
してとらえられていたものに、CBOW(Continuous Bag of Words)
として、言葉の出現順序も分析の対象として含めることができるよう
になった
• 多分、順序だけではなく、「分散表現」と呼ばれる言葉のシークエ
ンスが意味しているものを表現する仕組みが効果的であったのであ
ろう(Embedded Vector)
• この「順序」を表現することが可能になったことの影響は大きく、
Recommender では「誰が、何を買ったか」が前提となっていたも
のが「誰が、どういう順序で、何を買ったか」という分析が可能と
なった
13
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
5.Deep Learning について(3)
 Deep Learning が期待されている分野の一つに「特徴量」(Feature)
の自動抽出がある
 データ分析の世界では、入手できたデータをそのまま利用するだけで
満足できる結果を得ることはほとんどできない
• データを組み合わせたり、項目間の演算を行ったりすることによる新
しい変数を生成することが、「職人芸」として分析の精度を決定する
ものと認められてきた(Feature Engineering)
• しかし、ここに全く別の視点からの特徴量の生成の可能性が出てきた
• 例えば、先に述べた文章(単語)の分散表現では、数万のボキャブラ
リーを、出現順序をベースに数百程度の “Embedded Vector” で表
現する
• これは人間には理解不能なものであるが、最終レイヤを説明変数とし
てモデルに導入すると精度は明らかに向上する
• 人間に理解できるロジックとは全く別の世界で、システムが新しい
「理解」を生成している可能性は高い
14
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
6.データサイエンスについて(1)
データサイエンスの守備範囲を理解するには、データサイエンティストが
どのようなスキルを要求されているのかを理解することが役に立つ
データサイエンティストの役割は、世の中に溢れるデータから、ビジネ
スなどに役にたつ情報を引き出すことである
• Wikiの英文記事を取りまとめて図示すると以下のような3つのエ
リアにまたがるスキルが求められるとしている
• これとほぼ同じ図が「データマイニング」にも提案されたことがある
15
Hacking Skill Math/Stat
Substantive
Expertise
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
6.データサイエンスについて(2)
データサイエンティスト協会においても、以下のように必要なスキルセッ
トを定義している
 この3つの力は、どのような局面で必要とされるのだろうか
• 基本的には、ビジネスの現場で、情報を活用することにより、課題を
解決することを想定している
16
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
6.データサイエンスについて(3)
 データサイエンス活用の大きな流れは以下のように表現できる
 あくまでも概念図であり、簡単に切り分けはできないが
 実際の課題では、問題を発見し、データを用いて課題を解決/改善で
きるかどうかの見極めが、最初のステップである
 採用可能な対応策を考え、具体的に課題を解決するための、数理的な
分析の方向を確定するのが第二のステップである
 第三ステップは、実際のデータを分析し、モデルなどを構築すること
により、解決方法を探索する
 最終段階は、発見された解決策をビジネスプロセスに導入する
17
ビジネス力
エンジニア力
サイエンス力
問題の発見 問題の定式化 解決方法探索 ビジネス適用
◎
○◎
◎
○
◎
◎
△
△
△
△
△
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
6.データサイエンスについて(4)
 「ビジネス力」というスキルは、「機械学習」や「AI」では強調され
ないスキルである
 しかし、データを用いて課題を解決仕様とする場合には重要となる
• 多くの場合「課題」は現場で発生し、それを解決するための優先度、
データを用いることの効果、解決のための対応策の範囲 などを判
断することが必要である
• これらの判断を行うためのスキルには必ずしも高度な「データエン
ジニアリング力」や「データサイエンス力」は必要とされない
• ただし、双方のスキルを理解していれば、その後のステップを加速
するのに大きな効果がある
18
現場のニー
ズ聴取
データ活用
可能性評価
優先度、対
応戦略判断
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
6.データサイエンスについて(5)
 「データエンジニアリング力」については、「機械学習」でも「AI」
でも必要とされるスキルである
 データサイエンスの領域内では、扱うデータが大規模であることから
データのハンドリング環境を整えるために基本的なスキルである
 ただし、社内システムを構築してきた「SE」が、「データエンジニ
アリング力」を備えているかというとそうではない場合が多い
 現在、データの分析環境がクラウド上に移行しつつあり、データの保
有・検索・更新などにも新しいスキルが要請されつつある
 また、分析環境自体も頻繁に発生するバージョンアップへの対応、癖
のあるパッケージへの対応、分析者間のコミュニケーションのサポー
トなど、定例業務を基準としたインフラ整備とは異なる要求を持つ
19
大規模デー
タへの対応
分析環境の
整備
解決策の実
装
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
6.データサイエンスについて(6)
 「データサイエンス力」については、「機械学習」の技術群を使いこな
すスキルが基本的に要求される
 「分析」を行うのが主な分野である
• 「分析」といっても、いくつかのレベルが存在する
• Descriptive Analytics:過去のデータをもとに現状を記述する
BIツールなどで対応可能
• Predictive Analytics:将来または状況変化を予測する
機械学習などに基づくモデリングのスキルが必要
• Prescriptive Analytics:上記の予測などをもとに処方箋を作成する
モデルに対する理解力とビジネス力が要求される
20
Descriptive
Analytics
Predictive
Analytics
Prescriptive
Analytics
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(1)
Decision Tree は典型的な教師あり学習のアルゴリズムである
 原型は CART(1984, Breiman et.al) や ID3(1986, Quinlan) が開発
したものであり、下図のようなツリーを生成する
 このアルゴリズムが発展していく過程を振り返り、データサイエンス
で用いられる技術の事例を見てみる
21
母集団(P=0.1)
NODE1
(P=0.05)
V4>XX?
NODE2
(P=0.20)
V3>YY? V8>ZZ?
NODE3
(P=0.02)
NODE4
(P=0.08)
NODE5
(P=0.12)
NODE6
(P=0.28)
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(2)
Decision Tree の手法は、枝分かれを追加することにより対象データの分
析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)
 その結果として、分析対象データ(Training Set)での精度は高いが
検証用データ(Validation Set)での精度は低いという現象(Over
Fitting)が発生しやすく、これを避けるために以下のような工夫が行
われている
22
Original
Data
Training
Set
Validation
Set
Model
Error
# of Partition
Validation
Training
Optimal
70%
30%
Random
Sampling
Build
Valid
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(3)
 モデルの安定性を高めるために、Cross Validation という方法が一般に
使われている
 Cross Validation の機能を埋め込んであるパッケージも多い
23
Original
Data
ランダムにN分割
Training Set
Validation
Set
Model
#1
Model
#2
Model
#3
Model
#N
アンサンブル モデル
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(4)
 Cross Validation を導入することにより、明らかにモデルの安定性は向
上する
 これを更に拡大したのが Random Forest(2001, L.Breiman)である
24
Column
Sampling
Row
Sampling
Training
Set
大量の繰り返し(数千回)
Model アンサンブル
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(5)
Random Forest は、ツリーを並列に生やしたものと言える
 これに対して、ツリーを直列に生やしたものもあり、Gradient
Boosting Machine(2001, J.Friedman)などと呼ばれている
 Boosting は、ツリーなどの精度を上げていくために開発された手法
であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー
で説明するという考え方に基づき、極めて多数のツリー(数千本)を
生成していく
 これに改良を加えたものが Xgboost(eXtreme Gradient
Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の
手法である
25
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(6)
 Xgboost により、高速・高精度・高安定性という条件をかなり満足させ
るモデルの構築が可能となっている
 その裏で犠牲になったもののある
• CART の時代には、生成されたツリーを見れば、特定のサンプルが
「なぜ」このような評価を受けたのかが完全に理解できた
• しかし、Random Forest にしろ、GBM や Xgboost にしろ、数千本
のツリーを生成する場合があり、個々のサンプルが「なぜ」そう評
価されたのかを説明することは実質的にできない
• ビジネスでモデルを利用する場合には、Accountability を求められ
ることが多くあり、手法を選択する場合には考慮すべき大きなファ
クターとなる
26
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
7.Predictive Analytics の事例(7)
 Xgboost のような手法を使い、同一のデータからモデルを構築したとし
ても、同一の精度・安定性が得られるわけではない
 オリジナルのデータセットに含まれる変数群をそのまま使ってモデル
を構築したとしたら、「分析コンペ」では下位に停滞したままになる
であろう
 変数を加工したり、組み合わせたりして適切な「特徴量」を生成する
作業を“ Feature Engineering” と呼ぶ
 この作業には決まった手順や定石があるわけではなく、データサイエ
ンティストの感性・創造力が問われる部分である
• Data Scientist は Artist でもある
27
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(1)
 データサイエンティストは完全に不足している
データ分析の技術をある程度身に着けた新卒(修士程度)を育成する
プログラムが、現在の大学のカリキュラムの中で体系立って整えられて
いるケースは少ない
• 滋賀大学・横浜市立大学が「データサイエンス学部」を本年より新設
した
• 筑波大学では経営システム科学専攻の中に育成プログラムを持つ
• 電気通信大学では、データアントレプレナー育成講座を単位認定
 以上のように動きは出ているが、経験を積んだデータサイエンティス
トは当分の間不足状況が続くであろう
 それでは、企業内などでどのように人材を育成すればよいのだろうか
Q.一人で3つのスキル分野を持つ人材を育成するのか
A.少し大きな問題であれば、チームで対処するのが普通。したがっ
てチーム内で3つのスキルが確保できれば良い。ただし、1つだけ
のスキルを育成するのは問題であり、少なくとも2つのスキルを持
つことができるように育成方針を立てる必要がある
28
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(2)
 データサイエンティストのバックグラウンドについて
 経験的には「理系」でも「文系」でも、優秀なデータサイエンティス
トになれる
 修士と学卒の間にも、実質的な差異はない
• ただし、修士の方が課題に対して、全体像を掴み、一つの結果を取り
まとめるという経験を持っており、即戦力に育ちやすい
• また、修士の方が学問としての体系(各種の理論間の関係)をある程
度までは学んでいるため、全体像を把握する訓練は受けている
• 関連課程を修了した博士の場合にはかなり差がある
 当社では、入社時に持っている知識のレベルは問わない
• 余程のデータ分析経験者でない限り、新しくトレーニングを受ける人
たちと大差はない
 性差については全くないと言ってよい
• あえて言えば、女性の方が分析に向いている可能性があるが、性差よ
りも個人差の方が大きいであろう
29
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(3)
FEGでの新卒データサイエンティストの教育は以下のようなものである
①ビジネス常識(特別なことは何もなし)
②言語教育(WPS[SAS系]、R、Python など)
③金融業界常識教育(特に銀行業務、関連金融業界業務)
④過去の実施プロジェクトの内容教育
⑤プレゼン・レポーティング
⑥企画書作成トレーニング
⑦データ分析コンペへの参加(時期的にKDD_CUPの場合が多い)
上記を概ね4月~6月の間に終了し、その後のスキルアップは基本的に各
自に任せている
 ただし、「コーチ」が最低一年は付くため、プロジェクト上の疑問へ
の解決法やスキルアップのための指導などはコーチが面倒を見る
 7月以降は、プロジェクトに参加し、常用する分析手法や、最も大事
な「汚いデータへの対応」、「業務に対応した Feature
Engineering」などはOJTで勉強していくことになる
30
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(4)
データサイエンスの分野は、技術の進歩が極めて早いため、勉強を続けて
いない限りはあっという間に「時代遅れ」になってしまう
 実プロジェクトで利用する分析手法は、ある程度有効性が確認された
ものを顧客が望むため、あまり冒険的なものは利用できない
 これを補うための大きな機会は「社内勉強会」であり、週一度程度、
夕方から夜にかけて開催されている
• 勉強会は誰でも好きな時に好きなテーマで開催できる
• 開催したいテーマを持つ場合には、グループウェア上で開催を告知
し、一定の人数が集まれば、日時を調整の上、正式に開催する
• 正式な勉強会であれば、必要なテキストなどは全て会社が補助する
 勉強会のテーマとしては以下のようなものがある
①統計検定一級・二級取得のための勉強会(新卒向け)
②KDDCUP2017
③AtCoder 勉強会
④Tensorflow + Keras 勉強会(予定)
31
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(5)
 分析者としてのスキルをアップするためには、「実際の問題」に取り組
むことがベストである
 玩具の問題(Toy Problem)をいくら扱ってみても、現実の問題に対
応できるようなスキルは中々身につかない
• 玩具の問題に利用されるデータは、多くの場合、小規模であったり、
ノイズを含まなかったりして、新しいアルゴリズムの検証などには妥
当であろうがスキルを高めるのに最も必要な部分のトレーニングがで
きない
• 実問題を解くうえで、下記のようなデータを吟味し、加工し、選択す
るプロセスが、分析時間の70~80%を占めている
• この部分を現実的なデータを扱うことで身に付けていくことがトレー
ニングの非常に重要な部分となる
32
Feature Engineering
Data Cleaning
Data Profiling
Data Shaping
Feature Generation
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(6)
実データの分析と言っても、社内で簡単に適切な問題が入手できるとは限
らない
 FEGでトレーニングのために重要視しているのか、ネット上で開催されてい
る「分析コンペティション」への参加である
• 様々なコンペの概要や功罪に関しては以下の論文を参照されたい
http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf
• FEGで推奨しているのは「分析技術に特化した」コンペであり、
「こんなデータがあるので、それを活用するアイデアを提出してほ
しい」というスタイルのコンペは推奨していない
 新人研修の中での「コンペへの参加」というのは、毎年開催される
KDD Conference と同時に行われる KDD CUP への参加である
• KDD Conference はデータマイニングの分野では最大・最古の学会
であり、KDD CUP にはかなり手強い問題が出題される
• 新人には荷が重いが、このコンペには全社から有志が参加しており、
慣れた人たちのスキルを実際に見る良いチャンスとなっている
• FEGにとっては、ここでチャンピオンになるのが目標である
(2009 年と2015年に2位となっている)
33
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(7)
 2位でも嬉しいものです
34
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(8)
参加者が多いのは kaggle (https://www.kaggle.com/competitions)
であり、ここで出題される問題はスポンサーから提出された課題であり、
実データの分析が対象となっている
 このサイトでは、常に数問の課題(チュートリアルなどを除く、コン
ペ問題)が出されている(例えば、下の問題)
35
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(9)
 前ページの問題は、食料品のネット通販での「リコメンデーション」が
課題である
 現時点で、約2.5ヶ月の継続期間が残っており、取り組んでみるに
は適切な課題であろう
 顧客の購買履歴が与えられており、「次に買いそうなもの」を推定す
る問題形式である
• 一世代前のリコメンダーのように、「ユーザーxアイテム」で疎行列
を作るというアプローチでは、おそらく上位には行けないだろう
• 購買のタイムスタンプとバスケットIDが完備しているので、「購買
順序」や「並買行動」を重視できる手法の選択が必要である
• 個人的には RNN を利用してみたいと考えている
• データ量はそれほど大きくなく、手元のPCで十分に処理できる(解
凍後の生データで700MB程度である)
36
Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved.
8.データサイエンティストの育成(10)
 Kaggle では、参加者には成績に応じてポイントが与えられる
 Kaggle には現在世界中から5.7万人が登録しており、自分がその中
で何番目程度かを知ることができる
• 一定の条件(コンペの上位10人に入るなど)を達成すると Kaggle
Master の称号を得る(これはかなり尊敬される称号である)
• Kaggleに参加するの最大のメリットは、各コンペごとに “Forum” が
開かれており、そこで参加者が自由に討議できることである
と言ったところで、コンペに参加してみたらいかがですか
37

More Related Content

What's hot

「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探るTakashi J OZAKI
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Shohei Hido
 
データサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテストデータサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテストKen'ichi Matsui
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)Kentaro Minami
 
デジタルトランスフォーメーション再考~一周回って見えてきたDX推進のポイント~
デジタルトランスフォーメーション再考~一周回って見えてきたDX推進のポイント~デジタルトランスフォーメーション再考~一周回って見えてきたDX推進のポイント~
デジタルトランスフォーメーション再考~一周回って見えてきたDX推進のポイント~IT VALUE EXPERTS Inc.
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理Masatoshi Yoshida
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」西岡 賢一郎
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalizationDeep Learning JP
 
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」Takashi J OZAKI
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...NTT DATA Technology & Innovation
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Kazuyuki Miyazawa
 
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないPyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないToshihiro Kamishima
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214Kosuke Nakago
 

What's hot (20)

HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 
データサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテストデータサイエンティストの仕事とデータ分析コンテスト
データサイエンティストの仕事とデータ分析コンテスト
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)差分プライバシーとは何か? (定義 & 解釈編)
差分プライバシーとは何か? (定義 & 解釈編)
 
デジタルトランスフォーメーション再考~一周回って見えてきたDX推進のポイント~
デジタルトランスフォーメーション再考~一周回って見えてきたDX推進のポイント~デジタルトランスフォーメーション再考~一周回って見えてきたDX推進のポイント~
デジタルトランスフォーメーション再考~一周回って見えてきたDX推進のポイント~
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization
 
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
 
DeepLearningTutorial
DeepLearningTutorialDeepLearningTutorial
DeepLearningTutorial
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないPyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214
 

Viewers also liked

コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーThe Japan DataScientist Society
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティングThe Japan DataScientist Society
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~The Japan DataScientist Society
 
Impact of big data on analytics
Impact of big data on analyticsImpact of big data on analytics
Impact of big data on analyticsCapgemini
 
分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋The Japan DataScientist Society
 
Big Data and the Art of Data Science
Big Data and the Art of Data ScienceBig Data and the Art of Data Science
Big Data and the Art of Data ScienceAndrew Gardner
 
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Data Science London
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 

Viewers also liked (9)

コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
 
Impact of big data on analytics
Impact of big data on analyticsImpact of big data on analytics
Impact of big data on analytics
 
分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋
 
Big Data and the Art of Data Science
Big Data and the Art of Data ScienceBig Data and the Art of Data Science
Big Data and the Art of Data Science
 
データサイエンスの全体像
データサイエンスの全体像データサイエンスの全体像
データサイエンスの全体像
 
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?Big Data [sorry] & Data Science: What Does a Data Scientist Do?
Big Data [sorry] & Data Science: What Does a Data Scientist Do?
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 

Similar to データサイエンスの全体像とデータサイエンティスト

畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Plot Hong
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題kurikiyo
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
ディープラーニングが活かすIoT
ディープラーニングが活かすIoTディープラーニングが活かすIoT
ディープラーニングが活かすIoTPreferred Networks
 
基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹Preferred Networks
 
IPDPS & HPDC 報告
IPDPS & HPDC 報告IPDPS & HPDC 報告
IPDPS & HPDC 報告Junya Arai
 
スタートアップが始める機械学習はじめの一歩
スタートアップが始める機械学習はじめの一歩スタートアップが始める機械学習はじめの一歩
スタートアップが始める機械学習はじめの一歩Kimitaka Nakazawa
 
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットと SNS上での構築とその課題
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットとSNS上での構築とその課題2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットとSNS上での構築とその課題
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットと SNS上での構築とその課題Ruo Ando
 
Cytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureCytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureKeiichiro Ono
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
画像認識 6.3-6.6 畳込みニューラル ネットワーク
画像認識 6.3-6.6 畳込みニューラルネットワーク画像認識 6.3-6.6 畳込みニューラルネットワーク
画像認識 6.3-6.6 畳込みニューラル ネットワークShion Honda
 

Similar to データサイエンスの全体像とデータサイエンティスト (20)

20150930
2015093020150930
20150930
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
Newsletter20110102
Newsletter20110102Newsletter20110102
Newsletter20110102
 
ディープラーニングが活かすIoT
ディープラーニングが活かすIoTディープラーニングが活かすIoT
ディープラーニングが活かすIoT
 
20151028koyama
20151028koyama20151028koyama
20151028koyama
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹基調講演:「多様化する情報を支える技術」/西川徹
基調講演:「多様化する情報を支える技術」/西川徹
 
IPDPS & HPDC 報告
IPDPS & HPDC 報告IPDPS & HPDC 報告
IPDPS & HPDC 報告
 
スタートアップが始める機械学習はじめの一歩
スタートアップが始める機械学習はじめの一歩スタートアップが始める機械学習はじめの一歩
スタートアップが始める機械学習はじめの一歩
 
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットと SNS上での構築とその課題
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットとSNS上での構築とその課題2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットとSNS上での構築とその課題
2013年度enPiT特設講義-iisec-2013-11-09-セキュアシステムのインターネットと SNS上での構築とその課題
 
Cytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructureCytoscapeの現状とCyberinfrastructure
Cytoscapeの現状とCyberinfrastructure
 
CCGrid2012 参加報告
CCGrid2012 参加報告CCGrid2012 参加報告
CCGrid2012 参加報告
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
画像認識 6.3-6.6 畳込みニューラル ネットワーク
画像認識 6.3-6.6 畳込みニューラルネットワーク画像認識 6.3-6.6 畳込みニューラルネットワーク
画像認識 6.3-6.6 畳込みニューラル ネットワーク
 

More from The Japan DataScientist Society

AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルThe Japan DataScientist Society
 
コニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みコニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みThe Japan DataScientist Society
 
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)よりThe Japan DataScientist Society
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりThe Japan DataScientist Society
 
エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』The Japan DataScientist Society
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向The Japan DataScientist Society
 
機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望The Japan DataScientist Society
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』The Japan DataScientist Society
 
データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料The Japan DataScientist Society
 
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料The Japan DataScientist Society
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~The Japan DataScientist Society
 
データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)The Japan DataScientist Society
 
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストThe Japan DataScientist Society
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料The Japan DataScientist Society
 
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』The Japan DataScientist Society
 
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』The Japan DataScientist Society
 

More from The Japan DataScientist Society (20)

学生から見たデータサイエンティスト
学生から見たデータサイエンティスト学生から見たデータサイエンティスト
学生から見たデータサイエンティスト
 
データサイエンティストの就労意識
データサイエンティストの就労意識データサイエンティストの就労意識
データサイエンティストの就労意識
 
AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキル
 
コニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みコニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組み
 
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
 
エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
 
機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
 
データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料
 
スキルチェックリスト 2017年版
スキルチェックリスト 2017年版スキルチェックリスト 2017年版
スキルチェックリスト 2017年版
 
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
 
データサイエンス業務と「ツール」
データサイエンス業務と「ツール」データサイエンス業務と「ツール」
データサイエンス業務と「ツール」
 
データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)データサイエンティスト スキルチェックシート(抜粋版)
データサイエンティスト スキルチェックシート(抜粋版)
 
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリストデータサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリスト
 
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
データサイエンティスト協会スキル委員会2ndシンポジウム講演資料
 
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
 
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
データサイエンティスト協会 木曜勉強会#07『Ruby、R、HTML5を用いたデータ解析・データビジュアライゼーション』
 

データサイエンスの全体像とデータサイエンティスト

  • 1. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1 データサイエンスの全体像と データサイエンティスト 2017年5月29日 株式会社 金融エンジニアリング・グループ 創業者 チーフデータサイエンティスト 電気通信大学 産学官連携センター 客員教授 データサイエンティスト協会 理事 中林三平 データサイエンティスト協会 2017年第一回勉強会資料
  • 2. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1. データサイエンスという表現(1) 1960年代に「データサイエンス」という言葉の使用が開始された  「コンピュータサイエンス」という言葉が、どちらかと言えば、H/Wに関す る研究を指していたのに対して、コンピュータが扱う情報の分析に関わる研究 分野を総称する言葉として使われていた 2 Computer Science Data Science 高速化 大容量化 分散化 エコシステム拡大 : 相関・因果の分析 複雑・非線形の関係 場面の認識・理解 非構造化データ :
  • 3. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 1. データサイエンスという表現(2)  データサイエンスとは、データの形式的なハンドリングではなく、デー タが表現している事柄の意味を理解し、そこに含まれている情報を解き 放つことを目的としている  多くの場合、データは「一目瞭然」な結果を表していることは少なく 慎重な分析を行うことにより、隠れていた構造が見えてくる  データサイエンスを構成する要素は様々であるが、その中でも「分 析」が非常に重要なものである 3 Data A Data B Data C Data Analytics (Data Science) データが 本来持って いる情報
  • 4. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 2.似た概念の整理  大規模データが整理・蓄積されるにつれ、データサイエンスと関連の深 い言葉が気軽に使われるようになってきた  その中で「AI」「機械学習」「データサイエンス」について概念的 に整理してみよう 4 Machine Learning Data Science AI 非常に広い概念であり 目標ではあるが、純粋な 技術を表現するものではない (大規模な)データを活用する ことを目標とした活動全般を 示し、個別技術の表現ではない 現在、利活用されているデータ 分析技術の基盤を構築している 技術群
  • 5. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 3.AI(Artificial Intelligence)について(1)  AIの開発目標が昔と変わっていないなら、人間と区別が付かないよう な知的作業を行うシステムを開発することである  この目標が達成できたかどうかを判定するために、”Turing Test” が 提案されている • 人間の試験官が、お互いに隔離された人間の回答者とAIに対して 質問を行い、どちらがAIかが判定できなければテストに合格する 5 試験官 人間 AI Q Q A A
  • 6. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 3.AI(Artificial Intelligence)について(2)  1950年の技術水準をベースとして考えられた Turing Test は、現時 点ではナイーブすぎるとの指摘がある インタフェイスは、音声・画像でなければならない 質問も狭い領域の知識で答えられるものではいけない Robotic を含めて、動作についてもテストする必要がある  ハードルは高くなるばかりであるが、上記の指摘に応える事例もある IBM社の Watson は 2011年に、クイズ番組 “Jeopardy!” で優勝し たが、この時のインタフェイスは自然言語であった  また、回答には雑学的な広範な知識を要求されるものであった  では、AIの完成は間近である、とか、最近のメディアに頻繁に表現さ れているように、AI(人工知能)を利用してxxが可能になった、と か言えるのだろうか  次に述べる「弱いAI」の範囲では、ある程度のことができるように なってきているが、人工知能が完成しつつあるとは思えない 6
  • 7. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 3.AI(Artificial Intelligence)について(3)  「強いAIと弱いAI」という概念は、John Searle (哲学者)が19 80年に提唱したものである  「強いAI」とは、人間の知的活動と同等(もしくはそれ以上)の機能 を示すことができるAIである  例えば、ビジネス上の課題を発見する能力  ビジネスの中で課題を解決するための方策を探索する能力  解決策を見出すのに、様々なコンフリクトの中で満足化を行う能力  困難な解決への道をたどることを他者に納得させる能力 など  「弱いAI」とは、問題が定式化され、考慮すべき範囲が限定された後 に、定義された規準から見てのより良い解決方法を探す能力などである  「家計簿ソフト」などの「自動仕分け機能」は、果たしてAIなのか  ネット通販で商品画像を送信すると、それにマッチする商品を探索し てくれるサービスは、果たしてAIなのか  「deep blue がチェスで思考していないというのは、飛行機は羽ばたい ていないので飛んでいるとは言えない、というようなものだ」 Drew McDermott(1997) 7
  • 8. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 4.機械学習について(1)  機械学習(Machine Learning)は、技術群を指す言葉と考えて良い  1980年代の「第2次AIブーム」の時には、AIを構成する技術の一 部として機械学習が位置付けられていたが、現在は広い範囲のデータ 分析技術が機械学習のカテゴリとして考えられている  機械学習の基本としては、データが与えられたときに、目的に沿って 「分析」を行い、目的に叶うパターンを抽出し、それを実際の行動 ルールに変換するというステップがある  データが更新されたら、自動的に行動ルールも更新されるというのが 論理的には正当であるが、実際には様々な制約があり、自動更新が行 われない場合も多い 8 データ データを分析してパターンを抽出 パターンを行動ルールに翻訳
  • 9. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 4.機械学習について(2)  機械学習で用いられるアルゴリズムは極めて広範囲なものになってきた 例えば、以下のような手法が機械学習に含まれるとされている • Decision tree learning(決定木) • Association rule(アソシエーション) • Neural networks(ニューラルネット) • Deep learning(深層学習) • Support vector machines(SVM) • Clustering(クラスタリング) • Bayesian networks(ベイジアンネット) • Reinforcement learning(強化学習) • Similarity and metric learning(類似度分析) • Genetic algorithms(遺伝的アルゴリズム) (WIKI:”Machine Learning“ より編集)  「AI」関連で注目を浴びている深層学習や強化学習も技術要素とし ては機械学習に含まれるとしている 9
  • 10. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 4.機械学習について(3)  機械学習の領域では、「学習のスタイル」により技術を分類することが 多い 「教師あり学習」は分析対象データの中に「正解/不正解」が含まれ ており、それを精度高く、安定的に推定するモデル構築手法である • 最近注目されている画像認識、強化学習もこの範疇に入る  「教師なし学習」は、類似性をコアとして分析するモデルを構築する  「半教師あり学習」は「教師あり」に近いが正解ラベルが存在しない データも分析対象に取り込む 10 機械学習 教師あり学習 教師なし学習半教師あり学習 ・Decision tree ・SVM ・Recommender ・線形判別モデル ・階層的クラスタリング ・非階層的クラスタリング ・アウトライヤー分析 ・アソシエーション ・ベイジアン推定 ・TSVM(特殊型) ・レアイベント分析 ・Causal Inference
  • 11. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 4.機械学習について(4)  機械学習に固有の問題について、「決定木」を対象に考えてみる  最も標準的なのは ”CART” (Classification and Regression Tree、 Breiman et.al., 1984)である • 教師フラグをより効果的に判別できる項目を基準として、データの 分割を繰り返す、貪欲な手法(Greedy Method) • 生成されるツリーは1本 • これに、“Bagging” や ”Boosting” の手法を取り入れることにより、 構築されるモデルの精度・安定性は大幅に向上した  “Bagging” は ”Random Forest”、”Boosting” は “xgboost” など • 共に、数千本のツリーを生成することが多い  1本のツリーであれば「何故この結果がでたのか」は簡単に解釈可能 • 数千本であれば、人間には解釈不可能  “Deep Learning” 系の技術を含めて、「何故その結果が出たのか」を 如何に説明するかが大きな課題となっている • Black Box のホワイト化と呼ばれている 11
  • 12. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 5.Deep Learning について(1)  近年の「AIブーム」を先導しているのは “Deep Learning” 技術である  極めて急速に発展してる分野であり、目を離すことができない • どのような手法が生まれてきているかが把握できないほど  基本的には、入力レイヤから中間層(隠れレイヤ)を経て、出力レイ ヤに至るネットワークから構成される  出力レイヤから「正解/不正解」の情報を受け取り、Back Propagation などのロジックによりネットワークの結合状況を更新す るというのは、この分野の様々な手法に共通している  とはいえ、提唱されている手法はかなり異なった特徴を持っており、 次のようなものが代表的なものである • DNN:Deep Neural Net (従来のものの多層化) • CNN:Convolutional Neural Net(画像認識関連で大きな成果) • RNN:Recursive Neural Net(文書理解関連で大きな成果)  もう少しレビューしてみよう 12
  • 13. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 5.Deep Learning について(2)  私見だが、従来のニューラルネットに対して、近年の Deep Learning が 大きな成果を出しているのには、それなりの理由があると思う  CNN による画像認識へのインパクトは、従来の「入力」が無次元で あったのに対して、「位置」が定義され、batch を設定することによ り、ノイズのカット、類似性の測定などが円滑に行うことができるよ うになったことが大きな影響を与えているのではないだろうか  また、文章理解に関しても、RNN の導入は単なる “Bag of Words” と してとらえられていたものに、CBOW(Continuous Bag of Words) として、言葉の出現順序も分析の対象として含めることができるよう になった • 多分、順序だけではなく、「分散表現」と呼ばれる言葉のシークエ ンスが意味しているものを表現する仕組みが効果的であったのであ ろう(Embedded Vector) • この「順序」を表現することが可能になったことの影響は大きく、 Recommender では「誰が、何を買ったか」が前提となっていたも のが「誰が、どういう順序で、何を買ったか」という分析が可能と なった 13
  • 14. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 5.Deep Learning について(3)  Deep Learning が期待されている分野の一つに「特徴量」(Feature) の自動抽出がある  データ分析の世界では、入手できたデータをそのまま利用するだけで 満足できる結果を得ることはほとんどできない • データを組み合わせたり、項目間の演算を行ったりすることによる新 しい変数を生成することが、「職人芸」として分析の精度を決定する ものと認められてきた(Feature Engineering) • しかし、ここに全く別の視点からの特徴量の生成の可能性が出てきた • 例えば、先に述べた文章(単語)の分散表現では、数万のボキャブラ リーを、出現順序をベースに数百程度の “Embedded Vector” で表 現する • これは人間には理解不能なものであるが、最終レイヤを説明変数とし てモデルに導入すると精度は明らかに向上する • 人間に理解できるロジックとは全く別の世界で、システムが新しい 「理解」を生成している可能性は高い 14
  • 15. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(1) データサイエンスの守備範囲を理解するには、データサイエンティストが どのようなスキルを要求されているのかを理解することが役に立つ データサイエンティストの役割は、世の中に溢れるデータから、ビジネ スなどに役にたつ情報を引き出すことである • Wikiの英文記事を取りまとめて図示すると以下のような3つのエ リアにまたがるスキルが求められるとしている • これとほぼ同じ図が「データマイニング」にも提案されたことがある 15 Hacking Skill Math/Stat Substantive Expertise
  • 16. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(2) データサイエンティスト協会においても、以下のように必要なスキルセッ トを定義している  この3つの力は、どのような局面で必要とされるのだろうか • 基本的には、ビジネスの現場で、情報を活用することにより、課題を 解決することを想定している 16
  • 17. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(3)  データサイエンス活用の大きな流れは以下のように表現できる  あくまでも概念図であり、簡単に切り分けはできないが  実際の課題では、問題を発見し、データを用いて課題を解決/改善で きるかどうかの見極めが、最初のステップである  採用可能な対応策を考え、具体的に課題を解決するための、数理的な 分析の方向を確定するのが第二のステップである  第三ステップは、実際のデータを分析し、モデルなどを構築すること により、解決方法を探索する  最終段階は、発見された解決策をビジネスプロセスに導入する 17 ビジネス力 エンジニア力 サイエンス力 問題の発見 問題の定式化 解決方法探索 ビジネス適用 ◎ ○◎ ◎ ○ ◎ ◎ △ △ △ △ △
  • 18. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(4)  「ビジネス力」というスキルは、「機械学習」や「AI」では強調され ないスキルである  しかし、データを用いて課題を解決仕様とする場合には重要となる • 多くの場合「課題」は現場で発生し、それを解決するための優先度、 データを用いることの効果、解決のための対応策の範囲 などを判 断することが必要である • これらの判断を行うためのスキルには必ずしも高度な「データエン ジニアリング力」や「データサイエンス力」は必要とされない • ただし、双方のスキルを理解していれば、その後のステップを加速 するのに大きな効果がある 18 現場のニー ズ聴取 データ活用 可能性評価 優先度、対 応戦略判断
  • 19. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(5)  「データエンジニアリング力」については、「機械学習」でも「AI」 でも必要とされるスキルである  データサイエンスの領域内では、扱うデータが大規模であることから データのハンドリング環境を整えるために基本的なスキルである  ただし、社内システムを構築してきた「SE」が、「データエンジニ アリング力」を備えているかというとそうではない場合が多い  現在、データの分析環境がクラウド上に移行しつつあり、データの保 有・検索・更新などにも新しいスキルが要請されつつある  また、分析環境自体も頻繁に発生するバージョンアップへの対応、癖 のあるパッケージへの対応、分析者間のコミュニケーションのサポー トなど、定例業務を基準としたインフラ整備とは異なる要求を持つ 19 大規模デー タへの対応 分析環境の 整備 解決策の実 装
  • 20. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 6.データサイエンスについて(6)  「データサイエンス力」については、「機械学習」の技術群を使いこな すスキルが基本的に要求される  「分析」を行うのが主な分野である • 「分析」といっても、いくつかのレベルが存在する • Descriptive Analytics:過去のデータをもとに現状を記述する BIツールなどで対応可能 • Predictive Analytics:将来または状況変化を予測する 機械学習などに基づくモデリングのスキルが必要 • Prescriptive Analytics:上記の予測などをもとに処方箋を作成する モデルに対する理解力とビジネス力が要求される 20 Descriptive Analytics Predictive Analytics Prescriptive Analytics
  • 21. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(1) Decision Tree は典型的な教師あり学習のアルゴリズムである  原型は CART(1984, Breiman et.al) や ID3(1986, Quinlan) が開発 したものであり、下図のようなツリーを生成する  このアルゴリズムが発展していく過程を振り返り、データサイエンス で用いられる技術の事例を見てみる 21 母集団(P=0.1) NODE1 (P=0.05) V4>XX? NODE2 (P=0.20) V3>YY? V8>ZZ? NODE3 (P=0.02) NODE4 (P=0.08) NODE5 (P=0.12) NODE6 (P=0.28)
  • 22. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(2) Decision Tree の手法は、枝分かれを追加することにより対象データの分 析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method)  その結果として、分析対象データ(Training Set)での精度は高いが 検証用データ(Validation Set)での精度は低いという現象(Over Fitting)が発生しやすく、これを避けるために以下のような工夫が行 われている 22 Original Data Training Set Validation Set Model Error # of Partition Validation Training Optimal 70% 30% Random Sampling Build Valid
  • 23. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(3)  モデルの安定性を高めるために、Cross Validation という方法が一般に 使われている  Cross Validation の機能を埋め込んであるパッケージも多い 23 Original Data ランダムにN分割 Training Set Validation Set Model #1 Model #2 Model #3 Model #N アンサンブル モデル
  • 24. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(4)  Cross Validation を導入することにより、明らかにモデルの安定性は向 上する  これを更に拡大したのが Random Forest(2001, L.Breiman)である 24 Column Sampling Row Sampling Training Set 大量の繰り返し(数千回) Model アンサンブル
  • 25. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(5) Random Forest は、ツリーを並列に生やしたものと言える  これに対して、ツリーを直列に生やしたものもあり、Gradient Boosting Machine(2001, J.Friedman)などと呼ばれている  Boosting は、ツリーなどの精度を上げていくために開発された手法 であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー で説明するという考え方に基づき、極めて多数のツリー(数千本)を 生成していく  これに改良を加えたものが Xgboost(eXtreme Gradient Boosting)であり、Decision Tree 系のアルゴリズムでは現在最強の 手法である 25
  • 26. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(6)  Xgboost により、高速・高精度・高安定性という条件をかなり満足させ るモデルの構築が可能となっている  その裏で犠牲になったもののある • CART の時代には、生成されたツリーを見れば、特定のサンプルが 「なぜ」このような評価を受けたのかが完全に理解できた • しかし、Random Forest にしろ、GBM や Xgboost にしろ、数千本 のツリーを生成する場合があり、個々のサンプルが「なぜ」そう評 価されたのかを説明することは実質的にできない • ビジネスでモデルを利用する場合には、Accountability を求められ ることが多くあり、手法を選択する場合には考慮すべき大きなファ クターとなる 26
  • 27. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 7.Predictive Analytics の事例(7)  Xgboost のような手法を使い、同一のデータからモデルを構築したとし ても、同一の精度・安定性が得られるわけではない  オリジナルのデータセットに含まれる変数群をそのまま使ってモデル を構築したとしたら、「分析コンペ」では下位に停滞したままになる であろう  変数を加工したり、組み合わせたりして適切な「特徴量」を生成する 作業を“ Feature Engineering” と呼ぶ  この作業には決まった手順や定石があるわけではなく、データサイエ ンティストの感性・創造力が問われる部分である • Data Scientist は Artist でもある 27
  • 28. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(1)  データサイエンティストは完全に不足している データ分析の技術をある程度身に着けた新卒(修士程度)を育成する プログラムが、現在の大学のカリキュラムの中で体系立って整えられて いるケースは少ない • 滋賀大学・横浜市立大学が「データサイエンス学部」を本年より新設 した • 筑波大学では経営システム科学専攻の中に育成プログラムを持つ • 電気通信大学では、データアントレプレナー育成講座を単位認定  以上のように動きは出ているが、経験を積んだデータサイエンティス トは当分の間不足状況が続くであろう  それでは、企業内などでどのように人材を育成すればよいのだろうか Q.一人で3つのスキル分野を持つ人材を育成するのか A.少し大きな問題であれば、チームで対処するのが普通。したがっ てチーム内で3つのスキルが確保できれば良い。ただし、1つだけ のスキルを育成するのは問題であり、少なくとも2つのスキルを持 つことができるように育成方針を立てる必要がある 28
  • 29. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(2)  データサイエンティストのバックグラウンドについて  経験的には「理系」でも「文系」でも、優秀なデータサイエンティス トになれる  修士と学卒の間にも、実質的な差異はない • ただし、修士の方が課題に対して、全体像を掴み、一つの結果を取り まとめるという経験を持っており、即戦力に育ちやすい • また、修士の方が学問としての体系(各種の理論間の関係)をある程 度までは学んでいるため、全体像を把握する訓練は受けている • 関連課程を修了した博士の場合にはかなり差がある  当社では、入社時に持っている知識のレベルは問わない • 余程のデータ分析経験者でない限り、新しくトレーニングを受ける人 たちと大差はない  性差については全くないと言ってよい • あえて言えば、女性の方が分析に向いている可能性があるが、性差よ りも個人差の方が大きいであろう 29
  • 30. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(3) FEGでの新卒データサイエンティストの教育は以下のようなものである ①ビジネス常識(特別なことは何もなし) ②言語教育(WPS[SAS系]、R、Python など) ③金融業界常識教育(特に銀行業務、関連金融業界業務) ④過去の実施プロジェクトの内容教育 ⑤プレゼン・レポーティング ⑥企画書作成トレーニング ⑦データ分析コンペへの参加(時期的にKDD_CUPの場合が多い) 上記を概ね4月~6月の間に終了し、その後のスキルアップは基本的に各 自に任せている  ただし、「コーチ」が最低一年は付くため、プロジェクト上の疑問へ の解決法やスキルアップのための指導などはコーチが面倒を見る  7月以降は、プロジェクトに参加し、常用する分析手法や、最も大事 な「汚いデータへの対応」、「業務に対応した Feature Engineering」などはOJTで勉強していくことになる 30
  • 31. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(4) データサイエンスの分野は、技術の進歩が極めて早いため、勉強を続けて いない限りはあっという間に「時代遅れ」になってしまう  実プロジェクトで利用する分析手法は、ある程度有効性が確認された ものを顧客が望むため、あまり冒険的なものは利用できない  これを補うための大きな機会は「社内勉強会」であり、週一度程度、 夕方から夜にかけて開催されている • 勉強会は誰でも好きな時に好きなテーマで開催できる • 開催したいテーマを持つ場合には、グループウェア上で開催を告知 し、一定の人数が集まれば、日時を調整の上、正式に開催する • 正式な勉強会であれば、必要なテキストなどは全て会社が補助する  勉強会のテーマとしては以下のようなものがある ①統計検定一級・二級取得のための勉強会(新卒向け) ②KDDCUP2017 ③AtCoder 勉強会 ④Tensorflow + Keras 勉強会(予定) 31
  • 32. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(5)  分析者としてのスキルをアップするためには、「実際の問題」に取り組 むことがベストである  玩具の問題(Toy Problem)をいくら扱ってみても、現実の問題に対 応できるようなスキルは中々身につかない • 玩具の問題に利用されるデータは、多くの場合、小規模であったり、 ノイズを含まなかったりして、新しいアルゴリズムの検証などには妥 当であろうがスキルを高めるのに最も必要な部分のトレーニングがで きない • 実問題を解くうえで、下記のようなデータを吟味し、加工し、選択す るプロセスが、分析時間の70~80%を占めている • この部分を現実的なデータを扱うことで身に付けていくことがトレー ニングの非常に重要な部分となる 32 Feature Engineering Data Cleaning Data Profiling Data Shaping Feature Generation
  • 33. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(6) 実データの分析と言っても、社内で簡単に適切な問題が入手できるとは限 らない  FEGでトレーニングのために重要視しているのか、ネット上で開催されてい る「分析コンペティション」への参加である • 様々なコンペの概要や功罪に関しては以下の論文を参照されたい http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf • FEGで推奨しているのは「分析技術に特化した」コンペであり、 「こんなデータがあるので、それを活用するアイデアを提出してほ しい」というスタイルのコンペは推奨していない  新人研修の中での「コンペへの参加」というのは、毎年開催される KDD Conference と同時に行われる KDD CUP への参加である • KDD Conference はデータマイニングの分野では最大・最古の学会 であり、KDD CUP にはかなり手強い問題が出題される • 新人には荷が重いが、このコンペには全社から有志が参加しており、 慣れた人たちのスキルを実際に見る良いチャンスとなっている • FEGにとっては、ここでチャンピオンになるのが目標である (2009 年と2015年に2位となっている) 33
  • 34. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(7)  2位でも嬉しいものです 34
  • 35. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(8) 参加者が多いのは kaggle (https://www.kaggle.com/competitions) であり、ここで出題される問題はスポンサーから提出された課題であり、 実データの分析が対象となっている  このサイトでは、常に数問の課題(チュートリアルなどを除く、コン ペ問題)が出されている(例えば、下の問題) 35
  • 36. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(9)  前ページの問題は、食料品のネット通販での「リコメンデーション」が 課題である  現時点で、約2.5ヶ月の継続期間が残っており、取り組んでみるに は適切な課題であろう  顧客の購買履歴が与えられており、「次に買いそうなもの」を推定す る問題形式である • 一世代前のリコメンダーのように、「ユーザーxアイテム」で疎行列 を作るというアプローチでは、おそらく上位には行けないだろう • 購買のタイムスタンプとバスケットIDが完備しているので、「購買 順序」や「並買行動」を重視できる手法の選択が必要である • 個人的には RNN を利用してみたいと考えている • データ量はそれほど大きくなく、手元のPCで十分に処理できる(解 凍後の生データで700MB程度である) 36
  • 37. Copyright 2016, Financial Engineering Group,Inc. All Rights Reserved. 8.データサイエンティストの育成(10)  Kaggle では、参加者には成績に応じてポイントが与えられる  Kaggle には現在世界中から5.7万人が登録しており、自分がその中 で何番目程度かを知ることができる • 一定の条件(コンペの上位10人に入るなど)を達成すると Kaggle Master の称号を得る(これはかなり尊敬される称号である) • Kaggleに参加するの最大のメリットは、各コンペごとに “Forum” が 開かれており、そこで参加者が自由に討議できることである と言ったところで、コンペに参加してみたらいかがですか 37