データサイエンスの全体像とデータサイエンティスト

Copyright 2016, Financial Engineering Group，Inc． All Rights Reserved． 1
データサイエンスの全体像と
データサイエンティスト
２０１７年５月２９日
株式会社金融エンジニアリング・グループ
創業者チーフデータサイエンティスト
電気通信大学産学官連携センター客員教授
データサイエンティスト協会理事
中林三平
データサイエンティスト協会２０１７年第一回勉強会資料

Copyright 2016, Financial Engineering Group，Inc． All Rights Reserved．
１．データサイエンスという表現（１）
１９６０年代に「データサイエンス」という言葉の使用が開始された
 「コンピュータサイエンス」という言葉が、どちらかと言えば、Ｈ／Ｗに関す
る研究を指していたのに対して、コンピュータが扱う情報の分析に関わる研究
分野を総称する言葉として使われていた
2
Computer Science Data Science
高速化
大容量化
分散化
エコシステム拡大
：
相関・因果の分析
複雑・非線形の関係
場面の認識・理解
非構造化データ
：

１．データサイエンスという表現（２）
 データサイエンスとは、データの形式的なハンドリングではなく、デー
タが表現している事柄の意味を理解し、そこに含まれている情報を解き
放つことを目的としている
 多くの場合、データは「一目瞭然」な結果を表していることは少なく
慎重な分析を行うことにより、隠れていた構造が見えてくる
 データサイエンスを構成する要素は様々であるが、その中でも「分
析」が非常に重要なものである
3
Data A
Data B
Data C
Data Analytics
(Data Science)
データが
本来持って
いる情報

２．似た概念の整理
 大規模データが整理・蓄積されるにつれ、データサイエンスと関連の深
い言葉が気軽に使われるようになってきた
 その中で「ＡＩ」「機械学習」「データサイエンス」について概念的
に整理してみよう
4
Machine Learning
Data Science
ＡＩ
非常に広い概念であり
目標ではあるが、純粋な
技術を表現するものではない
（大規模な）データを活用する
ことを目標とした活動全般を
示し、個別技術の表現ではない
現在、利活用されているデータ
分析技術の基盤を構築している
技術群

３．ＡＩ（Artificial Intelligence）について（１）
 ＡＩの開発目標が昔と変わっていないなら、人間と区別が付かないよう
な知的作業を行うシステムを開発することである
 この目標が達成できたかどうかを判定するために、”Turing Test” が
提案されている
• 人間の試験官が、お互いに隔離された人間の回答者とＡＩに対して
質問を行い、どちらがＡＩかが判定できなければテストに合格する
5
試験官
人間
ＡＩ
Ｑ
Ｑ
Ａ
Ａ

３．ＡＩ（Artificial Intelligence）について（２）
 １９５０年の技術水準をベースとして考えられた Turing Test は、現時
点ではナイーブすぎるとの指摘がある
インタフェイスは、音声・画像でなければならない
質問も狭い領域の知識で答えられるものではいけない
Robotic を含めて、動作についてもテストする必要がある
 ハードルは高くなるばかりであるが、上記の指摘に応える事例もある
ＩＢＭ社の Watson は 2011年に、クイズ番組 “Jeopardy!” で優勝し
たが、この時のインタフェイスは自然言語であった
 また、回答には雑学的な広範な知識を要求されるものであった
 では、ＡＩの完成は間近である、とか、最近のメディアに頻繁に表現さ
れているように、ＡＩ（人工知能）を利用してｘｘが可能になった、と
か言えるのだろうか
 次に述べる「弱いＡＩ」の範囲では、ある程度のことができるように
なってきているが、人工知能が完成しつつあるとは思えない
6

３．ＡＩ（Artificial Intelligence）について（３）
 「強いＡＩと弱いＡＩ」という概念は、John Searle （哲学者）が１９
８０年に提唱したものである
 「強いＡＩ」とは、人間の知的活動と同等（もしくはそれ以上）の機能
を示すことができるＡＩである
 例えば、ビジネス上の課題を発見する能力
 ビジネスの中で課題を解決するための方策を探索する能力
 解決策を見出すのに、様々なコンフリクトの中で満足化を行う能力
 困難な解決への道をたどることを他者に納得させる能力など
 「弱いＡＩ」とは、問題が定式化され、考慮すべき範囲が限定された後
に、定義された規準から見てのより良い解決方法を探す能力などである
 「家計簿ソフト」などの「自動仕分け機能」は、果たしてＡＩなのか
 ネット通販で商品画像を送信すると、それにマッチする商品を探索し
てくれるサービスは、果たしてＡＩなのか
 「deep blue がチェスで思考していないというのは、飛行機は羽ばたい
ていないので飛んでいるとは言えない、というようなものだ」
Drew McDermott(1997)
7

４．機械学習について（１）
 機械学習（Machine Learning）は、技術群を指す言葉と考えて良い
 １９８０年代の「第２次AIブーム」の時には、AIを構成する技術の一
部として機械学習が位置付けられていたが、現在は広い範囲のデータ
分析技術が機械学習のカテゴリとして考えられている
 機械学習の基本としては、データが与えられたときに、目的に沿って
「分析」を行い、目的に叶うパターンを抽出し、それを実際の行動
ルールに変換するというステップがある
 データが更新されたら、自動的に行動ルールも更新されるというのが
論理的には正当であるが、実際には様々な制約があり、自動更新が行
われない場合も多い
8
データ
データを分析してパターンを抽出パターンを行動ルールに翻訳

４．機械学習について（２）
 機械学習で用いられるアルゴリズムは極めて広範囲なものになってきた
例えば、以下のような手法が機械学習に含まれるとされている
• Decision tree learning（決定木）
• Association rule（アソシエーション）
• Neural networks（ニューラルネット）
• Deep learning（深層学習）
• Support vector machines（SVM）
• Clustering（クラスタリング）
• Bayesian networks（ベイジアンネット）
• Reinforcement learning（強化学習）
• Similarity and metric learning（類似度分析）
• Genetic algorithms（遺伝的アルゴリズム）
（WIKI:”Machine Learning“ より編集）
 「AＩ」関連で注目を浴びている深層学習や強化学習も技術要素とし
ては機械学習に含まれるとしている
9

４．機械学習について（３）
 機械学習の領域では、「学習のスタイル」により技術を分類することが
多い
「教師あり学習」は分析対象データの中に「正解／不正解」が含まれ
ており、それを精度高く、安定的に推定するモデル構築手法である
• 最近注目されている画像認識、強化学習もこの範疇に入る
 「教師なし学習」は、類似性をコアとして分析するモデルを構築する
 「半教師あり学習」は「教師あり」に近いが正解ラベルが存在しない
データも分析対象に取り込む
10
機械学習
教師あり学習教師なし学習半教師あり学習
・Decision tree
・SVM
・Recommender
・線形判別モデル
・階層的クラスタリング
・非階層的クラスタリング
・アウトライヤー分析
・アソシエーション
・ベイジアン推定
・TSVM（特殊型）
・レアイベント分析
・Causal Inference

４．機械学習について（４）
 機械学習に固有の問題について、「決定木」を対象に考えてみる
 最も標準的なのは ”CART” (Classification and Regression Tree、
Breiman et.al., 1984)である
• 教師フラグをより効果的に判別できる項目を基準として、データの
分割を繰り返す、貪欲な手法（Greedy Method）
• 生成されるツリーは１本
• これに、“Bagging” や ”Boosting” の手法を取り入れることにより、
構築されるモデルの精度・安定性は大幅に向上した
 “Bagging” は ”Random Forest”、”Boosting” は “xgboost” など
• 共に、数千本のツリーを生成することが多い
 １本のツリーであれば「何故この結果がでたのか」は簡単に解釈可能
• 数千本であれば、人間には解釈不可能
 “Deep Learning” 系の技術を含めて、「何故その結果が出たのか」を
如何に説明するかが大きな課題となっている
• Black Box のホワイト化と呼ばれている
11

５．Deep Learning について（１）
 近年の「AＩブーム」を先導しているのは “Deep Learning” 技術である
 極めて急速に発展してる分野であり、目を離すことができない
• どのような手法が生まれてきているかが把握できないほど
 基本的には、入力レイヤから中間層（隠れレイヤ）を経て、出力レイ
ヤに至るネットワークから構成される
 出力レイヤから「正解／不正解」の情報を受け取り、Back
Propagation などのロジックによりネットワークの結合状況を更新す
るというのは、この分野の様々な手法に共通している
 とはいえ、提唱されている手法はかなり異なった特徴を持っており、
次のようなものが代表的なものである
• DNN：Deep Neural Net （従来のものの多層化）
• CNN：Convolutional Neural Net（画像認識関連で大きな成果）
• RNN：Recursive Neural Net（文書理解関連で大きな成果）
 もう少しレビューしてみよう
12

５．Deep Learning について（２）
 私見だが、従来のニューラルネットに対して、近年の Deep Learning が
大きな成果を出しているのには、それなりの理由があると思う
 CNN による画像認識へのインパクトは、従来の「入力」が無次元で
あったのに対して、「位置」が定義され、batch を設定することによ
り、ノイズのカット、類似性の測定などが円滑に行うことができるよ
うになったことが大きな影響を与えているのではないだろうか
 また、文章理解に関しても、RNN の導入は単なる “Bag of Words” と
してとらえられていたものに、CBOW(Continuous Bag of Words）
として、言葉の出現順序も分析の対象として含めることができるよう
になった
• 多分、順序だけではなく、「分散表現」と呼ばれる言葉のシークエ
ンスが意味しているものを表現する仕組みが効果的であったのであ
ろう（Embedded Vector）
• この「順序」を表現することが可能になったことの影響は大きく、
Recommender では「誰が、何を買ったか」が前提となっていたも
のが「誰が、どういう順序で、何を買ったか」という分析が可能と
なった
13

５．Deep Learning について（３）
 Deep Learning が期待されている分野の一つに「特徴量」（Feature）
の自動抽出がある
 データ分析の世界では、入手できたデータをそのまま利用するだけで
満足できる結果を得ることはほとんどできない
• データを組み合わせたり、項目間の演算を行ったりすることによる新
しい変数を生成することが、「職人芸」として分析の精度を決定する
ものと認められてきた（Feature Engineering）
• しかし、ここに全く別の視点からの特徴量の生成の可能性が出てきた
• 例えば、先に述べた文章（単語）の分散表現では、数万のボキャブラ
リーを、出現順序をベースに数百程度の “Embedded Vector” で表
現する
• これは人間には理解不能なものであるが、最終レイヤを説明変数とし
てモデルに導入すると精度は明らかに向上する
• 人間に理解できるロジックとは全く別の世界で、システムが新しい
「理解」を生成している可能性は高い
14

６．データサイエンスについて（１）
データサイエンスの守備範囲を理解するには、データサイエンティストが
どのようなスキルを要求されているのかを理解することが役に立つ
データサイエンティストの役割は、世の中に溢れるデータから、ビジネ
スなどに役にたつ情報を引き出すことである
• Ｗｉｋｉの英文記事を取りまとめて図示すると以下のような３つのエ
リアにまたがるスキルが求められるとしている
• これとほぼ同じ図が「データマイニング」にも提案されたことがある
15
Hacking Skill Math/Stat
Substantive
Expertise

６．データサイエンスについて（２）
データサイエンティスト協会においても、以下のように必要なスキルセッ
トを定義している
 この３つの力は、どのような局面で必要とされるのだろうか
• 基本的には、ビジネスの現場で、情報を活用することにより、課題を
解決することを想定している
16

６．データサイエンスについて（３）
 データサイエンス活用の大きな流れは以下のように表現できる
 あくまでも概念図であり、簡単に切り分けはできないが
 実際の課題では、問題を発見し、データを用いて課題を解決／改善で
きるかどうかの見極めが、最初のステップである
 採用可能な対応策を考え、具体的に課題を解決するための、数理的な
分析の方向を確定するのが第二のステップである
 第三ステップは、実際のデータを分析し、モデルなどを構築すること
により、解決方法を探索する
 最終段階は、発見された解決策をビジネスプロセスに導入する
17
ビジネス力
エンジニア力
サイエンス力
問題の発見問題の定式化解決方法探索ビジネス適用
◎
○◎
◎
○
◎
◎
△
△
△
△
△

６．データサイエンスについて（４）
 「ビジネス力」というスキルは、「機械学習」や「ＡＩ」では強調され
ないスキルである
 しかし、データを用いて課題を解決仕様とする場合には重要となる
• 多くの場合「課題」は現場で発生し、それを解決するための優先度、
データを用いることの効果、解決のための対応策の範囲などを判
断することが必要である
• これらの判断を行うためのスキルには必ずしも高度な「データエン
ジニアリング力」や「データサイエンス力」は必要とされない
• ただし、双方のスキルを理解していれば、その後のステップを加速
するのに大きな効果がある
18
現場のニー
ズ聴取
データ活用
可能性評価
優先度、対
応戦略判断

６．データサイエンスについて（５）
 「データエンジニアリング力」については、「機械学習」でも「ＡＩ」
でも必要とされるスキルである
 データサイエンスの領域内では、扱うデータが大規模であることから
データのハンドリング環境を整えるために基本的なスキルである
 ただし、社内システムを構築してきた「ＳＥ」が、「データエンジニ
アリング力」を備えているかというとそうではない場合が多い
 現在、データの分析環境がクラウド上に移行しつつあり、データの保
有・検索・更新などにも新しいスキルが要請されつつある
 また、分析環境自体も頻繁に発生するバージョンアップへの対応、癖
のあるパッケージへの対応、分析者間のコミュニケーションのサポー
トなど、定例業務を基準としたインフラ整備とは異なる要求を持つ
19
大規模デー
タへの対応
分析環境の
整備
解決策の実
装

６．データサイエンスについて（６）
 「データサイエンス力」については、「機械学習」の技術群を使いこな
すスキルが基本的に要求される
 「分析」を行うのが主な分野である
• 「分析」といっても、いくつかのレベルが存在する
• Descriptive Analytics：過去のデータをもとに現状を記述する
ＢＩツールなどで対応可能
• Predictive Analytics：将来または状況変化を予測する
機械学習などに基づくモデリングのスキルが必要
• Prescriptive Analytics：上記の予測などをもとに処方箋を作成する
モデルに対する理解力とビジネス力が要求される
20
Descriptive
Analytics
Predictive
Analytics
Prescriptive
Analytics

７．Predictive Analytics の事例（１）
Decision Tree は典型的な教師あり学習のアルゴリズムである
 原型は CART(1984, Breiman et.al) や ID3(1986, Quinlan) が開発
したものであり、下図のようなツリーを生成する
 このアルゴリズムが発展していく過程を振り返り、データサイエンス
で用いられる技術の事例を見てみる
21
母集団(P=0.1)
NODE1
(P=0.05)
V4>XX?
NODE2
(P=0.20)
V3>YY? V8>ZZ?
NODE3
(P=0.02)
NODE4
(P=0.08)
NODE5
(P=0.12)
NODE6
(P=0.28)

７．Predictive Analytics の事例（２）
Decision Tree の手法は、枝分かれを追加することにより対象データの分
析精度が上がれば、際限なくツリーを生成し続ける(Greedy Method）
 その結果として、分析対象データ（Training Set）での精度は高いが
検証用データ（Validation Set）での精度は低いという現象（Over
Fitting）が発生しやすく、これを避けるために以下のような工夫が行
われている
22
Original
Data
Training
Set
Validation
Set
Model
Error
# of Partition
Validation
Training
Optimal
70%
30%
Random
Sampling
Build
Valid

７．Predictive Analytics の事例（３）
 モデルの安定性を高めるために、Cross Validation という方法が一般に
使われている
 Cross Validation の機能を埋め込んであるパッケージも多い
23
Original
Data
ランダムにN分割
Training Set
Validation
Set
Model
#1
Model
#2
Model
#3
Model
#N
アンサンブルモデル

７．Predictive Analytics の事例（４）
 Cross Validation を導入することにより、明らかにモデルの安定性は向
上する
 これを更に拡大したのが Random Forest(2001, L.Breiman）である
24
Column
Sampling
Row
Sampling
Training
Set
大量の繰り返し（数千回）
Model アンサンブル

７．Predictive Analytics の事例（５）
Random Forest は、ツリーを並列に生やしたものと言える
 これに対して、ツリーを直列に生やしたものもあり、Gradient
Boosting Machine（2001, J.Friedman）などと呼ばれている
 Boosting は、ツリーなどの精度を上げていくために開発された手法
であるが、GBM は直前に生成されたツリーの「誤差」を次のツリー
で説明するという考え方に基づき、極めて多数のツリー（数千本）を
生成していく
 これに改良を加えたものが Xgboost（eXtreme Gradient
Boosting）であり、Decision Tree 系のアルゴリズムでは現在最強の
手法である
25

７．Predictive Analytics の事例（６）
 Xgboost により、高速・高精度・高安定性という条件をかなり満足させ
るモデルの構築が可能となっている
 その裏で犠牲になったもののある
• CART の時代には、生成されたツリーを見れば、特定のサンプルが
「なぜ」このような評価を受けたのかが完全に理解できた
• しかし、Random Forest にしろ、GBM や Xgboost にしろ、数千本
のツリーを生成する場合があり、個々のサンプルが「なぜ」そう評
価されたのかを説明することは実質的にできない
• ビジネスでモデルを利用する場合には、Accountability を求められ
ることが多くあり、手法を選択する場合には考慮すべき大きなファ
クターとなる
26

７．Predictive Analytics の事例（７）
 Xgboost のような手法を使い、同一のデータからモデルを構築したとし
ても、同一の精度・安定性が得られるわけではない
 オリジナルのデータセットに含まれる変数群をそのまま使ってモデル
を構築したとしたら、「分析コンペ」では下位に停滞したままになる
であろう
 変数を加工したり、組み合わせたりして適切な「特徴量」を生成する
作業を“ Feature Engineering” と呼ぶ
 この作業には決まった手順や定石があるわけではなく、データサイエ
ンティストの感性・創造力が問われる部分である
• Data Scientist は Artist でもある
27

８．データサイエンティストの育成（１）
 データサイエンティストは完全に不足している
データ分析の技術をある程度身に着けた新卒（修士程度）を育成する
プログラムが、現在の大学のカリキュラムの中で体系立って整えられて
いるケースは少ない
• 滋賀大学・横浜市立大学が「データサイエンス学部」を本年より新設
した
• 筑波大学では経営システム科学専攻の中に育成プログラムを持つ
• 電気通信大学では、データアントレプレナー育成講座を単位認定
 以上のように動きは出ているが、経験を積んだデータサイエンティス
トは当分の間不足状況が続くであろう
 それでは、企業内などでどのように人材を育成すればよいのだろうか
Ｑ．一人で３つのスキル分野を持つ人材を育成するのか
Ａ．少し大きな問題であれば、チームで対処するのが普通。したがっ
てチーム内で３つのスキルが確保できれば良い。ただし、１つだけ
のスキルを育成するのは問題であり、少なくとも２つのスキルを持
つことができるように育成方針を立てる必要がある
28

８．データサイエンティストの育成（２）
 データサイエンティストのバックグラウンドについて
 経験的には「理系」でも「文系」でも、優秀なデータサイエンティス
トになれる
 修士と学卒の間にも、実質的な差異はない
• ただし、修士の方が課題に対して、全体像を掴み、一つの結果を取り
まとめるという経験を持っており、即戦力に育ちやすい
• また、修士の方が学問としての体系（各種の理論間の関係）をある程
度までは学んでいるため、全体像を把握する訓練は受けている
• 関連課程を修了した博士の場合にはかなり差がある
 当社では、入社時に持っている知識のレベルは問わない
• 余程のデータ分析経験者でない限り、新しくトレーニングを受ける人
たちと大差はない
 性差については全くないと言ってよい
• あえて言えば、女性の方が分析に向いている可能性があるが、性差よ
りも個人差の方が大きいであろう
29

８．データサイエンティストの育成（３）
ＦＥＧでの新卒データサイエンティストの教育は以下のようなものである
①ビジネス常識（特別なことは何もなし）
②言語教育（ＷＰＳ［SAS系］、Ｒ、Python など）
③金融業界常識教育（特に銀行業務、関連金融業界業務）
④過去の実施プロジェクトの内容教育
⑤プレゼン・レポーティング
⑥企画書作成トレーニング
⑦データ分析コンペへの参加（時期的にＫＤＤ＿ＣＵＰの場合が多い）
上記を概ね４月～６月の間に終了し、その後のスキルアップは基本的に各
自に任せている
 ただし、「コーチ」が最低一年は付くため、プロジェクト上の疑問へ
の解決法やスキルアップのための指導などはコーチが面倒を見る
 ７月以降は、プロジェクトに参加し、常用する分析手法や、最も大事
な「汚いデータへの対応」、「業務に対応した Feature
Engineering」などはＯＪＴで勉強していくことになる
30

８．データサイエンティストの育成（４）
データサイエンスの分野は、技術の進歩が極めて早いため、勉強を続けて
いない限りはあっという間に「時代遅れ」になってしまう
 実プロジェクトで利用する分析手法は、ある程度有効性が確認された
ものを顧客が望むため、あまり冒険的なものは利用できない
 これを補うための大きな機会は「社内勉強会」であり、週一度程度、
夕方から夜にかけて開催されている
• 勉強会は誰でも好きな時に好きなテーマで開催できる
• 開催したいテーマを持つ場合には、グループウェア上で開催を告知
し、一定の人数が集まれば、日時を調整の上、正式に開催する
• 正式な勉強会であれば、必要なテキストなどは全て会社が補助する
 勉強会のテーマとしては以下のようなものがある
①統計検定一級・二級取得のための勉強会（新卒向け）
②ＫＤＤＣＵＰ２０１７
③AtCoder 勉強会
④Tensorflow + Keras 勉強会（予定）
31

８．データサイエンティストの育成（５）
 分析者としてのスキルをアップするためには、「実際の問題」に取り組
むことがベストである
 玩具の問題（Toy Problem）をいくら扱ってみても、現実の問題に対
応できるようなスキルは中々身につかない
• 玩具の問題に利用されるデータは、多くの場合、小規模であったり、
ノイズを含まなかったりして、新しいアルゴリズムの検証などには妥
当であろうがスキルを高めるのに最も必要な部分のトレーニングがで
きない
• 実問題を解くうえで、下記のようなデータを吟味し、加工し、選択す
るプロセスが、分析時間の７０～８０％を占めている
• この部分を現実的なデータを扱うことで身に付けていくことがトレー
ニングの非常に重要な部分となる
32
Feature Engineering
Data Cleaning
Data Profiling
Data Shaping
Feature Generation

８．データサイエンティストの育成（６）
実データの分析と言っても、社内で簡単に適切な問題が入手できるとは限
らない
 ＦＥＧでトレーニングのために重要視しているのか、ネット上で開催されてい
る「分析コンペティション」への参加である
• 様々なコンペの概要や功罪に関しては以下の論文を参照されたい
http://yukino.moo.jp/jsai-2016-ML-competition-draft.pdf
• ＦＥＧで推奨しているのは「分析技術に特化した」コンペであり、
「こんなデータがあるので、それを活用するアイデアを提出してほ
しい」というスタイルのコンペは推奨していない
 新人研修の中での「コンペへの参加」というのは、毎年開催される
KDD Conference と同時に行われる KDD CUP への参加である
• KDD Conference はデータマイニングの分野では最大・最古の学会
であり、KDD CUP にはかなり手強い問題が出題される
• 新人には荷が重いが、このコンペには全社から有志が参加しており、
慣れた人たちのスキルを実際に見る良いチャンスとなっている
• ＦＥＧにとっては、ここでチャンピオンになるのが目標である
（2009 年と2015年に２位となっている）
33

８．データサイエンティストの育成（７）
 ２位でも嬉しいものです
34

８．データサイエンティストの育成（８）
参加者が多いのは kaggle (https://www.kaggle.com/competitions）
であり、ここで出題される問題はスポンサーから提出された課題であり、
実データの分析が対象となっている
 このサイトでは、常に数問の課題（チュートリアルなどを除く、コン
ペ問題）が出されている（例えば、下の問題）
35

８．データサイエンティストの育成（９）
 前ページの問題は、食料品のネット通販での「リコメンデーション」が
課題である
 現時点で、約２．５ヶ月の継続期間が残っており、取り組んでみるに
は適切な課題であろう
 顧客の購買履歴が与えられており、「次に買いそうなもの」を推定す
る問題形式である
• 一世代前のリコメンダーのように、「ユーザーｘアイテム」で疎行列
を作るというアプローチでは、おそらく上位には行けないだろう
• 購買のタイムスタンプとバスケットＩＤが完備しているので、「購買
順序」や「並買行動」を重視できる手法の選択が必要である
• 個人的には RNN を利用してみたいと考えている
• データ量はそれほど大きくなく、手元のＰＣで十分に処理できる（解
凍後の生データで７００ＭＢ程度である）
36

８．データサイエンティストの育成（１０）
 Kaggle では、参加者には成績に応じてポイントが与えられる
 Kaggle には現在世界中から５．７万人が登録しており、自分がその中
で何番目程度かを知ることができる
• 一定の条件（コンペの上位１０人に入るなど）を達成すると Kaggle
Master の称号を得る（これはかなり尊敬される称号である）
• Kaggleに参加するの最大のメリットは、各コンペごとに “Forum” が
開かれており、そこで参加者が自由に討議できることである
と言ったところで、コンペに参加してみたらいかがですか
37

データサイエンスの全体像とデータサイエンティスト

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (9)

Similar to データサイエンスの全体像とデータサイエンティスト

Similar to データサイエンスの全体像とデータサイエンティスト (20)

More from The Japan DataScientist Society

More from The Japan DataScientist Society (20)

データサイエンスの全体像とデータサイエンティスト