2021.9.9
Kenʼichi Matsui
AI技術開発部 データサイエンスグループ
株式会社 Mobility Technologies
(株式会社ディー・エヌ・エー より出向)
テックプレナー道場
データサイエンティストの仕事と
データ分析コンテスト
2
項⽬
01|⾃⼰紹介
02|データサイエンティストと機械学習
03|データ分析コンテスト
04|仕事におけるデータ分析
3
項⽬
01|⾃⼰紹介
02|データサイエンティストと機械学習
03|データ分析コンテスト
04|仕事におけるデータ分析
4
⾃⼰紹介(松井 健⼀)
株式会社Mobility Technologies AI技術開発部
データサイエンスグループ グループマネージャー(Kaggle Master)
(株式会社 ディー・エヌ・エーより出向)
最近の職務経歴
• ドライブデータの解析 (DRIVE CHART)
• https://drive-chart.com/
• 多⽬的ダムの流⼊⽔量の予測、運⽤効率化
• https://dena.ai/work11/
著書
• 「ソフトウェアデザイン 2020年10⽉号 【第1特集】Pythonではじめる統計学 2-4章」著
• 「アクセンチュアのプロフェッショナルが教える データ・アナリティクス実践講座」共著
経歴
⼤⼿SIer ⇒ ⼤⼿通信キャリア ⇒ 外資系コンサルティングファーム ⇒ 現職
5
今までのキャリア
業種 役割
在籍 内容
ソフト
ウェア
開発
1
社
⽬
2
社
⽬
3
社
⽬
通信
キャリア
コンサル
ティング
ファーム
プログラマ
携帯電話開発
プロジェクト
マネージャ
SNS分析担当
データ
サイエンティスト
! JavaによるWebアプリ開発(サーバーサイド)から、携帯電話の内蔵
ソフトウェアをCで実装まで、様々なプロジェクトを経験
! USの通信キャリアの携帯電話端末開発。
⽇⽶開発プロセス
共通化担当
! 企画フェーズ以降の携帯電話端末の仕様策定、開発、検証、製造、倉庫
着荷まで全体の製品開発プロジェクトマネジメントを担当
! 初の衛星電話導⼊も担当し、主に前例のない新規案件担当を務めた
! Twitter分析による商品評判抽出ツールを作成。
! SprintというUSの携帯キャリア買収に伴い、⽇⽶端末開発プロセス共
通化の検討、交渉担当
7
年
4
年
3
年
! 主にクライアント企業のデータ活⽤のご要望をヒアリングし、PoCにて
効果を試すプロジェクトに従事。
! 地理情報解析、異常検知、⾞関係など。
現職含め4社を経験し、プログラマ〜プロジェクトマネジメント〜データサイエンティストと移り
変わってきました。
4
社
⽬
Web系
2年
10
ヶ⽉
! DRIVE CHARTにおける危険シーン検知の開発
! パートナー企業との共同データ分析プロジェクトに従事
! グループマネージャとしてデータサイエンスチームをマネジメント
6
ブログ (Qiita: 技術系ブログサイト)
6
2015年〜2016年頃は統計、機械学習、プログラミングに関するブログをよく書いていました。
昔はPythonタグで1位になった
こともありました
2019年はcontribution数で、
記事投稿者約5万⼈中21位でした。
7
項⽬
01|⾃⼰紹介
02|データサイエンティストと機械学習
03|データ分析コンテスト
04|仕事におけるデータ分析
データサイエンティストとは︖
出典: https://datascience.berkeley.edu/about/what-is-data-science/
コンセンサスの取れた定義は現時点で世の中にはない。BerkeleyのData Science Life Cycleに沿っ
て概観してみる。このようなデータサイエンスを⾏う⼈と考えても良いだろう。
データを分析する
! 探索する/統計処理する
! 予測分析する
! 回帰分析
! テキストマイニング
! 質的分析
データを処理する
! データマイニング
! クラスタリング/分類
! データモデリング
! データ集約、サマリー
データを⼿に⼊れる
! データを得る
! データを⼊⼒する
! シグナル受信
! データ抽出
コミュニケーション
! レポーティング、報告
! データ可視化
! BIツール
! 意思決定
データを維持する
! データウェアハウス
! データクリーニング
! データの⼀時格納場所
! データ処理
! データ処理アーキテクチャ
8
データサイエンスに関わる職種
データサイエンティスト
機械学習を⽤いて予測モデルを構築したり、
統計解析を⾏いデータの発⽣メカニズムを解
き明かすことを⾏う役割。
データアナリスト
データサイエンティストと事業部⾨の間を埋
める役割。データの探索的解析や可視化など
を通じて、データサマライズ、レポーティン
グなどを⾏う。
データエンジニア
メンバーがデータを扱いやすくする環境を構
築するためにシステム開発を⾏なったい、そ
のアーキテクチャ設計を⾏う役割。
数理的な⼿法(機械学習、統計解析)
などに強みを持つ。
属するプロジェクトのビジネスにより
近い⽴場で、事業の意思決定に資する
⽰唆を出したり、わかりやすく説明す
ることなどに強みを持つ。
プログラミング、システムアーキテク
チャなどにより強みを持つ。
主な役割 強み
データサイエンスに関わる職種はもう少しブレークダウンして定義することも⾏われる。
※ 右記を参考に松井が改変︓ https://datascience.berkeley.edu/about/what-is-data-science/
9
データサイエンティストが持つスキル
データサイエンティストが抑えるべき領域は多岐にわたる。下記は松井の考える必要スキル。
エンジニアリング
数理知識
(機械学習・統計学)
レポーティング
データインサイト
EDA ※
仮説出し
⽰唆出し
! 機械学習(予測モデル構築)
! 統計学(データの⽣成メカニズムを解き明かす)
! 最適化
! わかりやすい説明⼒
! ロジカルシンキング
! 資料作成⼒(パワーポイントなど)
! 想像⼒
! 置かれた状況を把握する⼒
! データからパターンを読み解く⼒
! プログラミング(Pythonなど)
! データベース
! クラウドサービスの知識
! データ前処理、データパイプライン構築
! データ可視化、探索
! 特徴量エンジニアリング
! データの特性に関する知識
業務推進⼒
! プロジェクト関係者とのコミュニケーション⼒
! 段取り⼒(スケジューリング)
ドメイン知識
! 関わるプロジェクトに関するドメイン知識
※ Exploratory Data Analysis︓探索的データ解析
10
機械学習の分類
機械学習
教師あり
学習
教師なし
学習
強化学習
回帰
分類
次元削減
クラスタ
リング
今⽇の講演ではデータサイエンティストのコアスキルの1つ、機械学習にフォーカスする。機械学習は下記のよ
うに分類できる。
出典: https://mse238blog.stanford.edu/2017/07/choftun/the-building-blocks-of-machine-learning/ を元に⼀部⽇本語化
11
教師あり学習
内容
分類
回帰
答えが有限個の種類に
分けられ、その
どれに該当するかを
予測する問題
予測値が数値で
表される問題
! ローンの申し込み情報から、顧客が
返済可能かどうかを当てる問題(⼆
値分類)
! 数字認識(多値分類、画像分類)
! 気温、季節、イベント内容、などか
ら来場者数を当てる問題
! webの閲覧履歴情報から購⼊確率を
当てる問題
! 不動産の情報から価格を予測する問
題
例
教師あり学習とは、⼈が事前にインプットデータと答えのペアを
⽤意しておき、このペアの関係性を機械学習モデルに学習させるも
の。答えの種類に応じて分類と回帰の2種類に分けられる。
本講演では、機械学習の中でも応⽤事例の多い教師あり学習に注⽬する。
教師あり
学習
回帰
分類
12
教師あり学習のイメージ
回答なし
問題集
⼈間の学習者
回答付き
問題集
⼈間が学習するときと同じように 、まずは正解がある問題を解いて確認する。それで学習した結果
を別なデータで試し、正しく回答できているかを評価する。
⼈間の
学習
コンペ
学習
データ
機械学習モデル
検証
データ
回答シート
回答がついている問題集で勉強
⇒ 機械学習モデルの学習
別な問題集を解く
⇒ 問題集まる覚えしてしまうと正解
できない。
先⽣
データサイエ
ンティスト
正解
データ
精度
計算
これは機械学習
モデルには与えない
答え合わせ
予測結果
13
機械学習モデル、という⾔葉がこの分野ではよく⽤いられます。下記は同じ回帰タスクに対して、3
つの異なるモデルを適⽤して⾒た例です。予測結果にそれぞれ特徴があることがわかります。
参考︓機械学習モデルとは︖
予測結果を直線で表現するモデ
ル。つまり
!
𝑦 = 𝑎𝑥 + 𝑏
Xを領域に分割し、そこに含まれる
データに最も誤差の少ない1つの値
を定めて予測値とする
Deep Learningモデルのシンプル
版モデル。複雑な関数を表現で
きる。
https://github.com/matsuken92/techpreneur_201909/blob/master/notebook/demo.ipynb
線形モデル 決定⽊モデル ニューラル
ネットワーク
MLPモデル
扱うデータによりどのようなモデルが適しているか異なるため、定⽯のモデルを
当てはめたりいくつものモデルを試して精度の良いものを探して適⽤する。
緑実線︓モデルの
出⼒値(yの予測値)
14
参考︓例に⽤いた⼈⼯データのデータ発⽣メカニズム
⾚実線で⽰した曲線に誤差が乗ったものが今回のデータの発⽣メカニズム。
⾚実線︓誤差がなかった時の値
誤差
15
参考︓線形回帰モデル フィッティングのイメージ
!
𝒚 = 𝒂𝒙 + 𝒃 の傾きパラメータと切⽚パラメータを少しずつずらして回帰直線と各データの間の距離を
測る。これが最も⼩さくなるところが⼀番フィットしているパラメータとする。
アニメーションによるイメージ
https://github.com/matsuken92/techpreneur_201909/blob/master/img/anim_test_slope.gif
https://github.com/matsuken92/techpreneur_201909/blob/master/img/anim_coef.gif
傾きパラメータ 切⽚パラメータ
pdfの場合は⇒のURLでアニメーションが⾒れます
16
機械学習モデルの学習
訓練データ
(説明変数 𝑿)
⽬的変数
(教師データ 𝒚)
予測値
!
𝒚
誤差
誤差を⼩さくするよう
パラメータを調整
モデル
機械学習モデルの学習とは、予測値と⽬的変数の誤差が⼩さくなるようパラメータを定める処理のこ
とを⾔う。例えば、前ページ線形回帰の場合は、切⽚と傾きという2つのパラメータをデータにフィ
ットするように調整している。
17
参考︓決定⽊のイメージ
③次データの分割
候補を探す
①データの分割
候補を探す
②分割後の領域で誤差
が最⼩になる様な⽔平
な線を引く(つまり平均)
④様々な分割候補を試し、
誤差が⼀番⼩さくなる分
割点を定める
簡易的な決定⽊の説明を下記の4ステップで説明する。分割による領域ごとの予測によりステップ状
の予測結果となる。この発展形にRadom Forestや勾配ブースティングというモデルがある。
⑤分割でできた領域に対
して再度同様に分割点を
定める
⑥分割を繰り返し指定の条
件を満たすところで停⽌。
予測結果とする。
18
参考︓ニューラルネットワークのイメージ : 画像分類の例
28 x 28 = 784
次元ベクトル
𝛼!
𝛼"
𝛼#
𝛽!
𝛽"
𝛽#
𝛽$
𝛾!
𝛾"
[出⼒]
8という数字
の画像である
確率
𝜔!
[⼊⼒]
1
1
1
𝑊!
𝑊"
𝑊#
𝑋
!
𝑦
𝑊$
𝑏"
1
𝑏!
𝑏#
𝑏$
本講義では深くは触れないが、ニューラルネットワーク(NN)は⾏列演算と⾮線形関数の適⽤を階層
的に積み重ねたもので構成されている。世の中に多種のNNモデルがあるが基本形はこれ。
画像⼆値分類の例
⇒ データにフィットしたパラメータ Wとbを学習で求める。
𝑦
[正解]
8という画像なら1
それ以外は0
誤差を最⼩にする
ように学習
fには⾮線形な関数(sigmoid関数や
Reluなど)を⽤いることが多い
19
Home Credit社
オランダに本社を持つノンバンクの
⾦融機関。10カ国で営業しており、
クレジット履歴が少ない顧客、ない
顧客へのローンを⾏なっている。
機械学習応⽤例︓ Home Credit Default Risk ローン貸し倒れ予測
https://www.kaggle.com/c/home-credit-default-risk
20
SK_ID_
CURR
NAME_
CONTRACT_
TYPE
CODE_
GENDER
FLAG_
OWN_CAR
FLAG_OWN_
REALTY
CNT_
CHILDREN
AMT_
INCOME_
TOTAL
AMT_
CREDIT
NAME_
INCOME_
TYPE
NAME_
EDUCATION_
TYPE
NAME_
HOUSING_
TYPE
…
EXT_
SOURCE_1
EXT_
SOURCE_2
EXT_
SOURCE_3
TARGET
100002
Cash
loans
M N Y 0 202,500 406,598 Working
Secondary /
secondary
special
House /
apartment
… 0.08304 0.26295 0.13938 1
100003
Cash
loans
F N N 0 270,000 1,293,503
State
servant
Higher
education
House /
apartment
… 0.31127 0.62225 nan 0
100004
Revolving
loans
M Y Y 0 67,500 135,000 Working
Secondary /
secondary
special
House /
apartment
… nan 0.55591 0.72957 0
Application_train データ : ローン申し込み情報(このようなデータが約30万⾏)
インプット
予測対象データの例(約5万⾏)
答え 1: 返済不可
0: 問題なし
Excelのシートで表現できるようなデータ(テーブルデータ)。機械学習に応⽤する際はここからインプットとな
る学習データと、予測対象のデータでデータセットを作る。
100001
Cash
loans
F N Y 0 135,000 568800 Working
Higher
education
House /
apartment
… 0.75261 0.78965 0.15952 ???
100005
Cash
loans
M N Y 0 99,000 222768 Working
Secondary /
secondary
special
House /
apartment
… 0.56499 0.29166 0.43296 ???
100013
Cash
loans
M Y Y 0 202,500 663264 Working
Higher
education
House /
apartment
… nan 0.69979 0.61099 ???
まだ答えがわかっていない
データを予測したい
ID 契約種別 性別 ⾞所有
不動産
所有
⼦供の数 収⼊ ローン額 収⼊種別 教育種別 家種別 外部信⽤機関スコア 貸倒れ有無
出典︓ https://www.kaggle.com/kenmatsu4/home-credit-eda-001
21
申込データイメージ
学習と検証
学習データ 訓練データ
検証
データ
分割
上記の例はrandom samplingを
適⽤して分割
予測モデルを構築する際、今⼿元にあるデータと全く同じものだけにフィットしてもあまり意味がな
い。同様のデータを将来得たときに⽬的変数yがどのような値になるかを知りたいことがほとんど。
そのため擬似的に、将来得られた未知データとみなした検証データを別にとっておき、検証する。
このデータでモデルの
学習を⾏う
できたモデルをこのデータに
適⽤して結果を評価する
22
過学習(Overfitting)
未知のデータに対する予測精度が⾼いことを汎化能⼒が⾼いと⾔う。訓練データによくフィットして
いるが、汎化能⼒が低いことを過学習(Overfitting)という。
過学習
適度
訓練データ 検証データ
誤差0だが、ノイズを
学習してしまっている
ノイズの出⽅は検証データでは
異なるので良い予測ではない
汎化能⼒が⾼い
(本来は知り得ない⾚実線に近い)
学習時に誤差は残っているが・・・
23
出典: https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-learning-ai/
昨今、⼈⼯知能、Deep Learningという⾔葉が流⾏っているが、機械学習は⼈⼯知能の⼀分野。
Deep Learningは機械学習のモデルの⼀つ。前出のNNモデルを⼤規模かつ複雑に構成したもの。
Deep Learningというモデル
を使って教師あり
学習で画像分類を⾏う、
ということができる。
※ ⼈⼯知能とは︖については⼈⼯知能学会の記事「教養知識としてのAI 〔第1回〕AIってなに︖」も参考。
https://www.ai-gakkai.or.jp/comic_no1/
⼈は新たな知識や経験から学
習を⾏う。コンピュータは
データをインプットして学習
を⾏う。学習はインプットに
対するアウトプットのパター
ン検知とも考えられる。
⼈⼯知能、機械学習、Deep Learning
24
https://www.pfmjournal.org/m/journal/view.php?number=32
Top 5 Prediction
画像分類タスク
この頃から⼈間の
確認結果を超えた︕
Deep Learningの出現と分類精度向上の歴史
Deep Learningの何がすごいか
Deep Learningの出現で予測精度が急激に向上し、⼈間の結果を超えるまでに。
http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf
25
特に画像解析の分野で様々な応⽤例が登場しています。
Deep Learningの応⽤例
26
object detection
https://medium.com/ilenze-com/object-detection-using-deep-learning-for-advanced-users-part-1-183bbbb08b19
segmentation
https://medium.com/@jonathan_hui/image-segmentation-with-mask-r-cnn-ebe6d793272
image generation
https://towardsdatascience.com/progressively-growing-gans-9cb795caebee
style transfer
http://bethgelab.org/research/machine_learning/style_transfer/
Image Colorization
https://fstoppers.com/video/how-amazing-colorization-black-and-white-photos-are-done-5384
Image Synthesis
https://medium.com/@jonathan_hui/gan-whats-generative-adversarial-networks-and-its-application-f39ed278ef09
27
参考︓Deep Learningの応⽤例 出典
従来のプログラミングによるソリューションと機械学習の違い
出典: "Differences between machine learning and software engineering"
https://futurice.com/blog/differences-between-machine-learning-and-software-engineering
従来のプログラミングは、
ルールをコーディングすることで、
タスクを⾃動化する。
機械学習では、
正解データ(教師データ)を与えることで、
ルールの⽣成を⾃動化し、
タスクを⾃動化する。
従来のプログラミングも⼈間が達成したいタスクを⾃動化していると⾔えるが、その違いは⾃動化
ルールの作り⽅。
28
機械学習の限界と有効活⽤
! Deep Learningの分類問題では⼈間の認識精度を上回る結果を残
すものもあり、⾮常に有⼒な技術
! 現時点でビジネスでの活⽤が始まっているのは教師あり学習が主
! そのため教師ラベルを⼈間が⽤意してあげる必要がある
! どのような問題を解きたいか、問題設定も⼈間がしっかり⾏うこ
とが必要
! 機械学習が利⽤しやすいデータを揃えることも重要
機械学習は有⼒な技術であるが、⼈間が何もしなくても問題を解いてくれる魔法ではない。特性を知
りうまく活⽤することが肝要。
29
参考︓機械学習の精度指標 適合率(precision)
異常検知を例にとると、異常判定した内容のうち、本当に異常だったものの⽐率のこと。
この精度が悪いと、機械学習モデルに通知されたものに間違いが多い印象をもってしまう。
(オオカミ少年的事象の発⽣)
適合率(precision) =
緑の領域
緑点線枠の領域
正常データ
異常と判定
誤って
異常と判定
正常と判定
正しく
異常と判定
異常
データ
緑点線枠で表される異常判定された
数を分⺟、緑で表される正しく異常
と判定された数を分⼦として計算
された値がprecision
異常と判定
誤って
異常と判定
正しく
異常と判定
適合率(precision)
30
参考︓機械学習の精度指標 再現率(recall)
異常検知を例にとると、本当に異常があるのデータのうち、異常と判定されたものの⽐率のこと。
この精度が悪いと異常を⾒逃すことが多いということになる。例えば、がん検診などは⾒逃してしま
うと⾮常に良くないので、この精度指標が⼤事ということになる。
⾚実線枠で表される
真に異常が発⽣して
いる数を分⺟、緑で
表される正しく異常
と判定された数を分
⼦として計算された
値がrecall
再現率(recall) =
緑の領域
⾚実線枠の領域
正常データ
異常と判定
誤って
異常と判定
正常と判定
正しく
異常と判定
異常
データ
正しく
異常と判定
異常
データ
再現率(recall)
31
32
項⽬
01|⾃⼰紹介
02|データサイエンティストと機械学習
03|データ分析コンテスト
04|仕事におけるデータ分析
Kaggle SIGNATE
世界最⼤のデータ分析コンテスト。700万⼈以上が登録し、
16万⼈以上が実際にコンテストに参加実績がある。
世界中からデータサイエンティストが集う。
⽇本のデータ分析コンテスト。⽇本語で提供されており、
国や⽇本企業からの出題も。
広く知られているデータ分析コンテストには下記の2つがある。データマイニング学会 KDDが主催
するKDD CUPも有名。最近は個別の企業がコンテストを開催することも。
https://www.kaggle.com/ https://signate.jp/
33
データ分析コンペティション
主催者より分析対象データが提供され、コンペティションベンダーが運営。参加者は⾃由に参加でき、
作成した予測モデルの予測精度を競う。最終⽇の精度スコアに基づき、順位・⼊賞者を決定。
主催者
(データオーナー)
コンペティション
ベンダー
(Kaggle)
コンペティション
サーバー
!コンペティション情報ページ公開
!データ公開
!モデル評価サーバー提供
コンペティション
参加者
予測モデル作成
! 結果提出/評価
! リーダーボード(ランキング表)へ
の結果反映
! データ提供 ! コンペティション概要取得
! データダウンロード
! 予測モデル構築
! Kaggleでは、サーバー上で
Notebookやスクリプトが書ける
クラウド環境も提供
トップデータサイエンティ
ストに分析してほしい
結果の提出
ダウンロード
34
データ分析コンペティションとは
リーダーボード(順位表)
どのくらい精度よく予測できているかが
スコア化され順位が⼀覧化される
コンペティション開催期間中リーダーボードと呼ばれる順位表が公開され、参加者は様々な実験を通じて
⾃分の順位をあげる取り組みを⾏う。
https://www.kaggle.com/c/home-credit-default-risk/leaderboard 35
教師あり学習のイメージ(コンペ編)
回答なし
問題集
⼈間の学習者
回答付き
問題集
⼈間が学習するときと同じようにまずは正解がある問題を解いて確認する。それで学習した結果を別
なデータで試し、正しく回答できているかを評価する。
⼈間の
学習
コンペ
学習
データ
機械学習モデル
評価
データ submit
サーバーで
スコアを計算
リーダーボード
回答がついている問題集で勉強
⇒ 機械学習モデルの学習
別な問題集を解く
⇒ 問題集まる覚えしてしまうと正解
できない。
回答シート
先⽣
答え合わせ
予測結果
予測精度
で順位付け
36
典型的なKaggleのコンペティションは2〜3ヶ⽉の開催期間。その間、参加者は様々な実験を⾏い
精度向上に励む。
時間
コンペティション
開始
コンペティション終了
順位確定
この⽇が終わった瞬間に
最終順位が確定︕
最終スコア
確定
⼊賞者
順位 ユーザ名 スコア 応募件数 投稿⽇時
1 user_001 0.834 48 2018/4/26 20:07
2 Kenmatsu4 0.812 95 2018/4/26 20:40
3 user_002 0.807 2 2018/4/23 14:37
4 user_003 0.798 84 2018/4/26 20:05
5 user_004 0.791 40 2018/4/24 22:58
6 user_005 0.791 6 2018/4/26 21:22
7 user_006 0.790 14 2018/4/25 21:03
…
…
…
…
…
Private Leader Board
@コンペティションサーバー
リーダーボードに全参加者の
精度スコアがランキングで表⽰される
⼀般的には2〜3ヶ⽉
この期間でモデルを構築、サブミットして実験する
Home Creditコンペのスコア推移
これは上位16チームの
スコアの軌跡をグラフ化したもの
(これが7190チーム分存在)
37
コンペティションのタイムスケジュール
38
https://www.kaggle.com/progression
Master
Expert
Novice
Contributor
234⼈ (0.1%)
1,620⼈ (1.0%)
6,946⼈(4.6%)
62,507 ⼈(38.5%)
90,914⼈(56.0%)
SS
S
A
B
Grandmaster
Performance Tiers
Grandmaster
Master
Expert
https://dena.ai/kaggle/
Competition Medals
コンペの成績によって以下の称号がある。DeNAでは成績により業務の⼀部でKaggleができる制度あり。
Kaggleのコンペに参加経験のある⼈数より (2021年8⽉現在)
38
Kaggleのランク制度
⽇本での実績 SIGNATE
! 産業技術総合研究所 衛星画像分析コンテスト 2位⼊賞 https://www.slideshare.net/matsukenbook/signate-108228406
⾦メダル1つ、銀メダル7つ(ソロ4つ、チーム3つ) 2021年8⽉現在 168,142⼈中 614位 (top 0.4%)
39
私のKaggle戦歴
データ
種類
予測
ターゲット
参加
チーム数
Google Smartphone
Decimeter Challenge
位置情報
CommonLit Readability
Prize
⾔語
SETI Breakthrough Listen -
E.T. Signal Search
信号
データ
回帰
回帰
分類
810
teams
3633
teams
768
teams
Cassava Leaf Disease
Classification
画像 分類
3900
teams
最近開催されたコンペから5つのコンペを紹介する。
RANZCR CLiP - Catheter and
Line Position Challenge
画像
概要
スマートフォンのGPSデータなどから⾞両位
置を推定する。
与えられた英語の⽂章の「読みやすさ」が
スコア化されており、その値を予測する。
地球外知的⽣命体探査の⼀環で宇宙から受
信した信号に異常な信号があるかを特定す
る。(シミュレーションデータ)
キャッサバ(タピオカに使われる芋)の葉の画
像から、病気の有無と病気であればその種
別を分類する。
胸部X線写真から、カテーテルの挿⼊位置が
正常か異常かを判定する。
分類
1547
teams
40
Kaggleコンペ例
41
項⽬
01|⾃⼰紹介
02|データサイエンティストと機械学習
03|データ分析コンテスト
04|仕事におけるデータ分析
AIサービス開発の実際
〜 DRIVE CHARTを例にとって 〜
DRIVE CHARTとは https://drive-chart.com/
交通事故の削減を⽬指し、安全を脅かす様なドライバーの運転の癖や⾏動をAIが検出し、
運転⾏動の改善へと導くサービス。
43
https://www.youtube.com/watch?v=QADpZ50YfXA
DRIVE CHART紹介ビデオ
44
内側向きカメラを⽤いた脇⾒検出、外側向きカメラを⽤いた⾞間距離不⾜検出などに活⽤しています。
DRIVE CHARTにおけるDeep Learning画像認識の活⽤
45
イベント検出モデル
急加速
急減速
急ハンドル
⼀時不停⽌
速度超過
⾞間距離不⾜
脇⾒
急後退
Object
Detection結果
Lane
Detection結果
エッジデバイス クラウドサーバー クライアント
レポート表⽰
データ
ベースや
S3
地図
マップマッチ
リアルタイム警報📣
脇⾒警報
外カメ画像
FaceLandmark
検出結果
E2E
脇⾒結果
内カメ画像
深層学習
モデル
メール通知
衝撃検知
衝突警報
センサー
加速度センサ、
ジャイロセンサ
GPS
システム構成
エッジデバイスで得られたデータやAIの推測結果をサーバーに集め、イベント検出を⾏い顧客にレポート
提供。
46
実サービスへ機械学習の応⽤する際のポイント
• 現在の技術で実現可能なことを⾒極めつつ、機械学習モデルが提⽰
したもので良い⽅に⾏動を変えることができるようなターゲットを
選定する。(ただ情報を受け取るだけで活⽤できないと意味が薄
い)
⇒ DRIVE CHARTではドライバーの安全運転への⾏動変容を促す
• 顧客にとって良い体験につながる精度の追求。DRIVE CHARTでは、
提⽰されるイベント・警報が間違っていないことがサービスの信頼
につながる(専⾨的にはprecisionと呼ばれる精度の追求)
⇒ 間違いが多いと使ってくれなくなる
47
EOF

データサイエンティストの仕事とデータ分析コンテスト