For MANABIYA

Kaggleで変える
日本の機械学習活用

自己紹介
1
大越拓実(@takuoko1)
株式会社キスモ取締役
神奈川県出身、名古屋大学卒。大学で統計学、機械学習を専攻。
受賞歴（Kaggleにて下記含め6つの受賞経験を持ち、Kaggle masterの称号を持っている。）
Home Credit Default Risk 2nd place (Gold medal)
Avito Demand Prediction Challenge 7th place (Gold medal)
杏林大学と医学領域における画像認識技術の共同研究にも参画し、EWMA2018で
研究成果が発表されている。

キスモとはどんな会社ですか
Our Mission
世の中のあらゆる場所に、
人の役に立つAIを導入する
2
事業領域を限定せず、AIを開発する
名古屋大学公認ベンチャー

キスモの実績はどうですか
医療、製造業、金融、放送業界をはじめ、多岐に渡ります。
3
主要取引先・パートナー

テーマ
4
データ分析に興味がある人にKaggleをやりたいと思ってほしい！

アジェンダ
 Kaggleとは
 Kaggleと研究と仕事
 Kaggleで学んだこと
 まとめ
5

アジェンダ
 Kaggleとは
 まとめ
6

Kaggleとは
7
https://www.kaggle.com/
機械学習を用いたデータ分析の世界大会が開かれるプラットフォーム
データ分析の天下一武道会
🐉

Kaggleとは
8
 登録者全世界200万人
 コンテスト参加者約9万人
 上からGrandmaster, Master, Expert, Contributor, Noviceとラン
クがあり、それぞれの人数は図の通り
*いずれも2018年10月9日現在

Kaggleとは
9
データ&テーマ
• 企業がKaggleに
データとテーマを
提供
• 医療、マーケティ
ング、金融など多
岐にわたる
コンペ開催
• 期間は1~3ヶ月
順位&賞金
• スコアで順位が
決まる
• 上位者には賞金。
総額100万円~1
億円オーバーの
ものまで

Kaggleとは
10
 Overview-分析テーマや評価方法
 Data-データの説明
 Kernels-参加者がコードを公開している
 Discussion-参加者が様々なテーマについて議論している
 Leaderboard-順位が見れる

Kaggleとは
11
Overview
様々な情報から家の
価格を予測する。

Kaggleとは
12
Data
データファイルや説
明変数、目的変数の
説明。

Kaggleとは
13
Kernels
参加者がスクリプト
を公開。
EDAやFeature
Engineeringの参考に
なる。
(めちゃ勉強になる)

Kaggleとは
14
Discussion
参考になる論文や精度
向上に貢献したアプ
ローチ、データの見方
など様々なテーマで議
論が行われる場。
(めちゃ勉強になる)

Kaggleとは
15
Leaderboard
順位とそのスコアが
確認できる。

Kaggleとは
16
機械学習を用いたデータ分析の世界大会が開かれるプラットフォーム
データ分析の天下一武道会
🐉

Kaggleとは
 天下一武道会に名を連ねる強者達
17
Giba, bestfitting
世界ランキング1位, 2位。
まじで強い。
ケロッピ先生
画像系のコンペで知見を
どんどん共有してくれる。
しかもめちゃ上位とってくる
CPMP
Discussion(いわゆる掲
示板)にめちゃ投稿する。
Discussionランキング1
位(もちろんコンペも強
い。)
24時間掲示板に張り付
いているのではとの噂
も。

Kaggleとは
18
世界各国の個性豊かなデータサイエンティストが
参加している

アジェンダ
 Kaggleとは
 まとめ
19

Kaggleと仕事
 データ分析とは
20
データ
無数のアプローチ
前処理/モデリング/後処理
結果

Kaggleと仕事
21
手札の数-いかに無数のアプローチのバリエーションを持つか
どの手札を切るか-そこから限られた時間に何を選択して実施するか
データ
結果

Kaggleと仕事
22
Kaggleをやることで手札の数、どの手札をどの速さで切れるか、
それがどのくらい有用そうか当たりをつける、という部分が得られる。
もちろん、Kaggleで使ったコードを持っておくことで手札を切るスピード
も格段に上がる。
データ
結果

Kaggleと仕事
23
😆Kaggleをすると
😭普通は
手札がすごくなる
データ
結果

Kaggleと仕事
24
Kaggleをすることで手札が増えて、強いデータ分析ができる！

Kaggleの良さ
25
経験
画像、テキスト、テーブルデータ
金融、医療、マーケティングなど
幅広いデータを分析でき、それが
経験値として溜まっていく。
知識
論文やdiscussion, kernel,
自分で立案したアイデアを
手を動かしながら試すことが
でき、それが自分の知識となる。
実践ベースで学べるのが大きい。
コード
Kaggleで実装したコードは、
そのまま仕事に転用できる
財産になる。

Kaggleの良さ
26
現状把握
結果が順位として現れるので、
自分の立ち位置を把握できる。
上に人がたくさんいれば、まだ
足りない要素がある。
給与、信頼
定量的な評価ができるので、
いい結果を残せばそれだけ給与
に反映される。
また、対外的な信頼の証明にも
なる。
楽しさ
純粋にゲーム性があり、
日々新しい知識も得られ
るので楽しい。

Kaggleの良さ
27
Kaggleをすることで、経験、知識、資産、信頼など、
多くのことが得られる！
しかも楽しい！

Kaggleと仕事
28
ここまで、Kaggleの良さはなんとなくわかった。
では、Kaggleをどのように仕事に結びつけているのか？

今の自分の働き方
29
Kaggleする
実務はKaggleで過去
にやった方法を転用

今の自分の働き方 Kaggle->仕事
30
例：セグメンテーション

31
前処理
resizeの関数、自作generator
(cutoutやshearなど入ってる)、
CLAHEなどの前処理をkaggleで
実装済み。
augmentation手法は実装済み
generatorを使って実験が回せる。
モデリング
多種多様なEncoderを持つUnet,その他
セグメンテーショモデルを実装済み。
iouなどの評価関数やlovasz loss, dice
lossも実装済み。
scseモジュールやhyper columnsの実装
も持っており、これらを使って実験が
回せる。
後処理
セグメンテーションの結果を
可視化して確認する部分や、
thresholdの設定、CRFなど
の後処理スクリプトを実装済
み。

32
様々なaugmentation×様々なモデル×loss関数×プラスα
flip
zoom
rotate
add
noise
cutout
shear
etc…
Vanila Unet
VGG Unet
ResNet Unet
ResNeXt Unet
DenseNet unet
Inception unet
Inception ResNet Unet
Linknet
PSPNet
SegNet
Tiramisu
etc…
bce
bce dice
focal loss
lovasz loss
etc…
scseモジュール
hyper columns
cyclic learning rate
etc…
これらを高速に回せるようになった！

研究、kaggle、仕事の違い
33
Kaggle
なんでもありの殴り合い。
最新の研究成果、過去のコンテスト
の手法、使えるものは全て使う。
精度向上のためならアンサンブルも
どんどんする。
が、シングルモデルの性能も同時に
追求する。
研究
“新しい何か”を使って成果を出す。
新規性こそが重要。
仕事
使えるものはなんでも使って良
い。
精度も高い方が良い。
ただ、計算資源の制約が強く、
説明性が求められることも多い。

仕事、研究、Kaggleはそれぞれ違いがあるが、通じるものはある。
34

研究、kaggleが仕事に活きる部分
35
Kaggle
素早くベンチマークを構築する。
限られた資源、いくつかの制約の
中で精度を高める。
データのバリデーションを適切に
切る(*後述)。
研究
新しいアイデアを組み込むこと
で精度向上を目指す。
それが実現すれば優位性になる。
先行研究をリサーチして、それ
を組み込む能力もとても重要。
仕事
そもそもデータ分析、データに詳しくなれる

仕事においてもKaggle力は重要な要素である。
36

Kaggleをしてからの変化
 分析系の仕事が圧倒的に速くなった
 時間の使い方が変わった
 適切なバリデーションを設定できるようになった
 分析の精度がどれくらい出るかの不確実性を減らせるようになっ
た
37

た
38

分析系の仕事が圧倒的に速くなった
39
Kaggleをしてからは
・先述の通りコードは転用。これによりベンチマーク構築、
実験は高速化。
・コードが動作しない。Lossが減らないなどの問題はほと
んど起きない。
以前は
・タスクに対して一連のスクリプトを0から実装。
・転用できるコードがないか調べて動かす。(多くは動かない)
・うまくいかない部分はデバックしつつ、1つ1つ手動で試して
解決

分析系の仕事が圧倒的に速くなった
40
時間のロスが確実に減り、体感で何十倍も高速化。

た
41

時間の使い方が変わった
42
以前は
・仕事の時間を長く取る。
・知識も仕事をやって初めて得られる。
・仕事の時間を短くした。(タスクを速くこなせるので可能)
・その分、Kaggleに時間を割くようになった。
->午前中仕事、午後Kaggleという生活スタイルが定着。
・知識はKaggleで初めて得られ、それを仕事で使う。

た
43

適切なバリデーションを設定できるようになった
44
以前は
・train test splitでランダムに分割。
・Kfold, Stratified Kfold, Group Kfoldを適切に使い分ける。

適切なバリデーションを設定できるようになった
45
StratifiedKfoldKfold
Target=0 Target=1
train 70% 30%
val 55% 45%
Targetの分布が異なる可能性がある
Target=0 Target=1
train 60% 40%
val 60% 40%
Targetの分布を均一にする
GroupKFold
同じユーザーとか同じグループの人が
trainとvalに分かれることで、予測しや
すくなりすぎるのを防ぐ。

た
46

不確実性を減らせるようになった
47
最適な方法を取った時の性能目標とする性能
スコア 0.8 0.9
ここの差はやってみるまでわからない 😖
データ分析はやってみる
までどれくらい精度が出
るかわからない。

不確実性を減らせるようになった
48
その人が出せた性能最適な方法を取った時の性能目標とする性能
スコア 0.5 0.8 0.9
😰できなかった
😉Kaggleでやったことがあれば
その人が出せた性能最適な方法を取った時の性能目標とする性能
スコア 0.75 0.8 0.9
ここの不確実性は減らせる

アジェンダ
 Kaggleとは
 まとめ
49

Kaggleで学んだこと
50
Kaggleをすることでどういうことが身についたのか。
どういう手札を持てたのか。

 EDA(探索的データ分析)
 いわゆるデータの可視化から気づきを得る部分
51
例：t-SNEによる可視化
図のように綺麗に分かれている場合は予測性能が高くなる
(こんな例は普通ないが)。
また、分布が入り組んでいる場合はダウンサンプリングがしにくいや、
TrainとTestで分布が全然違うとかもわかる。
参考： https://www.kaggle.com/c/home-credit-default-risk/discussion/58174

 テーブルデータの特徴量整形(ここはたくさんあるので一部抜粋)
 Agg系
 Target Encoding
 モデルベース系
52
Agg系
カテゴリーに対して値を埋め込む。
例：男性の購入金額の平均
食料品の価格の平均
Target Encoding
カテゴリーに対して
Targetの値を埋め込む。
例：自営業の人のTarget平均
モデルベース系
欠損値が多い重要な特徴
の値を他の特徴から予測。
その他にも、このデータではこういう特徴を使ったみたいなものがあるので、特徴量整形の手札は
爆発的に増える。

 テーブルデータのモデリング
 LGBMすげえ
 アンサンブルのためのモデル
 アンサンブル(averaging、stacking, stacknet)
 パラメータ調整(ベイズ最適化)
53
LGBMすげえ-KDD Cup4位の解放パラメータ調整
LGBMは特にパラメータで結果が
大きく変わることが多い。
適切なパラメータをいかに自動で
探索するか。
->ベイズ最適化

 画像データの水増し
 imgaug https://github.com/aleju/imgaug
 Keras Generatorの自作
 mixup, cutout, random erasing, shear
54
自作generator

 画像モデリング(Segmentation)
 Unet, ResnetベースのUnet
 Segmentation models https://github.com/qubvel/segmentation_models
 SE module https://www.kaggle.com/c/tgs-salt-identification-
challenge/discussion/66178#392393
 hypercolumns
 focal loaa, lovasz loss
 TTA
55
SE module 2017年のILSVRCの優勝モデル TTA
テスト時にaugumentationを行い、
精度を向上させる。
lovasz loss
先のセグメンテーションコンペ
で大きく精度向上に貢献したloss。
BCEで最適化した後に使用してboost
させた。

 テキスト前処理
 Word2vec, embedding(Glove, fasttext)
 char level BOW
http://kysmo.hatenablog.jp/entry/2018/07/31/164118
56
char levelEmbedding, word2vec

 テキストモデリング
 Attention
 Sparse NN
 Concat(Max Pooling, Avg Pooling)
57
Sparse NN
BOW->NN
自分がやったデータでは
精度はRNN系より下だったが、
アンサンブルで効果あり。
Attention
テキスト系のコンペでは精度が
向上した。
画像でも使われている研究が
あったのでテストしようと
思っている。

 まとめ
 様々な方法を実践的に学べる
 手札が増える
58

アジェンダ
 Kaggleとは
 まとめ
59

まとめ
 Kaggleとは
 データ分析の天下一武道会
 仕事に役立つ
 とってもいいからみなさんにもぜひ始めてほしい！
60

Kaggleを始めたいという人へ
 kaggler-ja https://kaggler-ja.herokuapp.com/
 日本版kaggle slack。3000人を超える人が参加していて、いろいろな質問
に経験者が答えてくれる。
 とりあえずやってみる
 最初はkernelのコードをちょっと変えたりしながら順位が上がった下がっ
たを楽しむ。
 だんだんdiscussionを見たり、自分のアイデアを組み込んだりして、より
高い順位を目指していく。
61

これからやっていきたいこと
 Kaggleを活用しながら日本の機械学習活用を進めたい
 機械学習、データ分析はやってみなければ精度がわからないというのがど
うしてもある。
 そこで、Kaggleを使って手札をたくさん用意しておき、それを高速に展開
することで、とりあえずやってみる(PoC)という部分の手助けをしたい。
 そして、多くの会社に機械学習、データ分析を活用してほしい。
62

締め
 “Keep improving” by CPMP
63

地に足ついたデータ分析をリードする。
お見積もり、お問い合わせはこちらまで。
https://kysmo.tech
info@kysmo.tech

For MANABIYA

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to For MANABIYA

Similar to For MANABIYA (20)

For MANABIYA

Editor's Notes