Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Takami Sato
PDF, PPTX
9,760 views
Kaggle&競プロ紹介 in 中田研究室
口頭発表メインで自分へのキュー出し目的資料なので、中身は薄いですが一応upload
Data & Analytics
◦
Read more
9
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 36
2
/ 36
Most read
3
/ 36
4
/ 36
5
/ 36
6
/ 36
7
/ 36
8
/ 36
9
/ 36
10
/ 36
11
/ 36
12
/ 36
13
/ 36
14
/ 36
15
/ 36
16
/ 36
17
/ 36
18
/ 36
Most read
19
/ 36
20
/ 36
21
/ 36
22
/ 36
23
/ 36
24
/ 36
25
/ 36
26
/ 36
27
/ 36
28
/ 36
29
/ 36
30
/ 36
Most read
31
/ 36
32
/ 36
33
/ 36
34
/ 36
35
/ 36
36
/ 36
More Related Content
PDF
強化学習その1
by
nishio
PDF
バンディットアルゴリズム入門と実践
by
智之 村上
PDF
不均衡データのクラス分類
by
Shintaro Fukushima
PPTX
バンディット問題について
by
jkomiyama
PDF
論文紹介:Dueling network architectures for deep reinforcement learning
by
Kazuki Adachi
PPT
Gurobi python
by
Mikio Kubo
PDF
組合せ最適化入門:線形計画から整数計画まで
by
Shunji Umetani
PDF
変分推論と Normalizing Flow
by
Akihiro Nitta
強化学習その1
by
nishio
バンディットアルゴリズム入門と実践
by
智之 村上
不均衡データのクラス分類
by
Shintaro Fukushima
バンディット問題について
by
jkomiyama
論文紹介:Dueling network architectures for deep reinforcement learning
by
Kazuki Adachi
Gurobi python
by
Mikio Kubo
組合せ最適化入門:線形計画から整数計画まで
by
Shunji Umetani
変分推論と Normalizing Flow
by
Akihiro Nitta
What's hot
PDF
Control as Inference (強化学習とベイズ統計)
by
Shohei Taniguchi
ZIP
今さら聞けないカーネル法とサポートベクターマシン
by
Shinya Shimizu
PDF
混合モデルとEMアルゴリズム(PRML第9章)
by
Takao Yamanaka
PDF
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
by
Takami Sato
PDF
強化学習その3
by
nishio
PDF
線形?非線形?
by
nishio
PDF
Union find(素集合データ構造)
by
AtCoder Inc.
PDF
大規模グラフアルゴリズムの最先端
by
Takuya Akiba
PDF
整数計画法に基づく説明可能性な機械学習へのアプローチ
by
Kentaro Kanamori
PDF
XGBoostからNGBoostまで
by
Tomoki Yoshida
PDF
パターン認識と機械学習入門
by
Momoko Hayamizu
PDF
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
PDF
深層生成モデルと世界モデル(2020/11/20版)
by
Masahiro Suzuki
PDF
直交領域探索
by
okuraofvegetable
PDF
Jubatus Casual Talks #2 異常検知入門
by
Shohei Hido
PDF
Ml system in_python
by
yusuke shibui
PPTX
海鳥の経路予測のための逆強化学習
by
Tsubasa Hirakawa
PPTX
劣モジュラ最適化と機械学習1章
by
Hakky St
PPTX
[DL輪読会]逆強化学習とGANs
by
Deep Learning JP
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
Control as Inference (強化学習とベイズ統計)
by
Shohei Taniguchi
今さら聞けないカーネル法とサポートベクターマシン
by
Shinya Shimizu
混合モデルとEMアルゴリズム(PRML第9章)
by
Takao Yamanaka
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
by
Takami Sato
強化学習その3
by
nishio
線形?非線形?
by
nishio
Union find(素集合データ構造)
by
AtCoder Inc.
大規模グラフアルゴリズムの最先端
by
Takuya Akiba
整数計画法に基づく説明可能性な機械学習へのアプローチ
by
Kentaro Kanamori
XGBoostからNGBoostまで
by
Tomoki Yoshida
パターン認識と機械学習入門
by
Momoko Hayamizu
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
深層生成モデルと世界モデル(2020/11/20版)
by
Masahiro Suzuki
直交領域探索
by
okuraofvegetable
Jubatus Casual Talks #2 異常検知入門
by
Shohei Hido
Ml system in_python
by
yusuke shibui
海鳥の経路予測のための逆強化学習
by
Tsubasa Hirakawa
劣モジュラ最適化と機械学習1章
by
Hakky St
[DL輪読会]逆強化学習とGANs
by
Deep Learning JP
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
Similar to Kaggle&競プロ紹介 in 中田研究室
PPTX
For MANABIYA
by
ssuserafaae8
PDF
Devsumi 2018summer
by
Harada Kei
PDF
Kaggleのテクニック
by
Yasunori Ozaki
PPTX
研究室勉強会資料「データ分析チュートリアル」
by
ymmt3-lab
PPTX
関西Kaggler会LT~内輪コンペ・チーム参加によるKaggle能力向上~.pptx
by
1984bunacchiFC
PPTX
パネルディスカッション:データサイエンスの競技者、 Kagglerたちが活躍する職場とは [DeNA TechCon 2019]
by
DeNA
PDF
Kaggleで学ぶ機械学習
by
m-shimao
PDF
データ分析コンペでスキルアップしよう.pdf
by
H. K
PPTX
初心者のみるべきNotebookの探し方
by
yukihira2
PDF
Quoraコンペ参加記録
by
Takami Sato
PDF
Kaggle
by
卓馬 三浦卓馬
PDF
20150421 日経ビッグデータカンファレンス
by
Akira Shibata
PDF
最近の俺_20160219
by
Harada Kei
PPTX
Presentation 1
by
LINKBAL2018
PDF
Slide
by
MasatoSuzuki17
PDF
20211101 softwaredesign 30 kitazaki
by
Ayachika Kitazaki
PPTX
20170707 rでkaggle入門
by
Nobuaki Oshiro
PDF
できない英語を駆使してKaggleに挑戦してみた
by
Keisuke Tokuda
For MANABIYA
by
ssuserafaae8
Devsumi 2018summer
by
Harada Kei
Kaggleのテクニック
by
Yasunori Ozaki
研究室勉強会資料「データ分析チュートリアル」
by
ymmt3-lab
関西Kaggler会LT~内輪コンペ・チーム参加によるKaggle能力向上~.pptx
by
1984bunacchiFC
パネルディスカッション:データサイエンスの競技者、 Kagglerたちが活躍する職場とは [DeNA TechCon 2019]
by
DeNA
Kaggleで学ぶ機械学習
by
m-shimao
データ分析コンペでスキルアップしよう.pdf
by
H. K
初心者のみるべきNotebookの探し方
by
yukihira2
Quoraコンペ参加記録
by
Takami Sato
Kaggle
by
卓馬 三浦卓馬
20150421 日経ビッグデータカンファレンス
by
Akira Shibata
最近の俺_20160219
by
Harada Kei
Presentation 1
by
LINKBAL2018
Slide
by
MasatoSuzuki17
20211101 softwaredesign 30 kitazaki
by
Ayachika Kitazaki
20170707 rでkaggle入門
by
Nobuaki Oshiro
できない英語を駆使してKaggleに挑戦してみた
by
Keisuke Tokuda
More from Takami Sato
PDF
AAをつくろう!
by
Takami Sato
PDF
最適化超入門
by
Takami Sato
PDF
Overview of tree algorithms from decision tree to xgboost
by
Takami Sato
PDF
Scikit learnで学ぶ機械学習入門
by
Takami Sato
PDF
NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manif...
by
Takami Sato
PDF
Kaggle Santa 2019で学ぶMIP最適化入門
by
Takami Sato
PDF
High performance python computing for data science
by
Takami Sato
PDF
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
by
Takami Sato
PDF
Data Science Bowl 2017Winning Solutions Survey
by
Takami Sato
PDF
Word2vecで大谷翔平の二刀流論争に終止符を打つ!
by
Takami Sato
PDF
セクシー女優で学ぶ画像分類入門
by
Takami Sato
AAをつくろう!
by
Takami Sato
最適化超入門
by
Takami Sato
Overview of tree algorithms from decision tree to xgboost
by
Takami Sato
Scikit learnで学ぶ機械学習入門
by
Takami Sato
NIPS2016論文紹介 Riemannian SVRG fast stochastic optimization on riemannian manif...
by
Takami Sato
Kaggle Santa 2019で学ぶMIP最適化入門
by
Takami Sato
High performance python computing for data science
by
Takami Sato
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
by
Takami Sato
Data Science Bowl 2017Winning Solutions Survey
by
Takami Sato
Word2vecで大谷翔平の二刀流論争に終止符を打つ!
by
Takami Sato
セクシー女優で学ぶ画像分類入門
by
Takami Sato
Kaggle&競プロ紹介 in 中田研究室
1.
Kaggle&競プロ紹介 in 中田研究室 @東京工業大学
工学院 経営工学系 水野・中田研究室 Takami Sato 2017/11/22Kaggle&競プロ紹介 1
2.
Kaggleとは? 2017/11/22Kaggle&競プロ紹介 2 • 与えられたデータに対して予測スコアを競う •
コンペ中に見れるデータの大体25%を使ったPublic LBと コンペ後に最終順位を決める大体75%を使ったPrivate LB
3.
現行Featuredコンペ紹介 (口頭) 2017/11/28Kaggle&競プロ紹介 3
4.
Kaggleとは? 2017/11/22Kaggle&競プロ紹介 4 議論を行うDiscussionや
5.
Kaggleとは? 2017/11/22Kaggle&競プロ紹介 5 PythonやRが実行出来るKernelが存在 http://blog.kaggle.com/2017/09/21/product-launch-amped-up-kernels-resources-code-tips-hidden-cells/
6.
Kaggleとは? 2017/11/22Kaggle&競プロ紹介 6 Rankingがあって 世界中のデータサイエンティストが殴り合ってる
7.
私がKaggle Masterです 2017/11/22Kaggle&競プロ紹介 7
8.
Kaggle Masterって? 世界に900人ぐらい、 2017/11/22Kaggle&競プロ紹介 8 大体
Top10が1回と、Top 10%が2回必要 Top 10に入るのは本当に難しい (Kernel MasterやDiscussion Masterはまた別)
9.
Kaggle Masterここが凄い! • 凄いところ! –
就活に有利! – どこに行っても話を聞いてもらえる – 肩書で殴れる • データ分析界隈必要スキルセットが曖昧なので諸々楽 • 凄くないところ! – データ分析の仕事が出来るようになるわけではない • よいKernelを作れる人は素質アリ 2017/11/22Kaggle&競プロ紹介 9
10.
今日の内容 中田先生から非常にレベルの高い学生と伺ったので・・・ 2017/11/22Kaggle&競プロ紹介 10 機械学習の初歩は飛ばして、 如何にコンペを戦ったか、 如何にスコアを上げたかを話します
11.
主に参加したコンペ • Bosch Production
Line Performance, 15th – センサー情報から製品ラインの不良品検知 • Quora Question Pairs, 17th – ある質問とある質問が同じ意味かを予測 • Instacart Market Basket Analysis, 15th – スーパーの再来訪時の再購入予測 2017/11/22Kaggle&競プロ紹介 11
12.
Bosch Production Line
Performance 2017/11/22Kaggle&競プロ紹介 12 センサー情報から製品ラインの不良品検知
13.
Bosch Production Line
Performance 2017/11/22Kaggle&競プロ紹介 13 センサー情報から製品ラインの不良品検知 一緒に参加したhskkskさんの資料から今日は抜粋 https://www.slideshare.net/hskksk/kaggle-bosch
14.
Bosch Production Line
Performance概要 2017/11/22Kaggle&競プロ紹介 14 • タスク – センサー情報から不良有無の0-1予測 – センサー値と測定時間がデータ • 評価指標(MCC) データが不均衡 なときに有効な 指標 ※閾値を決める必要アリ
15.
特徴量 2017/11/22Kaggle&競プロ紹介 15 特徴を全部文字列と思って、 ハッシュ値の頻度を使用 通過時間とセンサー値の組 み合わせを考慮 NULLが非常に多いデータで NULLのパターンを使用
16.
Bosch Production Line
Performance • 学習器はxgboostを使用 • このコンペではDartが上手く働いた • スタッキングやアンサンブルは試したけど、 上手く行かなかったのでシングルモデル 2017/11/22Kaggle&競プロ紹介 16
17.
Quora Question Pairs 2017/11/22Kaggle&競プロ紹介
17 https://www.kaggle.com/c/quora-question-pairs
18.
Quora Question Pairs 2017/11/22Kaggle&競プロ紹介
18
19.
Quora Question Pairs 2017/11/22Kaggle&競プロ紹介
19 https://www.slideshare.net/tkm2261/quora-76995457 過去に話した資料から抜粋して話します
20.
Publicスコアの推移 2017/11/29Kaggle&競プロ紹介 20 – ステージ0:
doc2vecの時代 (LB:0.5) – ステージ1: anokasさんカーネルの時代(LB:0.35) – ステージ2: word一致系の時代(LB:0.30) – ステージ3: Word Embeddingの時代(LB:0.25) – ステージ4: NLP特徴の時代(LB:0.2) – ステージ5: グラフの幕開け(LB: 0.13) – ステージ6: 倦怠期(LB: 0.13) – ステージ7: スタッキングの時代(LB: 0.122)
21.
ステージ4までの特徴量 2017/11/27Kaggle&競プロ紹介 21
22.
ステージ5: グラフの幕開け(LB: 0.13) 2017/11/22Kaggle&競プロ紹介
22
23.
人生の夢のひとつが叶った! 2017/11/22Kaggle&競プロ紹介 23
24.
Deep Learning系の特徴 無くても大丈夫だったが、手元では試していた 2017/11/22Kaggle&競プロ紹介 24 こんな感じでKernelでコードが共有されるので、 DNN興味あるけど手を出せてない人にKaggleはオススメ
25.
Instacart Market Basket
Analysis 2017/11/22Kaggle&競プロ紹介 25 買い物代行スーパーの再購入予測
26.
評価指標 2017/11/22Kaggle&競プロ紹介 26 mean F1
score ※提出ファイル例 購買なしのNoneも商品として提出出来るのが特徴
27.
特徴量 9割の特徴はBigQueryで作成 2017/11/22Kaggle&競プロ紹介 27 • ユーザ特徴 –
再購買率 – 訪問曜日割合 – ジャンル購買割合 – 来店間隔 – 最終来店からの日数 • 商品特徴 – 再購買率 – 曜日割合 • ユーザ×商品特徴 – ユーザ購買間隔 – 過去購買数 – 来訪時購買割合 – 購買間隔 – 過去購買日からの日数 – 同一カテゴリ購入からの日数 https://github.com/tkm2261/kaggle_instacart/blob/master/sql/ SQLは楽に分散大規模にデータを扱えるのでオススメ
28.
F1 score最大化 ユーザに商品を推薦するタスクなので、スコアの足切が必要 2017/11/22Kaggle&競プロ紹介 28 引用元:
Ye, N., Chai, K., Lee, W., and Chieu, H. Optimizing F-measures: A Tale of Two Approaches. In ICML, 2012. ICML2012の関連研究がFaronさんによって共有されて 皆のスコアが爆上がり
29.
The 3rd Place
Solution 2017/11/22Kaggle&競プロ紹介 29 • この人はほぼDNNだけで特徴を作成して3位 • 購買時系列に対してLSTMとWaveNetを適用 • TensorFlowで読み難いですが学習オススメ • 私はKerasに移植して使用中
30.
Kaggleで上位を狙うには • 最低限の機械学習知識 – Cross
Validationや評価関数 – 有名学習器の概要やハイパーパラメタ • データに向き合う – GBDTの登場やスタッキング等の技術が共有されて、 近年モデル面ではほぼ差がつかない – 大差がある場合は特徴に気づけていないので頑張る – あらゆる角度からデータを眺める • 長期戦を意識する – 大体3ヵ月戦うので、結構再現性を失う – コード管理や品質に気を配る – 根を詰めすぎずに楽しむ 2017/11/22Kaggle&競プロ紹介 30
31.
そもそも始め方がわからない人には。。。 2017/11/22Kaggle&競プロ紹介 31 Kaggle入門動画作ったから見てね https://youtu.be/NHQTw-ORcSQ
32.
Kaggler Slackもあるよ 2017/11/22Kaggle&競プロ紹介 32 https://kaggler-ja.herokuapp.com/
33.
おっさんからのアドバイス • 経営工学みたいなチャラい字面の学部出身のエンジニアは どこかで身の証を立てる必要がある – Kaggleや競技プログラミング等 •
ハッタリでOK。それで仕事とって経験積ば勝ち – 文系ウェーイ勢と同じ仕事をしますか? – メーカーに入っても生産管理系は閑職だったりする • 国際学会に投稿しよう – 経営工で取れるMEngはMSと異なり、研究能力があるとみなされない – リジェクトされてもarXivにあげておけば、 『英語でResearch活動が出来る』証明になり学位よりも役立つ – Kaggleもいいけど大学にいる間は研究のほうがコスパ高い • 英語をやろう – 年収が倍になる – 上達に時間がかかるので早いうちから – とりあえずTOEFLかIELTSを受けよう 2017/11/22Kaggle&競プロ紹介 33
34.
競技プログラミングの紹介 私は初心者ですが、前職は競プロガチ勢が多かったので紹介 2017/11/22Kaggle&競プロ紹介 34 • TopCoder –
言わずと知れた有名所 – TopCoder SRMに参加してスコアが上下 – ただし近年活動が停滞しており、存在が危ぶまれている • Codeforces – ロシアの競技プロサイト – 現状一番有名なのでとりあえず始めるならここ – 2週間に一回ぐらいで2時間ぐらいのコンテストが開催 • AtCoder – 日本の競技プロサイト – 日本語なのとサイトが安定 • Google Code Jam • CS Academy • CodeChef • Yukicoder
35.
競プロの種類 • 普通のコンテスト – 1~2時間で3~5問ぐらいを解く –
速く解くほど高得点 – DFS, BFS, DP, Queue, Stuck, Priority Queue, BTree等の アルゴリズムやデータ構造に詳しくなれる – 最初は『for文使える?』 ぐらいの難易度で始まるので安心 • マラソンマッチ – 数週間で問題のスコアを競う (ゲームAIを作る等) – 長期間戦うのでクラス設計なども重要 – 最適化の研究室にいるなら挑戦してみてはどうか 2017/11/22Kaggle&競プロ紹介 35
36.
おわり 2017/11/22Kaggle&競プロ紹介 36 https://www.slideshare.net/OwenZhang2/tips-for-data-science-competitions Owen Zhang氏の資料より金言
Download