Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Yurie Oka
8,881 views
R+pythonでKAGGLEの2値予測に挑戦!
8/31 TokyoR LT #補足 平均値をとってスコアがあがるパターンもあります。
Read more
20
Save
Share
Embed
Embed presentation
Download
Downloaded 60 times
1
/ 20
2
/ 20
3
/ 20
4
/ 20
5
/ 20
6
/ 20
7
/ 20
8
/ 20
9
/ 20
10
/ 20
11
/ 20
12
/ 20
13
/ 20
14
/ 20
15
/ 20
16
/ 20
17
/ 20
18
/ 20
19
/ 20
20
/ 20
More Related Content
PDF
Rnn+lstmを理解する
by
Arata Honda
PDF
現在のDNNにおける未解決問題
by
Daisuke Okanohara
PDF
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
by
YujiKobayashi7
PDF
デジタル信号処理をDSP入札に応用
by
Hiroki Nigorinuma
PDF
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
by
Yusuke Kaneko
PPTX
クリスマス?
by
sasenomura
KEY
FDRの使い方 (Kashiwa.R #3)
by
Haruka Ozaki
PDF
GCEをTensorFlowの「計算エンジン」にする
by
Kiyoshi SATOH
Rnn+lstmを理解する
by
Arata Honda
現在のDNNにおける未解決問題
by
Daisuke Okanohara
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
by
YujiKobayashi7
デジタル信号処理をDSP入札に応用
by
Hiroki Nigorinuma
効果のあるクリエイティブ広告の見つけ方(Contextual Bandit + TS or UCB)
by
Yusuke Kaneko
クリスマス?
by
sasenomura
FDRの使い方 (Kashiwa.R #3)
by
Haruka Ozaki
GCEをTensorFlowの「計算エンジン」にする
by
Kiyoshi SATOH
Viewers also liked
PDF
できない英語を駆使してKaggleに挑戦してみた
by
Keisuke Tokuda
PDF
ロジスティック回帰の考え方・使い方 - TokyoR #33
by
horihorio
PDF
RcppEigen and SVD
by
Xiangze
PDF
Doradora09 lt tokyo_r33
by
Nobuaki Oshiro
PDF
相関係数と決定係数~回帰係数とその不偏性も
by
T T
PDF
因子分析
by
Mitsuo Shimohata
PPTX
Tokyo r33 beginner
by
Takashi Minoda
PDF
21世紀の手法対決 (MIC vs HSIC)
by
Toru Imai
PDF
とある金融屋の統計技師が時系列解析してみた
by
Nagi Teramo
PDF
Rで計量時系列分析~CRANパッケージ総ざらい~
by
Takashi J OZAKI
PDF
Tokyo R LT 20131109
by
tetsuro ito
PPTX
ニコニコ動画タグネットワーク
by
Teruki Shinohara
PPTX
偽相関と偏相関係数
by
Teruki Shinohara
PPTX
Fluentd,mongo db,rでお手軽ログ解析環境
by
Michitaka Iida
PDF
Collaborativefilteringwith r
by
Teito Nakagawa
PDF
rzmq
by
Masayuki Isobe
PDF
Extend R with Rcpp!!!
by
mickey24
PDF
第31回TokyoR LT資料
by
tetsuro ito
PPTX
20131109 TokyoR#35 Rでネットワーク解析とGIS
by
Med_KU
PDF
中の人が語る seekR.jp の裏側
by
Takekatsu Hiramura
できない英語を駆使してKaggleに挑戦してみた
by
Keisuke Tokuda
ロジスティック回帰の考え方・使い方 - TokyoR #33
by
horihorio
RcppEigen and SVD
by
Xiangze
Doradora09 lt tokyo_r33
by
Nobuaki Oshiro
相関係数と決定係数~回帰係数とその不偏性も
by
T T
因子分析
by
Mitsuo Shimohata
Tokyo r33 beginner
by
Takashi Minoda
21世紀の手法対決 (MIC vs HSIC)
by
Toru Imai
とある金融屋の統計技師が時系列解析してみた
by
Nagi Teramo
Rで計量時系列分析~CRANパッケージ総ざらい~
by
Takashi J OZAKI
Tokyo R LT 20131109
by
tetsuro ito
ニコニコ動画タグネットワーク
by
Teruki Shinohara
偽相関と偏相関係数
by
Teruki Shinohara
Fluentd,mongo db,rでお手軽ログ解析環境
by
Michitaka Iida
Collaborativefilteringwith r
by
Teito Nakagawa
rzmq
by
Masayuki Isobe
Extend R with Rcpp!!!
by
mickey24
第31回TokyoR LT資料
by
tetsuro ito
20131109 TokyoR#35 Rでネットワーク解析とGIS
by
Med_KU
中の人が語る seekR.jp の裏側
by
Takekatsu Hiramura
Similar to R+pythonでKAGGLEの2値予測に挑戦!
PPTX
RでKaggleの登竜門に挑戦
by
幹雄 小川
PPTX
20170707 rでkaggle入門
by
Nobuaki Oshiro
PPTX
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
by
nocchi_airport
PPTX
0610 TECH & BRIDGE MEETING
by
健司 亀本
PDF
Rブートキャンプ
by
Kosuke Sato
PDF
Python 機械学習プログラミング データ分析演習編
by
Etsuji Nakai
PPTX
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
by
Takuji Tahara
PDF
PRML 第14章
by
Akira Miyazawa
PDF
Oracle Cloud Developers Meetup@東京
by
tuchimur
PDF
レコメンドアルゴリズムの基本と周辺知識と実装方法
by
Takeshi Mikami
PPTX
パターン認識モデル初歩の初歩
by
t_ichioka_sg
PDF
Dive into XGBoost.pdf
by
Yuuji Hiramatsu
PDF
パターン認識 08 09 k-近傍法 lvq
by
sleipnir002
PPTX
30分でわかる『R』によるデータ分析|データアーティスト
by
Satoru Yamamoto
PPTX
Rで学ぶデータサイエンス第1章(判別能力の評価)
by
Daisuke Yoneoka
PDF
Tokyo.R #19 発表資料 「Rで色々やってみました」
by
Masayuki Isobe
PDF
2013 JOI春合宿 講義6 機械学習入門
by
Hiroshi Yamashita
PPTX
R超入門機械学習をはじめよう
by
幹雄 小川
PDF
Rで学ぶロバスト推定
by
Shintaro Fukushima
PPTX
TECHTALK 20230214 ビジネスユーザー向け機械学習入門 第2回~機械学習のための学習データの前処理
by
QlikPresalesJapan
RでKaggleの登竜門に挑戦
by
幹雄 小川
20170707 rでkaggle入門
by
Nobuaki Oshiro
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
by
nocchi_airport
0610 TECH & BRIDGE MEETING
by
健司 亀本
Rブートキャンプ
by
Kosuke Sato
Python 機械学習プログラミング データ分析演習編
by
Etsuji Nakai
DSB2019振り返り会:あのにっくき QWK を閾値調整なしで攻略した(かった)
by
Takuji Tahara
PRML 第14章
by
Akira Miyazawa
Oracle Cloud Developers Meetup@東京
by
tuchimur
レコメンドアルゴリズムの基本と周辺知識と実装方法
by
Takeshi Mikami
パターン認識モデル初歩の初歩
by
t_ichioka_sg
Dive into XGBoost.pdf
by
Yuuji Hiramatsu
パターン認識 08 09 k-近傍法 lvq
by
sleipnir002
30分でわかる『R』によるデータ分析|データアーティスト
by
Satoru Yamamoto
Rで学ぶデータサイエンス第1章(判別能力の評価)
by
Daisuke Yoneoka
Tokyo.R #19 発表資料 「Rで色々やってみました」
by
Masayuki Isobe
2013 JOI春合宿 講義6 機械学習入門
by
Hiroshi Yamashita
R超入門機械学習をはじめよう
by
幹雄 小川
Rで学ぶロバスト推定
by
Shintaro Fukushima
TECHTALK 20230214 ビジネスユーザー向け機械学習入門 第2回~機械学習のための学習データの前処理
by
QlikPresalesJapan
R+pythonでKAGGLEの2値予測に挑戦!
1.
R+pythonで KAGGLEの2値予測に挑戦! iAnalysis合同会社 インターン 岡 右⾥里里恵 1 Tokyo.R LT
8/31
2.
岡 右⾥里里恵(早⼤大理理⼯工M1)
データサイエンティスト⾒見見習い iAnalysis でインターンを初めてちょうど2ヶ⽉月くらい 出⾝身、住まい等 横浜(神奈奈川都⺠民) 趣味 映画鑑賞, シンセ 好きな物 redbull 誰? 2 @0kayu
3.
研究 :
「fMRI画像解析による精神病の診断予測」 を、やる予定(今まではシミュレーション主体の研究(物理理化学)) ← ◦ 「そのために機械学習, 統計をフルに使えるようにならなければ!」 で、何をする人? 3 @0kayu 初心者 R , python , 機械学習, 統計は初めてまだ2ヶ⽉月ちょい
4.
今回は ... 4
5.
5 初心者でもできる? python + R
で、 KAGGLEの2値予測問題 KAGGLE中の私の脳内 → 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ
6.
予測精度度を競うコンテスト ◦ 上位の参加者に賞金がつく! ◦
2値問題, 時系列解析, 画像解析 etc... KAGGLEとは? 6
7.
amazon competition amazonの社員Aが、社内データaに
アクセスできるか どうか? → 0, 1の2値問題 元データ : 数値データ ◦ データのID / 社員のID / その社員が所属している部 署のID / 社員の肩書きのIDなどの数値データ 学習⽤用データ 32769個 テストデータ 58921個 7
8.
8 competition締め切りまであと一週間 どうやって始めればいいんだ.... 進めればいいんだ.... KAGGLE中の私の脳内 → 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ 逃げちゃだめだ
9.
KAGGLEを進めた方法 9 1. (定石?) まずは公式が用意しているベンチマークを目指す 2.
Forumを参考にしてみる (とりあえずいろいろな機械学習を試す.. ってのもいいけれど) k近傍法 Rでgbmを使ってやれば、 ベンチマークを超えたよ! コード置くからみんな使って! いやいや、pythonで僕の考 えた前処理 + ロジスティック回帰 でスコア0.89くらい行くよ! 君のコード を .... って変えたら 早くなったよ! 活発な意見交換の数々...
10.
予測モデル作成 10
11.
モデルその1 gbm(R) モデル1
gbm (R package ʻ‘gbmʼ’) 11 元 の 変 数 9 個 gbm モデル1 gbm : 勾配ブースティングモデル(アンサンブルモデル) パラメータの更新のときに、微分を用いることで高速化 コードはこんな感じ gbm10 <-‐ gbm.fit(x , y,distribuFon ="bernoulli" #(0,1)予測なので ,n.trees = GBM_ITERATIONS #木の数 ,shrinkage = GBM_LEARNING_RATE #学習率 ,interacFon.depth = GBM_DEPTH #木の深さ ,n.minobsinnode = GBM_MINOBS #木のノードで観測する 観測値の数の最小 ,bag.fracFon = 0.5 ,nTrain = nrow(trainingPy) ,keep.data=FALSE ,verbose = TRUE)
12.
モデルその1 gbm(R) モデル1
gbm (R package ʻ‘gbmʼ’) 12 元 の 変 数 9 個 gbm モデル1 gbm : 勾配ブースティングモデル(アンサンブルモデル) パラメータの更新のときに、微分を用いることで高速化 コードはこんな感じ gbm10 <-‐ gbm.fit(x , y,distribuFon ="bernoulli" #(0,1)予測なので ,n.trees = GBM_ITERATIONS #木の数 ,shrinkage = GBM_LEARNING_RATE #学習率 ,interacFon.depth = GBM_DEPTH #木の深さ ,n.minobsinnode = GBM_MINOBS #木のノードで観測する 観測値の数の最小 ,bag.fracFon = 0.5 ,nTrain = nrow(trainingPy) ,keep.data=FALSE ,verbose = TRUE) スコアがあがった! (ベンチマーク) → (モデル1 gbm ) 0.61 0.87
13.
さらなる精度の高みへ.... 前処理をしてみよう 13 いやいや、pythonで僕の考 えた前処理 + ロジスティック回帰 でスコア0.89くらい行くよ!
先ほどのForumより
14.
モデルその2 グルーピング+変数選択→機械学習(python+R) 14 元 の 変 数 9 個 gbm モデル1 変数 選択 gbm+グルーピング ロジスティック回帰 +グルーピング グルー ピング 変 数 8 個 モデル2 モデル3 元の変数, 8個
2つの変数の組合わせ, 8C2個 3つの変数の組み合せ, 8C3個 = 92個! ロジスティック回帰で 交差検定をしてAUCス コアが良良かった変数だけ 採⽤用! 92個→26個
15.
結果 338位 (1693チーム中) 15 他のモデルは...? モデル3
ロジスティック + グルーピングが 好成績!
16.
モデル スコア(AUC) gbm (変数9個)
gbm + グルーピング (変数26個) ロジスティック回帰 +グルーピング(変数26) 0.878 0.875 0.895 モデルごとのスコア比較 16 gbmは 元の変数を変えても 予測結果に差がない? 上記3つモデルから得 られた結果の平均値 0.884 あまり改善がないようだ orz
17.
終わってみて RとPythonを使ってみて ◦ R
: パッケージたくさんあるけど、モデルの作り⽅方の関数がだいた い同じだからやりやすかった!! ◦ R : プロットがしやすい気がした ◦ Python:複雑な解析/⾃自分でモデルを構築するのに向いている? 使った環境, パッケージ等 ◦ R (gbm) ◦ Python(pandas, sklearn, numpy) + ipython notebook 私が思うKAGGLE ◦ 予測精度度を競っているので、どのパラメーターが重要だったとかは ⾃自分で勉強しないとだめ。 17
18.
現在は... KAGGLE またもや2値予測に挑戦中!
◦ ホームページ構造の文字データ + 数値データから面白い/面白 くないサイトを予測 ◦ テキストマイニング? ナイーブベイズ? うーん、やってみたい! 18 ありがとうございました !!
19.
19 contact@ianalysis.jp ianalysis.jp 我々はトップデータサイエンティスト集団です 分析⼒力力を駆使し、クライアント様のビジネスへの データ活⽤用を促進できるよう、⽇日々活動しております。
20.
参考文献, 使ったコード 20 http://nbviewer.ipython.org/6175061/amazon_logistic.ipynb hdp://www.kaggle.com/c/amazon-‐employee-‐access-‐challenge/forums/t/4840/gbm-‐code-‐ auc-‐0-‐876 gbm.Rのフォーラム(とコード) ・Kaggle amazon
compe>>on のForumより ロジスティック回帰のフォーラム(とコード) 今回使ったpythonのコード hdp://www.kaggle.com/c/amazon-‐employee-‐access-‐challenge/forums/t/4838/python-‐code-‐to-‐ achieve-‐0-‐90-‐auc-‐with-‐logisFc-‐regression
Download