Submit Search
Upload
For MANABIYA
•
Download as PPTX, PDF
•
27 likes
•
54,768 views
S
ssuserafaae8
Follow
About Kaggle by Okoshi, Kysmo.Inc
Read less
Read more
Presentations & Public Speaking
Report
Share
Report
Share
1 of 66
Download now
Recommended
Devsumi 2018summer
Devsumi 2018summer
Harada Kei
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
諒介 荒木
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
Data-centricなML開発
Data-centricなML開発
Takeshi Suzuki
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
Takeshi Suzuki
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Recommended
Devsumi 2018summer
Devsumi 2018summer
Harada Kei
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
諒介 荒木
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
Data-centricなML開発
Data-centricなML開発
Takeshi Suzuki
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
Takeshi Suzuki
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
協調フィルタリング入門
協調フィルタリング入門
hoxo_m
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
Deep Learning JP
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
Neko kin
Neko kin
Shota Okubo
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
最適化超入門
最適化超入門
Takami Sato
理系学生が選ぶ企業の未来と、 成功する理系キャリアの条件とは
理系学生が選ぶ企業の未来と、 成功する理系キャリアの条件とは
Kazuaki ODA
Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ
Kenji Noguchi
More Related Content
What's hot
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
協調フィルタリング入門
協調フィルタリング入門
hoxo_m
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
Deep Learning JP
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
Neko kin
Neko kin
Shota Okubo
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
Preferred Networks
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
最適化超入門
最適化超入門
Takami Sato
What's hot
(20)
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
不均衡データのクラス分類
不均衡データのクラス分類
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
Data-Centric AIの紹介
Data-Centric AIの紹介
全力解説!Transformer
全力解説!Transformer
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
Active Learning 入門
Active Learning 入門
協調フィルタリング入門
協調フィルタリング入門
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
[DL輪読会]Attention Is All You Need
[DL輪読会]Attention Is All You Need
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
Neko kin
Neko kin
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
最適化超入門
最適化超入門
Similar to For MANABIYA
理系学生が選ぶ企業の未来と、 成功する理系キャリアの条件とは
理系学生が選ぶ企業の未来と、 成功する理系キャリアの条件とは
Kazuaki ODA
Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ
Kenji Noguchi
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
Kentaro Imai
Tdc 20181121
Tdc 20181121
Masabumi Furuhata
20170323 gdセミナー 北村
20170323 gdセミナー 北村
Seminer Goodfind
161217 ロジカルシンキング 北村
161217 ロジカルシンキング 北村
Seminer Goodfind
20170406 ロジシン 北村
20170406 ロジシン 北村
Seminer Goodfind
理系による理系のためのビジネスリテラシー養成講座 2020-03-27
理系による理系のためのビジネスリテラシー養成講座 2020-03-27
Kazuaki ODA
Tableau data science_20190627_distribute
Tableau data science_20190627_distribute
Masabumi Furuhata
gd演習 北村
gd演習 北村
Seminer Goodfind
Jbmc guidance workshop 150823
Jbmc guidance workshop 150823
Takeru Ohe
株式会社ライフドラムラボ~研修サービスのご提案~
株式会社ライフドラムラボ~研修サービスのご提案~
Kentaro Imai
M3・CCG presentation
M3・CCG presentation
m3spbu2019
早稲田ビジネススクール講義 スイッチサイエンス
早稲田ビジネススクール講義 スイッチサイエンス
Nico-Tech Shenzhen/ニコ技深圳コミュニティ
琴坂研究会B1紹介スライド / Kotosaka-Seminar_JapaneseClass_Introduction
琴坂研究会B1紹介スライド / Kotosaka-Seminar_JapaneseClass_Introduction
Yushiro Nirei
gd演習 特別編
gd演習 特別編
Seminer Goodfind
“北の国から”学ぶ 『6次産業化』で1次産業の所得向上、地域活性を狙え!~ テクノロジーによる6次産業化リスク軽減方法の模索 ~
“北の国から”学ぶ 『6次産業化』で1次産業の所得向上、地域活性を狙え!~ テクノロジーによる6次産業化リスク軽減方法の模索 ~
オラクルエンジニア通信
JBMCーNigata 講演
JBMCーNigata 講演
Takeru Ohe
190210_DLLAB 医療×AIシンポジウム_名古屋大学 藤原幸一氏
190210_DLLAB 医療×AIシンポジウム_名古屋大学 藤原幸一氏
Deep Learning Lab(ディープラーニング・ラボ)
JBMCーNigataからJBMCへ、さらにIBMCへ
JBMCーNigataからJBMCへ、さらにIBMCへ
Takeru Ohe
Similar to For MANABIYA
(20)
理系学生が選ぶ企業の未来と、 成功する理系キャリアの条件とは
理系学生が選ぶ企業の未来と、 成功する理系キャリアの条件とは
Tableau Developers Club Season2 - 外部サービス連携デモ
Tableau Developers Club Season2 - 外部サービス連携デモ
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
Tdc 20181121
Tdc 20181121
20170323 gdセミナー 北村
20170323 gdセミナー 北村
161217 ロジカルシンキング 北村
161217 ロジカルシンキング 北村
20170406 ロジシン 北村
20170406 ロジシン 北村
理系による理系のためのビジネスリテラシー養成講座 2020-03-27
理系による理系のためのビジネスリテラシー養成講座 2020-03-27
Tableau data science_20190627_distribute
Tableau data science_20190627_distribute
gd演習 北村
gd演習 北村
Jbmc guidance workshop 150823
Jbmc guidance workshop 150823
株式会社ライフドラムラボ~研修サービスのご提案~
株式会社ライフドラムラボ~研修サービスのご提案~
M3・CCG presentation
M3・CCG presentation
早稲田ビジネススクール講義 スイッチサイエンス
早稲田ビジネススクール講義 スイッチサイエンス
琴坂研究会B1紹介スライド / Kotosaka-Seminar_JapaneseClass_Introduction
琴坂研究会B1紹介スライド / Kotosaka-Seminar_JapaneseClass_Introduction
gd演習 特別編
gd演習 特別編
“北の国から”学ぶ 『6次産業化』で1次産業の所得向上、地域活性を狙え!~ テクノロジーによる6次産業化リスク軽減方法の模索 ~
“北の国から”学ぶ 『6次産業化』で1次産業の所得向上、地域活性を狙え!~ テクノロジーによる6次産業化リスク軽減方法の模索 ~
JBMCーNigata 講演
JBMCーNigata 講演
190210_DLLAB 医療×AIシンポジウム_名古屋大学 藤原幸一氏
190210_DLLAB 医療×AIシンポジウム_名古屋大学 藤原幸一氏
JBMCーNigataからJBMCへ、さらにIBMCへ
JBMCーNigataからJBMCへ、さらにIBMCへ
For MANABIYA
1.
Kaggleで変える 日本の機械学習活用
2.
自己紹介 1 大越 拓実(@takuoko1) 株式会社キスモ 取締役 神奈川県出身、名古屋大学卒。大学で統計学、機械学習を専攻。 受賞歴(Kaggleにて下記含め6つの受賞経験を持ち、Kaggle
masterの称号を持っている。) Home Credit Default Risk 2nd place (Gold medal) Avito Demand Prediction Challenge 7th place (Gold medal) 杏林大学と医学領域における画像認識技術の共同研究にも参画し、EWMA2018で 研究成果が発表されている。
3.
キスモとはどんな会社ですか Our Mission 世の中のあらゆる場所に、 人の役に立つAIを導入する 2 事業領域を限定せず、AIを開発する 名古屋大学公認ベンチャー
4.
キスモの実績はどうですか 医療、製造業、金融、放送業界をはじめ、多岐に渡ります。 3 主要取引先・パートナー
5.
テーマ 4 データ分析に興味がある人にKaggleをやりたいと思ってほしい!
6.
アジェンダ Kaggleとは Kaggleと研究と仕事
Kaggleで学んだこと まとめ 5
7.
アジェンダ Kaggleとは Kaggleと研究と仕事
Kaggleで学んだこと まとめ 6
8.
Kaggleとは 7 https://www.kaggle.com/ 機械学習を用いたデータ分析の世界大会が開かれるプラットフォーム データ分析の天下一武道会 🐉
9.
Kaggleとは 8 登録者 全世界200万人
コンテスト参加者 約9万人 上からGrandmaster, Master, Expert, Contributor, Noviceとラン クがあり、それぞれの人数は図の通り *いずれも2018年10月9日現在
10.
Kaggleとは 9 データ&テーマ • 企業がKaggleに データとテーマを 提供 • 医療、マーケティ ング、金融など多 岐にわたる コンペ開催 •
期間は1~3ヶ月 順位&賞金 • スコアで順位が 決まる • 上位者には賞金。 総額100万円~1 億円オーバーの ものまで
11.
Kaggleとは 10 Overview-分析テーマや評価方法 Data-データの説明
Kernels-参加者がコードを公開している Discussion-参加者が様々なテーマについて議論している Leaderboard-順位が見れる
12.
Kaggleとは 11 Overview 様々な情報から家の 価格を予測する。
13.
Kaggleとは 12 Data データファイルや説 明変数、目的変数の 説明。
14.
Kaggleとは 13 Kernels 参加者がスクリプト を公開。 EDAやFeature Engineeringの参考に なる。 (めちゃ勉強になる)
15.
Kaggleとは 14 Discussion 参考になる論文や精度 向上に貢献したアプ ローチ、データの見方 など様々なテーマで議 論が行われる場。 (めちゃ勉強になる)
16.
Kaggleとは 15 Leaderboard 順位とそのスコアが 確認できる。
17.
Kaggleとは 16 機械学習を用いたデータ分析の世界大会が開かれるプラットフォーム データ分析の天下一武道会 🐉
18.
Kaggleとは 天下一武道会に名を連ねる強者達 17 Giba, bestfitting 世界ランキング1位,
2位。 まじで強い。 ケロッピ先生 画像系のコンペで知見を どんどん共有してくれる。 しかもめちゃ上位とってくる CPMP Discussion(いわゆる掲 示板)にめちゃ投稿する。 Discussionランキング1 位(もちろんコンペも強 い。) 24時間掲示板に張り付 いているのではとの噂 も。
19.
Kaggleとは 18 世界各国の個性豊かなデータサイエンティストが 参加している
20.
アジェンダ Kaggleとは Kaggleと研究と仕事
Kaggleで学んだこと まとめ 19
21.
Kaggleと仕事 データ分析とは 20 データ 無数のアプローチ 前処理/モデリング/後処理 結果
22.
Kaggleと仕事 データ分析とは 21 手札の数-いかに無数のアプローチのバリエーションを持つか どの手札を切るか-そこから限られた時間に何を選択して実施するか データ 無数のアプローチ 前処理/モデリング/後処理 結果
23.
Kaggleと仕事 データ分析とは 22 Kaggleをやることで手札の数、どの手札をどの速さで切れるか、 それがどのくらい有用そうか当たりをつける、という部分が得られる。 もちろん、Kaggleで使ったコードを持っておくことで手札を切るスピード も格段に上がる。 データ 無数のアプローチ 前処理/モデリング/後処理 結果
24.
Kaggleと仕事 データ分析とは 23 😆Kaggleをすると 😭普通は 手札がすごくなる データ 無数のアプローチ 前処理/モデリング/後処理 結果
25.
Kaggleと仕事 24 Kaggleをすることで手札が増えて、強いデータ分析ができる!
26.
Kaggleの良さ 25 経験 画像、テキスト、テーブルデータ 金融、医療、マーケティングなど 幅広いデータを分析でき、それが 経験値として溜まっていく。 知識 論文やdiscussion, kernel, 自分で立案したアイデアを 手を動かしながら試すことが でき、それが自分の知識となる。 実践ベースで学べるのが大きい。 コード Kaggleで実装したコードは、 そのまま仕事に転用できる 財産になる。
27.
Kaggleの良さ 26 現状把握 結果が順位として現れるので、 自分の立ち位置を把握できる。 上に人がたくさんいれば、まだ 足りない要素がある。 給与、信頼 定量的な評価ができるので、 いい結果を残せばそれだけ給与 に反映される。 また、対外的な信頼の証明にも なる。 楽しさ 純粋にゲーム性があり、 日々新しい知識も得られ るので楽しい。
28.
Kaggleの良さ 27 Kaggleをすることで、経験、知識、資産、信頼など、 多くのことが得られる! しかも楽しい!
29.
Kaggleと仕事 28 ここまで、Kaggleの良さはなんとなくわかった。 では、Kaggleをどのように仕事に結びつけているのか?
30.
今の自分の働き方 29 Kaggleする 実務はKaggleで過去 にやった方法を転用
31.
今の自分の働き方 Kaggle->仕事 30 例:セグメンテーション
32.
今の自分の働き方 Kaggle->仕事 31 例:セグメンテーション 前処理 resizeの関数、自作generator (cutoutやshearなど入ってる)、 CLAHEなどの前処理をkaggleで 実装済み。 augmentation手法は実装済み generatorを使って実験が回せる。 モデリング 多種多様なEncoderを持つUnet,その他 セグメンテーショモデルを実装済み。 iouなどの評価関数やlovasz loss,
dice lossも実装済み。 scseモジュールやhyper columnsの実装 も持っており、これらを使って実験が 回せる。 後処理 セグメンテーションの結果を 可視化して確認する部分や、 thresholdの設定、CRFなど の後処理スクリプトを実装済 み。
33.
今の自分の働き方 Kaggle->仕事 32 様々なaugmentation×様々なモデル×loss関数×プラスα 例:セグメンテーション flip zoom rotate add noise cutout shear etc… Vanila Unet VGG
Unet ResNet Unet ResNeXt Unet DenseNet unet Inception unet Inception ResNet Unet Linknet PSPNet SegNet Tiramisu etc… bce bce dice focal loss lovasz loss etc… scseモジュール hyper columns cyclic learning rate etc… これらを高速に回せるようになった!
34.
研究、kaggle、仕事の違い 33 Kaggle なんでもありの殴り合い。 最新の研究成果、過去のコンテスト の手法、使えるものは全て使う。 精度向上のためならアンサンブルも どんどんする。 が、シングルモデルの性能も同時に 追求する。 研究 “新しい何か”を使って成果を出す。 新規性こそが重要。 仕事 使えるものはなんでも使って良 い。 精度も高い方が良い。 ただ、計算資源の制約が強く、 説明性が求められることも多い。
35.
研究、kaggle、仕事の違い 仕事、研究、Kaggleはそれぞれ違いがあるが、通じるものはある。 34
36.
研究、kaggleが仕事に活きる部分 35 Kaggle 素早くベンチマークを構築する。 限られた資源、いくつかの制約の 中で精度を高める。 データのバリデーションを適切に 切る(*後述)。 研究 新しいアイデアを組み込むこと で精度向上を目指す。 それが実現すれば優位性になる。 先行研究をリサーチして、それ を組み込む能力もとても重要。 仕事 そもそもデータ分析、データに詳しくなれる
37.
研究、kaggle、仕事の違い 仕事においてもKaggle力は重要な要素である。 36
38.
Kaggleをしてからの変化 分析系の仕事が圧倒的に速くなった 時間の使い方が変わった
適切なバリデーションを設定できるようになった 分析の精度がどれくらい出るかの不確実性を減らせるようになっ た 37
39.
Kaggleをしてからの変化 分析系の仕事が圧倒的に速くなった 時間の使い方が変わった
適切なバリデーションを設定できるようになった 分析の精度がどれくらい出るかの不確実性を減らせるようになっ た 38
40.
分析系の仕事が圧倒的に速くなった 39 Kaggleをしてからは ・先述の通りコードは転用。これによりベンチマーク構築、 実験は高速化。 ・コードが動作しない。Lossが減らないなどの問題はほと んど起きない。 以前は ・タスクに対して一連のスクリプトを0から実装。 ・転用できるコードがないか調べて動かす。(多くは動かない) ・うまくいかない部分はデバックしつつ、1つ1つ手動で試して 解決
41.
分析系の仕事が圧倒的に速くなった 40 時間のロスが確実に減り、体感で何十倍も高速化。
42.
Kaggleをしてからの変化 分析系の仕事が圧倒的に速くなった 時間の使い方が変わった
適切なバリデーションを設定できるようになった 分析の精度がどれくらい出るかの不確実性を減らせるようになっ た 41
43.
時間の使い方が変わった 42 以前は ・仕事の時間を長く取る。 ・知識も仕事をやって初めて得られる。 Kaggleをしてからは ・仕事の時間を短くした。(タスクを速くこなせるので可能) ・その分、Kaggleに時間を割くようになった。 ->午前中仕事、午後Kaggleという生活スタイルが定着。 ・知識はKaggleで初めて得られ、それを仕事で使う。
44.
Kaggleをしてからの変化 分析系の仕事が圧倒的に速くなった 時間の使い方が変わった
適切なバリデーションを設定できるようになった 分析の精度がどれくらい出るかの不確実性を減らせるようになっ た 43
45.
適切なバリデーションを設定できるようになった 44 以前は ・train test splitでランダムに分割。 Kaggleをしてからは ・Kfold,
Stratified Kfold, Group Kfoldを適切に使い分ける。
46.
適切なバリデーションを設定できるようになった 45 StratifiedKfoldKfold Target=0 Target=1 train 70%
30% val 55% 45% Targetの分布が異なる可能性がある Target=0 Target=1 train 60% 40% val 60% 40% Targetの分布を均一にする GroupKFold 同じユーザーとか同じグループの人が trainとvalに分かれることで、予測しや すくなりすぎるのを防ぐ。
47.
Kaggleをしてからの変化 分析系の仕事が圧倒的に速くなった 時間の使い方が変わった
適切なバリデーションを設定できるようになった 分析の精度がどれくらい出るかの不確実性を減らせるようになっ た 46
48.
不確実性を減らせるようになった 47 最適な方法を取った時の性能 目標とする性能 スコア 0.8
0.9 ここの差はやってみるまでわからない 😖 データ分析はやってみる までどれくらい精度が出 るかわからない。
49.
不確実性を減らせるようになった 48 その人が出せた性能 最適な方法を取った時の性能 目標とする性能 スコア
0.5 0.8 0.9 😰できなかった 😉Kaggleでやったことがあれば その人が出せた性能 最適な方法を取った時の性能 目標とする性能 スコア 0.75 0.8 0.9 ここの不確実性は減らせる
50.
アジェンダ Kaggleとは Kaggleと研究と仕事
Kaggleで学んだこと まとめ 49
51.
Kaggleで学んだこと 50 Kaggleをすることでどういうことが身についたのか。 どういう手札を持てたのか。
52.
Kaggleで学んだこと EDA(探索的データ分析) いわゆるデータの可視化から気づきを得る部分 51 例:t-SNEによる可視化 図のように綺麗に分かれている場合は予測性能が高くなる (こんな例は普通ないが)。 また、分布が入り組んでいる場合はダウンサンプリングがしにくいや、 TrainとTestで分布が全然違うとかもわかる。 参考:
https://www.kaggle.com/c/home-credit-default-risk/discussion/58174
53.
Kaggleで学んだこと テーブルデータの特徴量整形(ここはたくさんあるので一部抜粋) Agg系
Target Encoding モデルベース系 52 Agg系 カテゴリーに対して値を埋め込む。 例:男性の購入金額の平均 食料品の価格の平均 Target Encoding カテゴリーに対して Targetの値を埋め込む。 例:自営業の人のTarget平均 モデルベース系 欠損値が多い重要な特徴 の値を他の特徴から予測。 その他にも、このデータではこういう特徴を使ったみたいなものがあるので、特徴量整形の手札は 爆発的に増える。
54.
Kaggleで学んだこと テーブルデータのモデリング LGBMすげえ
アンサンブルのためのモデル アンサンブル(averaging、stacking, stacknet) パラメータ調整(ベイズ最適化) 53 LGBMすげえ-KDD Cup4位の解放 パラメータ調整 LGBMは特にパラメータで結果が 大きく変わることが多い。 適切なパラメータをいかに自動で 探索するか。 ->ベイズ最適化
55.
Kaggleで学んだこと 画像データの水増し imgaug
https://github.com/aleju/imgaug Keras Generatorの自作 mixup, cutout, random erasing, shear 54 自作generator
56.
Kaggleで学んだこと 画像モデリング(Segmentation) Unet,
ResnetベースのUnet Segmentation models https://github.com/qubvel/segmentation_models SE module https://www.kaggle.com/c/tgs-salt-identification- challenge/discussion/66178#392393 hypercolumns focal loaa, lovasz loss TTA 55 SE module 2017年のILSVRCの優勝モデル TTA テスト時にaugumentationを行い、 精度を向上させる。 lovasz loss 先のセグメンテーションコンペ で大きく精度向上に貢献したloss。 BCEで最適化した後に使用してboost させた。
57.
Kaggleで学んだこと テキスト前処理 Word2vec,
embedding(Glove, fasttext) char level BOW http://kysmo.hatenablog.jp/entry/2018/07/31/164118 56 char levelEmbedding, word2vec
58.
Kaggleで学んだこと テキストモデリング Attention
Sparse NN Concat(Max Pooling, Avg Pooling) 57 Sparse NN BOW->NN 自分がやったデータでは 精度はRNN系より下だったが、 アンサンブルで効果あり。 Attention テキスト系のコンペでは精度が 向上した。 画像でも使われている研究が あったのでテストしようと 思っている。
59.
Kaggleで学んだこと まとめ 様々な方法を実践的に学べる
手札が増える 58
60.
アジェンダ Kaggleとは Kaggleと研究と仕事
Kaggleで学んだこと まとめ 59
61.
まとめ Kaggleとは データ分析の天下一武道会
仕事に役立つ とってもいいからみなさんにもぜひ始めてほしい! 60
62.
Kaggleを始めたいという人へ kaggler-ja https://kaggler-ja.herokuapp.com/
日本版kaggle slack。3000人を超える人が参加していて、いろいろな質問 に経験者が答えてくれる。 とりあえずやってみる 最初はkernelのコードをちょっと変えたりしながら順位が上がった下がっ たを楽しむ。 だんだんdiscussionを見たり、自分のアイデアを組み込んだりして、より 高い順位を目指していく。 61
63.
これからやっていきたいこと Kaggleを活用しながら日本の機械学習活用を進めたい 機械学習、データ分析はやってみなければ精度がわからないというのがど うしてもある。
そこで、Kaggleを使って手札をたくさん用意しておき、それを高速に展開 することで、とりあえずやってみる(PoC)という部分の手助けをしたい。 そして、多くの会社に機械学習、データ分析を活用してほしい。 62
64.
締め “Keep improving”
by CPMP 63
65.
締め 64 By Marious
66.
地に足ついたデータ分析をリードする。 お見積もり、お問い合わせはこちらまで。 https://kysmo.tech info@kysmo.tech
Editor's Notes
キスモは「世の中の企業のAIの導入失敗」という課題を解決する企業です。 世の中のあらゆる場所に人の役に立つAIを導入するミッションです。 事業領域を限定せず、色々な種類の課題を解決しています。 名古屋大学公認ベンチャーで、大学内で活動しています。
キスモは「世の中の企業のAIの導入失敗」という課題を解決する企業です。 世の中のあらゆる場所に人の役に立つAIを導入するミッションです。 事業領域を限定せず、色々な種類の課題を解決しています。 名古屋大学公認ベンチャーで、大学内で活動しています。
キスモは「世の中の企業のAIの導入失敗」という課題を解決する企業です。 世の中のあらゆる場所に人の役に立つAIを導入するミッションです。 事業領域を限定せず、色々な種類の課題を解決しています。 名古屋大学公認ベンチャーで、大学内で活動しています。
Download now