Submit Search
Upload
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
•
Download as PPTX, PDF
•
1 like
•
215 views
Masanari Kimura
Follow
https://ridge-i-yomikai.connpass.com/event/162847/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 13
Download now
Recommended
NeurIPS2019参加報告
NeurIPS2019参加報告
Masanari Kimura
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
harmonylab
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
harmonylab
Rainbow
Rainbow
harmonylab
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
Yu Sugawara
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
harmonylab
Statistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forward
harmonylab
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
harmonylab
Recommended
NeurIPS2019参加報告
NeurIPS2019参加報告
Masanari Kimura
A PID Controller Approach for Stochastic Optimization of Deep Networks
A PID Controller Approach for Stochastic Optimization of Deep Networks
harmonylab
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
harmonylab
Rainbow
Rainbow
harmonylab
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
非定常データストリームにおける適応的決定木を用いたアンサンブル学習
Yu Sugawara
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
harmonylab
Statistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forward
harmonylab
Feature engineering for predictive modeling using reinforcement learning
Feature engineering for predictive modeling using reinforcement learning
harmonylab
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
西岡 賢一郎
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
harmonylab
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Playing Atari with Six Neurons
Playing Atari with Six Neurons
harmonylab
2020 08 05_dl_DETR
2020 08 05_dl_DETR
harmonylab
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
harmonylab
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Deep Learning JP
研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討
Masaharu Munetomo
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
harmonylab
DLゼミ20170522
DLゼミ20170522
harmonylab
[DLゼミ] Learning agile and dynamic motor skills for legged robots
[DLゼミ] Learning agile and dynamic motor skills for legged robots
harmonylab
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
harmonylab
A3C解説
A3C解説
harmonylab
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Deep Learning JP
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
Hironori Washizaki
イングランドの教訓から学ぶ コンピューティング教育
イングランドの教訓から学ぶ コンピューティング教育
Yu Ukai
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
Nobukazu Yoshioka
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Hironori Washizaki
More Related Content
What's hot
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
西岡 賢一郎
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
harmonylab
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Playing Atari with Six Neurons
Playing Atari with Six Neurons
harmonylab
2020 08 05_dl_DETR
2020 08 05_dl_DETR
harmonylab
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
harmonylab
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Deep Learning JP
研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討
Masaharu Munetomo
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
harmonylab
DLゼミ20170522
DLゼミ20170522
harmonylab
[DLゼミ] Learning agile and dynamic motor skills for legged robots
[DLゼミ] Learning agile and dynamic motor skills for legged robots
harmonylab
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
harmonylab
A3C解説
A3C解説
harmonylab
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Deep Learning JP
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
harmonylab
What's hot
(18)
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Playing Atari with Six Neurons
Playing Atari with Six Neurons
2020 08 05_dl_DETR
2020 08 05_dl_DETR
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
[DL輪読会]Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
研究支援に係るアカデミッククラウド システムの調査検討
研究支援に係るアカデミッククラウド システムの調査検討
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
DLゼミ20170522
DLゼミ20170522
[DLゼミ] Learning agile and dynamic motor skills for legged robots
[DLゼミ] Learning agile and dynamic motor skills for legged robots
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
A3C解説
A3C解説
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Towards Knowledge-Based Personalized Product Description Generation in E-comm...
Similar to [NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
Hironori Washizaki
イングランドの教訓から学ぶ コンピューティング教育
イングランドの教訓から学ぶ コンピューティング教育
Yu Ukai
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
Nobukazu Yoshioka
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Hironori Washizaki
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
Sho Nakamura
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
learningtorank meetup-vol4-pt1
learningtorank meetup-vol4-pt1
Kamuela Lau
DX 時代の新たなソフトウェア工学に向けて: SWEBOK と SE4BS の挑戦
DX 時代の新たなソフトウェア工学に向けて: SWEBOK と SE4BS の挑戦
Hironori Washizaki
早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日
Hironori Washizaki
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
Daiyu Hatakeyama
1028 TECH & BRIDGE MEETING
1028 TECH & BRIDGE MEETING
健司 亀本
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks
ICDE 2014参加報告資料
ICDE 2014参加報告資料
Masumi Shirakawa
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
harmonylab
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
鷲崎 メトリクスの基礎とGQM法によるゴール指向の測定 2014年12月18日 日本科学技術連名SQiP研究会 演習コースI ソフトウェア工学の基礎
鷲崎 メトリクスの基礎とGQM法によるゴール指向の測定 2014年12月18日 日本科学技術連名SQiP研究会 演習コースI ソフトウェア工学の基礎
Hironori Washizaki
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
Hironori Washizaki
「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ
Recruit Technologies
Microsoft Autonomousへの取り組み
Microsoft Autonomousへの取り組み
Hirono Jumpei
Similar to [NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
(20)
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
イングランドの教訓から学ぶ コンピューティング教育
イングランドの教訓から学ぶ コンピューティング教育
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
機械学習工学と機械学習応用システムの開発@SmartSEセミナー(2021/3/30)
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
learningtorank meetup-vol4-pt1
learningtorank meetup-vol4-pt1
DX 時代の新たなソフトウェア工学に向けて: SWEBOK と SE4BS の挑戦
DX 時代の新たなソフトウェア工学に向けて: SWEBOK と SE4BS の挑戦
早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
1028 TECH & BRIDGE MEETING
1028 TECH & BRIDGE MEETING
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
ICDE 2014参加報告資料
ICDE 2014参加報告資料
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image S...
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
鷲崎 メトリクスの基礎とGQM法によるゴール指向の測定 2014年12月18日 日本科学技術連名SQiP研究会 演習コースI ソフトウェア工学の基礎
鷲崎 メトリクスの基礎とGQM法によるゴール指向の測定 2014年12月18日 日本科学技術連名SQiP研究会 演習コースI ソフトウェア工学の基礎
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ
Microsoft Autonomousへの取り組み
Microsoft Autonomousへの取り組み
Recently uploaded
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
Recently uploaded
(9)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
[NeurIPS2019 論文読み会] A Meta Analysis of Overfitting in Machine Learning
1.
A Meta-Analysis of
Overfitting in Machine Learning Masanari Kimura (mkimura@ridge-i.com)
2.
1 ©2020Ridge-iAllRightsReserved. • NeurIPS2019採択論文 [1] •
テストデータの使い回しに起因する過学習についてのメタ分析 • 分析対象はここ数年間で開催されたKaggleコンペ Abstract 論文URL:http://papers.nips.cc/paper/9117-a-meta-analysis-of-overfitting-in-machine-learning
3.
2 ©2020Ridge-iAllRightsReserved. Holdout 機械学習モデルの学習の際,学習データからあらかじめ評価データを切り離しておくこと • 機械学習界隈のほとんどの評価の場においてこの方式が採用される • コンペティション •
ベンチマーク実験 • ハイパーパラメータの探索 実験者が何度もholdoutを使い回すことに起因するholdoutへの過学習が問題視 [2, 3]
4.
3 ©2020Ridge-iAllRightsReserved. Related work: Do
ImageNet Classifiers Generalize to ImageNet? ベンチマークデータセットとして多用されるCIFAR10とImageNetに焦点を当てた関連研究 [4] • Holdoutの使い回しによる既存研究のベンチマーク結果の信頼性に警鐘 • 実際にドメインが同一の新しいテストデータを用意したら全ての既存研究の実験結果が悪化 論文URL:https://arxiv.org/abs/1902.10811
5.
4 ©2020Ridge-iAllRightsReserved. Motivation • 前述の研究結果はCIFAR-10とImageNetについてだけだった • Holdoutに対する過学習の現象が一般の機械学習タスクでも観測されるのかが知りたい
6.
5 ©2020Ridge-iAllRightsReserved. Kaggle: The platform
of machine learning competitions 関連研究のような実験を行うため には新しいテストデータを構築す る必要がある • 人手が必要&非常に手間 Kaggleのコンペに白羽の矢が立つ • データソースが豊富 • コンペ参加者は非常に多様な手法を適用 • 期間内にテストデータを何度も参照
7.
6 ©2020Ridge-iAllRightsReserved. Kaggle Ranking System Kaggleのコンペティションでは,テスト データをpublic/privateに分割 •
分割の内訳は伏せたまま参加者にテスト データを公開 • コンペ期間中はpublicのテストデータの みの評価を公開 • コンペ終了時に全テストデータに対する 評価を公開して,最終的な順位を決定
8.
7 ©2020Ridge-iAllRightsReserved. MetaKaggle Dataset • Kaggleによって公開されているコンペに関するメタデータ •
この中のサブミッションに関連する情報を使って分析を行う https://www.kaggle.com/kaggle/meta-kaggle
9.
8 ©2020Ridge-iAllRightsReserved. Adaptive Overfitting 仮説 • コンペの参加者は期間中にprivate
test dataを参照できないので,overfitが発生しているのであれば public test dataに対して観測されるはず 定義 • 今回の分析ではpublic test dataに対するスコアとprivate test dataに対するスコアの差をoverfitの 度合いとして使用
10.
9 ©2020Ridge-iAllRightsReserved. Examples of Competitions ID
Name # Submissions npublic nprivate 5275 Can we predict voting outcomes? 35,247 249,344 249,343 3788 Allstate Purchase Prediction Challenge 24,532 59,657 139,199 7634 TensorFlow Speech Recognition Challenge 24,263 3,171 155,365 7115 Cdiscount’s Image Classification Challenge 5,859 53,0455 1,237,727 分析対象のコンペティションの中でsubmission数が多いものの例.全ての評価指標はAccuracy.
11.
10 ©2020Ridge-iAllRightsReserved. Private versus Public
Accuracy 全競技者のsubmissionのprivate/public score比 上位10%のsubmissionのprivate/public score比 • X軸をpublic score, Y軸をprivate scoreと して散布図プロット • 過学習してなければ𝑦 = 𝑥の直線に従うはず • 全体の傾向としては概ね健全な結果 • 上位10%だけ注目すると,一部コンペで overfitの兆候が観測
12.
11 ©2020Ridge-iAllRightsReserved. Conclusion and Discussion •
120のKaggleコンペティションを調べた結果,adaptive-overfittingはほとんど観測されなかった • Testデータの再利用が機械学習モデルの信頼性を損なうという主張に疑問が残る結果 • 少なくともKaggleの運営方式におけるholdoutの扱いは適切と思われる • 一方で,分布シフト由来のスコアの乖離も関連研究で多く指摘 [5,6,7,8] • 目下の機械学習界隈における問題の重要度はholdout overfitting < distribution shift
13.
12 ©2020Ridge-iAllRightsReserved. References • [1] Roelofs,
Rebecca, et al. "A Meta-Analysis of Overfitting in Machine Learning." Advances in Neural Information Processing Systems. 2019. • [2] Dwork, Cynthia, et al. "Preserving statistical validity in adaptive data analysis." Proceedings of the forty-seventh annual ACM symposium on Theory of computing. 2015. • [3] Robert, Christian. "Machine learning, a probabilistic perspective." (2014): 62-63. • [4] Recht, Benjamin, et al. "Do imagenet classifiers generalize to imagenet?." arXiv preprint arXiv:1902.10811 (2019). • [5] L. Engstrom, B. Tran, D. Tsipras, L. Schmidt, and A. Madry. Exploring the landscape of spatial robustness. In International Conference on Machine Learning (ICML), 2019. • [6] J. Quionero-Candela, M. Sugiyama, A. Schwaighofer, and N. D. Lawrence. Dataset Shift in Machine Learning. The MIT Press, 2009. • [7] B. Recht, R. Roelofs, L. Schmidt, and V. Shankar. Do imagenet classifiers generalize to imagenet? In International Conference on Machine Learning (ICML), 2019. • [8] A. Torralba and A. A. Efros. Unbiased look at dataset bias. In Conference on Computer Vision and Pattern Recognition (CVPR), 2011.
Download now