AutoGluonではじめるAutoML

AutoGluonではじめるAutoML
前処理もすべて任せて3行で学習

自己紹介
● 名前: 西岡賢一郎
○ 鹿児島出身、一児のパパ
○ Twitter: @ken_nishi
○ note: 西岡賢一郎@研究者から経営者へ (https://note.com/kenichiro)
○ YouTube: 【経営xデータサイエンスx開発】西岡賢一郎のチャンネル
(https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg)
● 経歴
○ 東京大学で位置予測アルゴリズムを研究し博士 (学術) を取得
○ 東京大学の博士課程在学中にデータサイエンスをもとにしたサービスを提供する株式会社ト
ライディアを設立
○ トライディアを別のIT会社に売却し、現在CTOを務める
○ 自社および他社のプロダクト開発チーム・データサイエンスチームの立ち上げ経験

AutoMLの必要性
● 機械学習(ML)は過去10年で著しく発展
● 一方、MLの専門家でさえも最近のベストプラクティスをモデリングに組み込
むことは困難
● AutoMLフレームワークが代替になれる
○ 初心者にとっては高性能なMLモデルをデプロイする障壁を取り除けるという利点
○ 専門家にとっては最高のMLプラクティスをたったの一回で実装できるポテンシャルを提供
■ 頻繁に手動で操作する割り込みが必要なくなる

● 5つの幅広く使われているAutoMLのフレームワーク
○ Auto-WEKA
■ 最初期のAutoMLの一つ
■ WEKA Java MLライブラリから幅広いモデルをベースにしていて、ベイズ最適化を通し
てCASH (Combined Algorithm Selection and Hyperparameter optimization)を行った
最初のフレームワーク
■ モデル選択後、Auto-WEKAが予測を改善するためにさまざまなアンサンブリング戦略
を試行
○ auto-sklearn
■ 2019年頃までいくつものAutoMLコンペで勝利を納める
■ ベースとなるモデルをscikit-learnのMLライブラリから選択
■ ハイパーパラメータ探索におけるメタラーニングの使用と多くのモデルのアンサンブル
戦略が特徴
AutoML Frameworks

○ TPOT
■ 遺伝的アルゴリズムを使用してMlパイプラインを最適化
■ 探索されるパイプラインはデータ処理操作、ハイパーパラメータ、モデル、他のモデル
とのスタッキングからなる
■ 探索空間が不規則な場合、探索されたパイプラインの多くは無駄になり時間効率が悪い
○ H2O AutoML
■ 幅広く使われているAutoML
● 特にKaggleでよく用いられる
■ 生のCSVを処理してテストデータの予測が可能でbaggingとstackingを組み合わせた層
を持ち、XGBoostなども用いたアンサンブルも可能
■ ハイパーパラメータ最適化のランダム探索などは実施していないが、その他のAutoML
よりも高い性能を出すことが多い
AutoML Frameworks

AutoML Frameworks
○ GCP-Tables
■ end-to-endなAutoMLで生データを入力して学習させるだけで予測が可能
■ Google Cloudでのみ利用可能でモデルのtrainingと予測はGoogle CloudへAPIコールす
る必要がある
■ 決定木のアンサンブルとAdaNetを使用していると知られているが中身は非公開
○ Others
■ auto-xgboost, GAMA, hyperopt-sklearn, TransmogrifAI, ML-Plan, OBOE, Auto-Keras
■ SageMaker AutoPilot, Azure ML, H2O Deiverless AI, DataRobot, DArwin AutoML

AutoGluon
● Kaggleのとあるコンペで99%の参加者を上回った
○ 参考: https://arxiv.org/abs/2003.06505
● AutoGluonでは様々な予測が実施できる
○ Tabular Prediction
○ Image Prediction
○ Object Detection
○ Text Prediction
○ Multimodal Prediction: Image、Text、Tabularの機能を同時に含む問題

AugoGluonで使われるモデルの例
● k-Nearest Neighbors
● Random Forests
● Extra Trees
● LightGBM
● CatBoost
● Tabular Deep Neural Network

スタッキング
AutoGluonではモデルを階層として重ねるスタッキングも行う

学習がたった3行で終わる
● CSV形式の構造化データセットを例に挙げると、3行でAutoGluonを用いたモ
デルをtrainingしてテスト可能
● fit()を呼び出すとAutoGluonは自動的に以下を実行
○ 生データの前処理
○ 二値分類、多値分類、回帰を特定
○ データをさまざまなfoldに分割してモデルをtraining
○ 最適化されたモデルのアンサンブルを生成
● 前処理などもfit()内で実施してくれる！！

今回のデモのコード
● https://github.com/knishioka/practice-automl
○ https://github.com/knishioka/practice-
automl/blob/main/autogluon/AutoGluon%20Tutorial%20-%20Quick%20Start.ipynb

AutoGluonではじめるAutoML

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to AutoGluonではじめるAutoML

Similar to AutoGluonではじめるAutoML (20)

More from 西岡賢一郎

More from 西岡賢一郎 (9)

Recently uploaded

Recently uploaded (8)