データ分析ランチセッション#24 OSSのAutoML~TPOTについて

Teruyuki Sakaue
Teruyuki SakaueData Analyst
Leverages Marketing Department
データ分析ランチセッション#24
OSSのAutoML~TPOTについて
2020/07/29 渋谷スクランブルスクエア25F
レバレジーズ株式会社 データ戦略室室長
阪上晃幸
1
Leverages Marketing Department
● Automated machine learningの略
○ 機械学習を実際の問題に適用するプロセスを自動化することを目的としている。
それらを実現するツールのことをAutoMLと呼んでいる。
○ AutoMLは、生のデータセットからデプロイ可能な機械学習モデルまでの完全なパイプラインを
カバーする。
○ 専門家でなくとも機械学習を用いたプロダクトを構築することを可能になるという画期的なツー
ル。
■ データサイエンティストの仕事を楽にしてくれるものでもある。
AutoMLとは
2
Leverages Marketing Department
● 具体的に何を自動化するのか?
○ データの準備、取り込み
■ データの型の判定(離散なのか連続なのか、ブーリアン代数なのか)
■ カラムの意味するものの判定(数値なのかカテゴリなのか)
■ タスクの判定(回帰か分類かクラスタリングか、ランク付けか)
○ 特徴量エンジニアリング
■ 特徴量選択
■ 特徴量抽出
■ 転移学習
■ 欠損値の対応
○ モデル選択
○ ハイパーパラメータチューニング
○ 制約下でのMLパイプライン構築
○ 評価指標と検証の方法の選択
○ その他
■ リークの発見
AutoMLが自動化する対象
3
Leverages Marketing Department
いっぱいあるAutoML
4
有償 OSS
Leverages Marketing Department
スターが多いOSSのAutoMLツールから探してみる
5
リンク:https://awesomeopensource.com/projects/automl
Leverages Marketing Department
OSSのAutoMLツールTPOTを触ってみる
詳細には立ち入らないので詳しくは参考文献へ
6
Leverages Marketing Department
● Tree-based Pipeline Optimization Toolの略で、Pythonでの機械学習の自動化のた
めのツールのこと。遺伝的プログラミングを用いて機械学習のパイプラインを最適化す
る。
● scikit-learnの上に乗っかったツールで、記法も
scikit-learnに近い。
○ 分類や回帰の機械学習タスクを行える。
● 絶賛開発中
TPOTとは
7
Leverages Marketing Department
TPOTで自動化される工程
8
引用元: https://github.com/EpistasisLab/tpot
誰かコミッターになり
ましょう!
前処理は引き続き頑
張りましょう。
Leverages Marketing Department
TPOTの処理概要(生成されたパイプラインの処理)
9
引用元: https://github.com/EpistasisLab/tpot
Leverages Marketing Department
TPOTを使うには
10
pip install deap update_checker tqdm stopit
pip install xgboost
pip install dask[delayed] dask[dataframe] dask-ml fsspec>=0.3.3
pip install scikit-mdr skrebate
pip install tpot
まずはインストール
Leverages Marketing Department
TPOTの分類器の引数について(分類)
11
詳しくはドキュメント見ましょ
う。
Leverages Marketing Department
TPOTの分類器の引数について(回帰)
12
詳しくはドキュメント見ましょ
う。
Leverages Marketing Department
チュートリアルの実行
13
MNISTの分類タスクが簡単
すぎたのか、あっという間に
0.98になって以降、改善しな
い。
MNISTデータを使った分類タ
スクを扱う。
Leverages Marketing Department
チュートリアルの実行
14
このような.pyファイルが生成
される。
Leverages Marketing Department
● Iris flower classification
● Digits dataset
● Boston housing prices modeling
● Titanic survival analysis
● Portuguese Bank Marketing
● MAGIC Gamma Telescope
● Neural network classifier using TPOT-NN
いろいろあるチュートリアルたち
15
色々あるので遊んでみよう。
チュートリアルのリンク: http://epistasislab.github.io/tpot/examples/
Leverages Marketing Department
● 某不動産紹介サイトから集めた、マンションの付帯設備に関するデータと、それがデザイ
ナーズマンションかどうかのラベル。(1864件、正例322件)
○ 付帯設備情報から、そのマンションがデザイナーズマンションかどうかを予測するタスクを行う。
評価指標はAUCとする。
実践
16
Leverages Marketing Department
● 自身のブログでは AUCで88%くらいにはなっているので、今回はそれを超えれると良い
と思われる。
先行事例
17
引用元: http://kamonohashiperry.com/archives/2444
Leverages Marketing Department
形態素解析でテキストデータの前処理を行う
18
Leverages Marketing Department
TPOTを実行(次元削減してないので処理時間が長い)
19
Leverages Marketing Department
結果
20
● AUCは先行研究の88%を超えて89%台に!
Leverages Marketing Department
.pyファイルも生成された
21
Leverages Marketing Department
● OSSのAutoMLツールであるTPOTの概要と、チュートリアルを紹介した。
● 過去にブログで扱った事例を上回る精度を出すことが出来たので、網羅的にモデルを試
すという観点では良いツールと思われる。
● 前処理までは人間が行う必要はあるし、クロスバリデーションの自動化はまだなので、複
雑なタスクには向いていない。今後の開発が期待される。
まとめ
22
Leverages Marketing Department
● The Top 76 Automl Open Source Projects
● Installation - TPOT
● EpistasisLab / tpot
● TPOT API Classification
● Automated machine learning
● AutoMLがすごいと聞いたので色々使って比べてみた
● Scalable AutoML for Time Series Prediction Using Ray and Analytics Zoo
● TPOT Examples
参考文献
23
1 of 23

Recommended

AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料) by
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)
AutoML & InterpretML (2019/11/27 Deep Learning Lab 講演資料)Keita Onabuta
2.1K views23 slides
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~ by
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~MicroAd, Inc.(Engineer)
366 views27 slides
エンタープライズと機械学習技術 by
エンタープライズと機械学習技術エンタープライズと機械学習技術
エンタープライズと機械学習技術maruyama097
6.1K views339 slides
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦 by
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦Preferred Networks
6.3K views67 slides
機械学習 - MNIST の次のステップ by
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップDaiyu Hatakeyama
992 views72 slides
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方 by
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方Shunsuke Nakamura
299 views53 slides

More Related Content

Similar to データ分析ランチセッション#24 OSSのAutoML~TPOTについて

【de:code 2020】 AutoML ではじめる機械学習の民主化 by
【de:code 2020】 AutoML ではじめる機械学習の民主化【de:code 2020】 AutoML ではじめる機械学習の民主化
【de:code 2020】 AutoML ではじめる機械学習の民主化日本マイクロソフト株式会社
355 views38 slides
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方 by
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方Shunsuke Nakamura
360 views54 slides
科学的説明を持つ機械学習システム by
科学的説明を持つ機械学習システム科学的説明を持つ機械学習システム
科学的説明を持つ機械学習システムgree_tech
2K views17 slides
Azure Machine Learning getting started by
Azure Machine Learning getting startedAzure Machine Learning getting started
Azure Machine Learning getting startedMasayuki Ota
12.3K views84 slides
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~ by
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~貴志 上坂
4.7K views25 slides
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成 by
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成Trainocate Japan, Ltd.
409 views41 slides

Similar to データ分析ランチセッション#24 OSSのAutoML~TPOTについて(20)

20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方 by Shunsuke Nakamura
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
20180809_機械学習を使った「ビジネスになる」アプリケーションの作り方
Shunsuke Nakamura360 views
科学的説明を持つ機械学習システム by gree_tech
科学的説明を持つ機械学習システム科学的説明を持つ機械学習システム
科学的説明を持つ機械学習システム
gree_tech2K views
Azure Machine Learning getting started by Masayuki Ota
Azure Machine Learning getting startedAzure Machine Learning getting started
Azure Machine Learning getting started
Masayuki Ota12.3K views
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~ by 貴志 上坂
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
Azure Machine Learningによるレコメンデーションの設計&実装を公開!~朝日カルチャーセンターの事例から~
貴志 上坂4.7K views
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成 by Trainocate Japan, Ltd.
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
2018/8/6 トレLABO2 AI案件のよくある落とし穴と人材育成
データマイニングCROSS 第2部-機械学習・大規模分散処理 by Koichi Hamada
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理
Koichi Hamada8.5K views
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML by Junichi Noda
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
Junichi Noda9.4K views
FastAPIを使って 機械学習モデルをapi化してみた by Sho Tanaka
FastAPIを使って 機械学習モデルをapi化してみたFastAPIを使って 機械学習モデルをapi化してみた
FastAPIを使って 機械学習モデルをapi化してみた
Sho Tanaka1.2K views
(Draft) lambda architecture by using TreasureData by Toru Takahashi
(Draft) lambda architecture by using TreasureData(Draft) lambda architecture by using TreasureData
(Draft) lambda architecture by using TreasureData
Toru Takahashi1.9K views
GOの機械学習システムを支えるMLOps事例紹介 by Takashi Suzuki
GOの機械学習システムを支えるMLOps事例紹介GOの機械学習システムを支えるMLOps事例紹介
GOの機械学習システムを支えるMLOps事例紹介
Takashi Suzuki6.1K views
1028 TECH & BRIDGE MEETING by 健司 亀本
1028 TECH & BRIDGE MEETING1028 TECH & BRIDGE MEETING
1028 TECH & BRIDGE MEETING
健司 亀本524 views
東北大学AIE - 機械学習中級編とAzure紹介 by Daiyu Hatakeyama
東北大学AIE - 機械学習中級編とAzure紹介東北大学AIE - 機械学習中級編とAzure紹介
東北大学AIE - 機械学習中級編とAzure紹介
Daiyu Hatakeyama741 views
いまできるデータ分析を Power BI ではじめよう by Yugo Shimizu
いまできるデータ分析を Power BI ではじめよういまできるデータ分析を Power BI ではじめよう
いまできるデータ分析を Power BI ではじめよう
Yugo Shimizu3.6K views
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ... by NTT DATA Technology & Innovation
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
(修正)機械学習デザインパターン(ML Design Patterns)の解説 by Hironori Washizaki
(修正)機械学習デザインパターン(ML Design Patterns)の解説(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki10.9K views
BtoBマーケティングにおけるML/NLPの活用 by Akira Kitauchi
BtoBマーケティングにおけるML/NLPの活用BtoBマーケティングにおけるML/NLPの活用
BtoBマーケティングにおけるML/NLPの活用
Akira Kitauchi3.4K views
yokyo-unv. by hirano
yokyo-unv.yokyo-unv.
yokyo-unv.
hirano566 views
ピタゴラAPIのすゝめ ー APIの組み合わせ利用でできること - by Hiroshi Masuda
ピタゴラAPIのすゝめ ー APIの組み合わせ利用でできること -ピタゴラAPIのすゝめ ー APIの組み合わせ利用でできること -
ピタゴラAPIのすゝめ ー APIの組み合わせ利用でできること -
Hiroshi Masuda1.3K views

More from Teruyuki Sakaue

実務と論文で学ぶジョブレコメンデーション最前線2022 by
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022Teruyuki Sakaue
1.8K views36 slides
警察庁オープンデータで交通事故の世界にDeepDive! by
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!Teruyuki Sakaue
3.7K views41 slides
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み by
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組みTeruyuki Sakaue
4.3K views38 slides
[Music×Analytics]プロの音に近づくための研究と練習 by
[Music×Analytics]プロの音に近づくための研究と練習[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習Teruyuki Sakaue
3.3K views43 slides
[DSO] Machine Learning Seminar Vol.8 Chapter 9 by
[DSO] Machine Learning Seminar Vol.8 Chapter 9[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9Teruyuki Sakaue
523 views54 slides
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる by
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみるTeruyuki Sakaue
6.6K views39 slides

More from Teruyuki Sakaue(15)

実務と論文で学ぶジョブレコメンデーション最前線2022 by Teruyuki Sakaue
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
Teruyuki Sakaue1.8K views
警察庁オープンデータで交通事故の世界にDeepDive! by Teruyuki Sakaue
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!
Teruyuki Sakaue3.7K views
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み by Teruyuki Sakaue
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
Teruyuki Sakaue4.3K views
[Music×Analytics]プロの音に近づくための研究と練習 by Teruyuki Sakaue
[Music×Analytics]プロの音に近づくための研究と練習[Music×Analytics]プロの音に近づくための研究と練習
[Music×Analytics]プロの音に近づくための研究と練習
Teruyuki Sakaue3.3K views
[DSO] Machine Learning Seminar Vol.8 Chapter 9 by Teruyuki Sakaue
[DSO] Machine Learning Seminar Vol.8 Chapter 9[DSO] Machine Learning Seminar Vol.8 Chapter 9
[DSO] Machine Learning Seminar Vol.8 Chapter 9
Teruyuki Sakaue523 views
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる by Teruyuki Sakaue
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
Teruyuki Sakaue6.6K views
[DSO] Machine Learning Seminar Vol.2 Chapter 3 by Teruyuki Sakaue
[DSO] Machine Learning Seminar Vol.2 Chapter 3[DSO] Machine Learning Seminar Vol.2 Chapter 3
[DSO] Machine Learning Seminar Vol.2 Chapter 3
Teruyuki Sakaue6.4K views
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理 by Teruyuki Sakaue
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
Teruyuki Sakaue6.7K views
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2 by Teruyuki Sakaue
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
Teruyuki Sakaue6.3K views
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16 by Teruyuki Sakaue
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
Teruyuki Sakaue6.5K views
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選 by Teruyuki Sakaue
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
Teruyuki Sakaue645 views
流行りの分散表現を用いた文書分類について Netadashi Meetup 7 by Teruyuki Sakaue
流行りの分散表現を用いた文書分類について Netadashi Meetup 7流行りの分散表現を用いた文書分類について Netadashi Meetup 7
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
Teruyuki Sakaue23.4K views
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1 by Teruyuki Sakaue
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Teruyuki Sakaue15.1K views
Marketing×Python/Rで頑張れる事例16本ノック by Teruyuki Sakaue
Marketing×Python/Rで頑張れる事例16本ノックMarketing×Python/Rで頑張れる事例16本ノック
Marketing×Python/Rで頑張れる事例16本ノック
Teruyuki Sakaue22.5K views
機械学習による積極的失業〜オウンドメディアの訪問予測 by Teruyuki Sakaue
機械学習による積極的失業〜オウンドメディアの訪問予測機械学習による積極的失業〜オウンドメディアの訪問予測
機械学習による積極的失業〜オウンドメディアの訪問予測
Teruyuki Sakaue6.8K views

データ分析ランチセッション#24 OSSのAutoML~TPOTについて