Successfully reported this slideshow.

データ分析ランチセッション#24 OSSのAutoML~TPOTについて

0

Share

1 of 23
1 of 23

More Related Content

Related Books

Free with a 14 day trial from Scribd

See all

Related Audiobooks

Free with a 14 day trial from Scribd

See all

データ分析ランチセッション#24 OSSのAutoML~TPOTについて

  1. 1. Leverages Marketing Department データ分析ランチセッション#24 OSSのAutoML~TPOTについて 2020/07/29 渋谷スクランブルスクエア25F レバレジーズ株式会社 データ戦略室室長 阪上晃幸 1
  2. 2. Leverages Marketing Department ● Automated machine learningの略 ○ 機械学習を実際の問題に適用するプロセスを自動化することを目的としている。 それらを実現するツールのことをAutoMLと呼んでいる。 ○ AutoMLは、生のデータセットからデプロイ可能な機械学習モデルまでの完全なパイプラインを カバーする。 ○ 専門家でなくとも機械学習を用いたプロダクトを構築することを可能になるという画期的なツー ル。 ■ データサイエンティストの仕事を楽にしてくれるものでもある。 AutoMLとは 2
  3. 3. Leverages Marketing Department ● 具体的に何を自動化するのか? ○ データの準備、取り込み ■ データの型の判定(離散なのか連続なのか、ブーリアン代数なのか) ■ カラムの意味するものの判定(数値なのかカテゴリなのか) ■ タスクの判定(回帰か分類かクラスタリングか、ランク付けか) ○ 特徴量エンジニアリング ■ 特徴量選択 ■ 特徴量抽出 ■ 転移学習 ■ 欠損値の対応 ○ モデル選択 ○ ハイパーパラメータチューニング ○ 制約下でのMLパイプライン構築 ○ 評価指標と検証の方法の選択 ○ その他 ■ リークの発見 AutoMLが自動化する対象 3
  4. 4. Leverages Marketing Department いっぱいあるAutoML 4 有償 OSS
  5. 5. Leverages Marketing Department スターが多いOSSのAutoMLツールから探してみる 5 リンク:https://awesomeopensource.com/projects/automl
  6. 6. Leverages Marketing Department OSSのAutoMLツールTPOTを触ってみる 詳細には立ち入らないので詳しくは参考文献へ 6
  7. 7. Leverages Marketing Department ● Tree-based Pipeline Optimization Toolの略で、Pythonでの機械学習の自動化のた めのツールのこと。遺伝的プログラミングを用いて機械学習のパイプラインを最適化す る。 ● scikit-learnの上に乗っかったツールで、記法も scikit-learnに近い。 ○ 分類や回帰の機械学習タスクを行える。 ● 絶賛開発中 TPOTとは 7
  8. 8. Leverages Marketing Department TPOTで自動化される工程 8 引用元: https://github.com/EpistasisLab/tpot 誰かコミッターになり ましょう! 前処理は引き続き頑 張りましょう。
  9. 9. Leverages Marketing Department TPOTの処理概要(生成されたパイプラインの処理) 9 引用元: https://github.com/EpistasisLab/tpot
  10. 10. Leverages Marketing Department TPOTを使うには 10 pip install deap update_checker tqdm stopit pip install xgboost pip install dask[delayed] dask[dataframe] dask-ml fsspec>=0.3.3 pip install scikit-mdr skrebate pip install tpot まずはインストール
  11. 11. Leverages Marketing Department TPOTの分類器の引数について(分類) 11 詳しくはドキュメント見ましょ う。
  12. 12. Leverages Marketing Department TPOTの分類器の引数について(回帰) 12 詳しくはドキュメント見ましょ う。
  13. 13. Leverages Marketing Department チュートリアルの実行 13 MNISTの分類タスクが簡単 すぎたのか、あっという間に 0.98になって以降、改善しな い。 MNISTデータを使った分類タ スクを扱う。
  14. 14. Leverages Marketing Department チュートリアルの実行 14 このような.pyファイルが生成 される。
  15. 15. Leverages Marketing Department ● Iris flower classification ● Digits dataset ● Boston housing prices modeling ● Titanic survival analysis ● Portuguese Bank Marketing ● MAGIC Gamma Telescope ● Neural network classifier using TPOT-NN いろいろあるチュートリアルたち 15 色々あるので遊んでみよう。 チュートリアルのリンク: http://epistasislab.github.io/tpot/examples/
  16. 16. Leverages Marketing Department ● 某不動産紹介サイトから集めた、マンションの付帯設備に関するデータと、それがデザイ ナーズマンションかどうかのラベル。(1864件、正例322件) ○ 付帯設備情報から、そのマンションがデザイナーズマンションかどうかを予測するタスクを行う。 評価指標はAUCとする。 実践 16
  17. 17. Leverages Marketing Department ● 自身のブログでは AUCで88%くらいにはなっているので、今回はそれを超えれると良い と思われる。 先行事例 17 引用元: http://kamonohashiperry.com/archives/2444
  18. 18. Leverages Marketing Department 形態素解析でテキストデータの前処理を行う 18
  19. 19. Leverages Marketing Department TPOTを実行(次元削減してないので処理時間が長い) 19
  20. 20. Leverages Marketing Department 結果 20 ● AUCは先行研究の88%を超えて89%台に!
  21. 21. Leverages Marketing Department .pyファイルも生成された 21
  22. 22. Leverages Marketing Department ● OSSのAutoMLツールであるTPOTの概要と、チュートリアルを紹介した。 ● 過去にブログで扱った事例を上回る精度を出すことが出来たので、網羅的にモデルを試 すという観点では良いツールと思われる。 ● 前処理までは人間が行う必要はあるし、クロスバリデーションの自動化はまだなので、複 雑なタスクには向いていない。今後の開発が期待される。 まとめ 22
  23. 23. Leverages Marketing Department ● The Top 76 Automl Open Source Projects ● Installation - TPOT ● EpistasisLab / tpot ● TPOT API Classification ● Automated machine learning ● AutoMLがすごいと聞いたので色々使って比べてみた ● Scalable AutoML for Time Series Prediction Using Ray and Analytics Zoo ● TPOT Examples 参考文献 23

×