More Related Content Similar to データ分析ランチセッション#24 OSSのAutoML~TPOTについて Similar to データ分析ランチセッション#24 OSSのAutoML~TPOTについて(20) More from Teruyuki Sakaue More from Teruyuki Sakaue(15) データ分析ランチセッション#24 OSSのAutoML~TPOTについて2. Leverages Marketing Department
● Automated machine learningの略
○ 機械学習を実際の問題に適用するプロセスを自動化することを目的としている。
それらを実現するツールのことをAutoMLと呼んでいる。
○ AutoMLは、生のデータセットからデプロイ可能な機械学習モデルまでの完全なパイプラインを
カバーする。
○ 専門家でなくとも機械学習を用いたプロダクトを構築することを可能になるという画期的なツー
ル。
■ データサイエンティストの仕事を楽にしてくれるものでもある。
AutoMLとは
2
3. Leverages Marketing Department
● 具体的に何を自動化するのか?
○ データの準備、取り込み
■ データの型の判定(離散なのか連続なのか、ブーリアン代数なのか)
■ カラムの意味するものの判定(数値なのかカテゴリなのか)
■ タスクの判定(回帰か分類かクラスタリングか、ランク付けか)
○ 特徴量エンジニアリング
■ 特徴量選択
■ 特徴量抽出
■ 転移学習
■ 欠損値の対応
○ モデル選択
○ ハイパーパラメータチューニング
○ 制約下でのMLパイプライン構築
○ 評価指標と検証の方法の選択
○ その他
■ リークの発見
AutoMLが自動化する対象
3
7. Leverages Marketing Department
● Tree-based Pipeline Optimization Toolの略で、Pythonでの機械学習の自動化のた
めのツールのこと。遺伝的プログラミングを用いて機械学習のパイプラインを最適化す
る。
● scikit-learnの上に乗っかったツールで、記法も
scikit-learnに近い。
○ 分類や回帰の機械学習タスクを行える。
● 絶賛開発中
TPOTとは
7
15. Leverages Marketing Department
● Iris flower classification
● Digits dataset
● Boston housing prices modeling
● Titanic survival analysis
● Portuguese Bank Marketing
● MAGIC Gamma Telescope
● Neural network classifier using TPOT-NN
いろいろあるチュートリアルたち
15
色々あるので遊んでみよう。
チュートリアルのリンク: http://epistasislab.github.io/tpot/examples/
16. Leverages Marketing Department
● 某不動産紹介サイトから集めた、マンションの付帯設備に関するデータと、それがデザイ
ナーズマンションかどうかのラベル。(1864件、正例322件)
○ 付帯設備情報から、そのマンションがデザイナーズマンションかどうかを予測するタスクを行う。
評価指標はAUCとする。
実践
16
22. Leverages Marketing Department
● OSSのAutoMLツールであるTPOTの概要と、チュートリアルを紹介した。
● 過去にブログで扱った事例を上回る精度を出すことが出来たので、網羅的にモデルを試
すという観点では良いツールと思われる。
● 前処理までは人間が行う必要はあるし、クロスバリデーションの自動化はまだなので、複
雑なタスクには向いていない。今後の開発が期待される。
まとめ
22
23. Leverages Marketing Department
● The Top 76 Automl Open Source Projects
● Installation - TPOT
● EpistasisLab / tpot
● TPOT API Classification
● Automated machine learning
● AutoMLがすごいと聞いたので色々使って比べてみた
● Scalable AutoML for Time Series Prediction Using Ray and Analytics Zoo
● TPOT Examples
参考文献
23