Azure Machine Learningの概要
モジュールの解説(データ&前処理)
2018.11.17
Azure Machine Learning勉強会 in Okayama
貞松 政史
OCL × OITEC
オカヤマ コンピュータサイエンス ラボ (OCL)
Okayama IT Engineer Community (OITEC)
自己紹介
• 貞松 政史 (サダマツ マサシ)
• @sady_nitro
• Microsoft系テクノロジー
• コンピュータサイエンス
• 組合せ最適化、 強化学習など
本日のハッシュタグ
#okacslab
本日の流れ
• Azure Machine Learningの概要説明
• Azure Machine Learningのモジュール説明
• データ読み込み
• 前処理
• 学習アルゴリズム
• 評価
• Azure Machine Learningで機械学習実験のデモ
• レコメンドの実験
本セッションの流れ
• Azure Machine Learningの概要説明
• Azure Machine Learningのモジュール説明
• データ読み込み
• 登録済みデータの配置
• 外部データの接続
• 前処理
• データのクリーニング
• データのフィルタリング
• データの加工 (絞り込み、結合、集計、ハッシュ化 など)
• データの分割 (学習データとテストデータ)
Azure Machine Learningの概要説明
• Azure Machine Learningの概要説明
• Azure Machine Learningのモジュール説明
• データ読み込み
• 登録済みデータの配置
• 外部データの接続
• 前処理
• データのクリーニング
• データのフィルタリング
• データの加工 (絞り込み、結合、集計など)
• データの分割 (学習データとテストデータ)
Azure Machine Learningとは
• Azureの機械学習サービス(PaaS)
Azure Machine Learningとは
• (ほぼ)GUIでの操作だけで機械学習の実験を実施できる
• 予め準備されているモジュールを組み合わせる
• RやPythonのコードを実行することもできる
• Experiments内のモジュールで実行
• ビルトインのJupyter Notebookを使用
Azure Machine Learningでできること
• 一般的に機械学習で取り扱う問題を解決する
(その為のモデルを学習する)
• 予測
• 分類(Two-Class, Multi-Class)
• クラスタリング
• 異常検知
など
Azure Machine Learningの実験の流れ
• データの準備 (データのアップロード、外部データの接続)
• モデルの学習と評価
• 学習済みモデルをWebサービス (Web API)として公開
モデルの学習と評価までの構成
データの読み込み
データの加工
学習アルゴリズム
学習モデルの評価
Webサービスとして公開
学習済みモデルにWebAPI用の
Input・OutPutをつなぐだけ
モジュール説明(データ読み込み)
• Azure Machine Learningの概要説明
• Azure Machine Learningのモジュール説明
• データ読み込み
• 登録済みデータの配置
• 外部データの接続
• 前処理
• データのクリーニング
• データのフィルタリング
• データの加工 (絞り込み、結合、集計など)
• データの分割 (学習データとテストデータ)
Saved Datasets
予め用意されたサンプルデータ
もしくはアップロード済みの
データを配置する
Data Input and Output
Azure ML Studio上にない外部データを取り込むための
モジュール(一部出力するためのモジュール)
Data Format Conversions
Azure ML Studio上で扱うデータを別の形式に変換する為のモジュール
モジュール説明(前処理)
• Azure Machine Learningの概要説明
• Azure Machine Learningのモジュール説明
• データ読み込み
• 登録済みデータの配置
• 外部データの接続
• 前処理
• データのクリーニング
• データのフィルタリング
• データの加工 (絞り込み、結合、集計など)
• データの分割 (学習データとテストデータ)
Data Transformation
読み込んだデータを実験用に加工するためのモジュール群
Filterモジュール
主に信号データに対するフィルターを適用するモジュール
Learning with Countsモジュール
Manipulationモジュール
Datasetに対して、何かしらの処理を
加えるためのモジュール
- 列や行の追加
- 列の絞り込み
- データの結合
- 欠損データの除去
- SQLクエリによる集計
など
Sample and Splitモジュール
データセットのサンプリングや学習データとテストデータの分割
Scale and Reduceモジュール
正規化や主成分分析により学習データをスケールするモジュール
Feature Selectionモジュール
特徴選択モジュール
予測や分類を実行する際に最適な特徴(説明変数)を判断する
Text Analyticsモジュール
テキストデータの言語やキーワード
を抽出したり、学習用にベクトル化
やハッシュ化するためのモジュール
※日本語のテキストに対して
適用する為には、事前に
「わかち書き」が必要
前半のまとめ
• Azure Machine Learning
• Azureの機械学習サービス
• GUIで機械学習の実験を構成できる
• 学習済みモデルをWebサービスとして公開できる
• データ読み込み・加工の為のモジュール
• 事前アップロードもしくは実験実行時にデータロード
• データの種類、状態に応じてデータの加工を行うモジュールが多数存在

20181117 azure ml_seminar_1

Editor's Notes

  • #2 ■概要 概要 できること・できないこと 自由にやりたくばPythonとJupyterで AzureMLStudioを中心に話すよ ■データ SavedDataset Import Data ■前処理 SQLite Python Add Row Column Select Column Join Data Filterいくつか 統計関数 Feature Hashing Split Data