Advertisement

More Related Content

Similar to sitTokyo2023_DWCで機械学習をやってみた_Shared.pptx(20)

Recently uploaded(20)

Advertisement

sitTokyo2023_DWCで機械学習をやってみた_Shared.pptx

  1. 2023年3月9日 嬉野 由 SAPジャパン DWCで機械学習をやってみた SAP Inside Track 2023 TOKYO
  2. 2 1. SAP Data Warehouse Cloud / HANA Cloud 概要 2. シナリオ紹介 3. デモ 4. やってみて感じたこと DWCで機械学習をやってみた
  3. 3 1. SAP Data Warehouse Cloud / HANA Cloud 概要 2. シナリオ紹介 3. デモ 4. やってみて感じたこと DWCで機械学習をやってみた
  4. 4 テクノロジー アプリケーション開発 自動化 インテグレーション データ管理&分析 AI Intelligent, Sustainable Enterprise Intelligent, sustainable enterprise Lead to cash Recruit to retire Design to operate Source to pay ビジネスネットワーク インダストリ ー クラウド エクスペリエンス管理 計画 ソリューション領域 業種固有の エンドツーエンドプロセス ビジネスプロセス ビジネスプロセス管理 一貫性の あるUX One ワークフ ローインボックス E2Eのプロセス 設計図 共通のドメイン モデル 統合されたセキュ リティ&ID管理 コーディネイトさ れたライフサイク ル管理 組み込み/ クロスアプリの アナリティクス エンタープライズリソース管理 (ERP) 支出管理 人事・人材管理 (HCM) 顧客管理 (CRM)
  5. 5 SAP Data Warehouse Cloud クラウドシステム データベース データレイク オンプレミスシステム ファイル ビジネスユーザ ITユーザ 簡単な操作でデータを 収集・統合・加工でき る セルフサービスモデリ ング 必要な情報を迅速に共有で き、データに基づくコラボ レーションを促進 データの定義、目的、形 式、責任者を明確にし、 企業全体の情報をカタロ グ化 SAP Data Warehouse Cloud クラウドネイティブなデータ活用プラットフォームサービス SAP S/4HANA SAP BW/4HANA
  6. 6 企業システムにおけるリアルタイムデータ活用基盤 データを価値に変える、SAPの "Data-to-Value" プラットフォーム SAP Business Technology Platform 高速なインメモリーデータベース SAP HANA Cloud データレイク SAP Data Warehouse Cloud SAP BW/4HANA クラウドストレージ IoT Sensors Devices Log Files Flat Files Image Text SNS Video etc. 関連システム SaaS PaaS SaaS Embedded Analytics 全社統合ERP SAP S/4HANA AI/機械学習 予測分析 SAP HANA 業務オペレーション ダッシュボード 予測分析 予算計画 SAP Analytics Cloud アナリティクス セルフサービスBI MS Office 統合 SAP BW Bridge Data Marketplace 長期データ保存機能 社外データの活用 ビジネスコンテンツ : 透過アクセス : データのコピー
  7. 7 SAP HANAの主な特徴 • インメモリーテクノロジーによる卓越した情報処理性能 • データ仮想統合による情報入手のリードタイム短縮 o 企業システムのデータアクセスをシングルゲートウェイ化 • マルチモデルデータ処理による新たなインサイト o 地理空間データ、非構造データ o 予測分析、グラフエンジン、機械学習機能などの高度な分析機能を内包 SAP HANAがもたらすお客様価値 • 意思決定の迅速化、正確性の向上 • ビジネスプロセス実行の高速化 • 所要ITコストの低減 SAP HANA : インメモリーデータベース 企業システムの“あるべき姿”を実現 Automated Predictive Library Python/R 機械学習クライアント SQL データベー スと開発者クライア ント SAP HANA Cloud 高度な分析処理 SAP Application Function Library (AFL) 6 機械学習 検索 ドキュメン トストア グラフ 地理空間 情報 Predictive Analysis Library テキスト 分析
  8. 8 SAP HANA Cloudのマルチモデル処理 クリック ストリー ム 顧客デー タ コネク テッド カー スマー ト メータ ー 販売の ポイン ト モバイ ル 構造 データ 地理空間 データ テキス ト データ RFID マシン データ SNS すべてのデータ  構造化データ:業務アプリケーションで発生する顧客情報、取引情報などを集計してレポート作成  地理空間データ: HANAの地理空間エンジンを使用し、すべての種類の空間データを調和、業務データのリッチ化、業務プロセスへの位置情報インテリジェンスの組 み込み、等を実施  グラフデータ: HANAのグラフエンジンとアルゴリズムを使用し、ハイパー接続データやその関係性から、より深いインサイトを抽出  JSONデータ: ネイティブSQLを使用し非構造化データを処理 - JSONドキュメント向けのACID完全サポートのエンタープライズ対応ドキュメントストアを使用  テキストデータ: SQLを使用してテキストデータに対してあいまい検索をすることが可能。テキストマイニングを実施して言語的に類似している言葉や文章、同義 を求めることなども可能  ストリーミングデータ: HANAのストリーミングエンジン(On-premise HANA Platformのみ)や外部ストリーミングエンジンを活用してライブデータストリームを 取り込んで分析 SAP HANA Embed graph analysis in same SQL Embed geospatial in same SQL Embed fuzzy text search in same SQL 1 CREATE FULLTEXT INDEX i1 ON PSA_TRANSACTION( 2 AMOUNT, TRAN_DATE, POST_DATE, DESCRIPTION, 3 CATEGORY_TEXT ) FUZZY SEARCH INDEX ON SYNC; 4 5 SELECT SCORE() AS SCR, * FROM 6 "SYSTEM"."PSA_TRANSACTION" WHERE CONTAINS 7 (*, 'Sarvice', fuzzy) ORDER BY SCR DESC;
  9. 10 HANAの機械学習の利点  古典的なMLシナリオのための最先端のアルゴリズム – Classification, regression, forecasting, clustering, … – 自動化されたML機能(APL)およびエキスパートML機能(PAL)(ランダ ム決定木、グラディエントブースティングなどのトレンド機能を含む  データおよびデータベーストランザクションと同じ場所でMLが実行される – HANAのインメモリ処理の性能と恩恵を受ける – 非機能要件の実現が同一DB内で可能 – S/4HANAのトランザクション処理内でクイックなML推論が可能  シンプルなアーキテクチャ – 追加のサービスやマシンが不要で、追加のソフトウェアライフサイクルを管 理する必要がない – 空間、グラフ、テキスト分析処理との併用など、マルチモデルなコンテキス トでの適用が可能  マルチロールとユーザーインターフェース – データベース開発者向けのSQL – データサイエンティスト向けのPAL/APLを介したPythonおよびRクライアン トAPI – SAP Data Intelligenceを介したパイプラインのモデリング – ABAP/HANA-SQL機能によるSAPアプリケーションへの統合
  10. 11  HANAのEngineを使いHANAのデータを対象に機械学習を実現する機能(Embedded Machine learning)で す。  Embedded Machine learningは予測や学習を行うPALと自動化を行うAPLに分かれています HANA Cloudの機械学習とは? Advanced analytical processing Graph ML & Predictive Search Series data Streaming analytics Spatial Text analytics SAP HANA Platform Serving Server Active Model(s) R-Server R-Serve External Machine Learning TensorFlow Integration Embedded Machine Learning Predictive Analysis Library Automated Predictive Library R Integration / Cloud
  11. 12 Classification Analysis  Decision Tree Analysis (CART, C4.5, CHAID) , Logistic Regression, Support Vector Machine, K-Nearest Neighbor, Naïve Bayes, Confusion Matrix, AUC, Online multi-class Logistic Regression*  Multilayer Perception (back propagation Neural Network)  Random Decision Trees, Hybrid Gradient Boosting Tree (HGBT)#,, Continuous HGBT*  Unified Classification#  Model explainability# Regression  Multiple Linear Regression, Online Linear Regression*  Polynomial-, Exponential-, Bi-Variate Geometric-, Bi-Variate Natural Logarithmic- Regression  Generalized Linear Model (GLM)  Cox Proportional Hazards Model  Random Decision Trees, Hybrid Gradient Boosting Tree (HGBT) #, Continuous HGBT*  Unified Regression* incl. explainability Association Analysis  Apriori, Apriori Lite, FP-Growth  K-Optimal Rule Discovery (KORD) Discovery, Sequential Pattern Mining Link Prediction  Link Prediction (Common Neighbors, Jaccard’s Coefficient, Adamic/Adar, Katzβ), PageRank Recommender Systems  Factorized Polynomial Regression Models, Alternating least squares, Field-aware Factorization Machines (FFM) Text Processing  Conditional Random Field, Latent Dirichlet Allocation  TF-IDF*, term analysis*, text classification*, get related terms / documents*, get relevant terms / documents*, get suggested terms* Data Preprocessing  Sampling, Partitioning, SMOTE, TomekLink, SMOTETomek# *  Binning / Discretize, Missing Value Handling, Scaling, Feature Selection* Statistical & Multivariate Analysis  Univariate Analysis (Data Summary, Mean, Median, Variance, Stand. Deviation, Kurtosis, Skewness, ..)  Kernel Density Estimation, Entropy  Correlation Function  Multivariate Analysis (Covariance Matrix, Pearson Correlations Matrix), Condition Index  Principal Component Analysis (PCA)/PCA Projection, TSNE, Categorial PCA  Linear Discriminant Analysis  Multidimensional scaling, Factor Analysis  Chi-squared Tests: Quality of Fit, Test of Independence, ANOVA, F-test (equal variance test)  One-sample Median Test, T Test, Wilcox Signed Rank Test  Inter-Quartile Range, Variance Test, Grubbs Outlier Test , Anomaly Detection (KMeans)  Random Distribution Sampling, Markov Chain Monte Carlo (MCMC)#  Distribution Fitting, Cumulative Distribution Function, Distribution Quantile Misc. Functions  Kaplan-Meier Survival Analysis, Weighted Scores Table, ABC Analysis, Tree model visualization# Cluster Analysis  K-Means, Accelerated K-Means, K-Medoids, K- Medians, Geo- / DBSCAN, Agglomerate Hierarchical Clustering*  Kohonen Self-Organizing Maps, Affinity Propagation, Gaussian Mixture Model  Unified Clustering#, Spectral clustering*  Slight Silhouette, Cluster Assignment Time Series Analysis  Single-, Double-, Triple-, Brown-, Auto Exponential Smoothing, Unified Exponential Smoothing (incl. massive segmentation)*  Auto-ARIMA, Online ARIMA*, Vector-ARIMA*, ARIMA_EXPLAIN*  GARCH*, BSTS*  Croston’s Method, Linear Regression with damped trend and seasonal adjust, Intermittent Time Series Forecast*  Fast Dynamic Time Warping# , DTW*  Additive Model Analysis#*  Hierarchical Forecasting  Fast Fourier Transform (FFT), Discrete Wavelet/ Wavelet Packet Transform*  White Noise-, Trend-, Seasonality-Test, Change Point Detection, Bayesian Change Point Detection* ,Forecast Accuracy Measures  LSTM*, Attention* 現在実装されているHANA PALの機能一覧(SPS6時点) – #SAP HANA 2 SPS05 | *SAP HANA 2 SPS06 & HANA Cloud | *New in SAP HANA Cloud | As of SAP HANA Cloud 2020 QRC03 (CE2020.36)
  12. 13 APLとは?  APLとはHANAの自動予測ライブラリ(APL)  自動分類、回帰、時系列予測などの主要なシナリオに対応化 は、「構造的リスクの最小化」の概念に基づき、自動変数選 択、データ準備、変数エンコーディング、欠損値処理、異常 値処理、ビニングとバンディング、モデルテスト、ベストモ デル選択などの分析ステップをカバーします  専門家ではないデータサイエンティストでも、HANA上に構 築されたアプリケーションでも、迅速かつ容易に利用するこ とができます  APLは、予測モデルの作成、学習、適用、デプロイ、および クエリを行うためのシンプルなプロシージャ関数を提供しま す  注)AutoMLは別のPALをベースにしたものです SAP HANA Platform Automated Predictive Library (APL) Classification Regression Cluster analysis Time series forecasting Association analysis Recommendatio n Link analysis * https://blogs.sap.com/2020/04/23/automate-machine-learning-with-apl-now-part-of-sap- hana-sps04/ ** support for Gradient Boosting-based regression and multinomial classification
  13. 14 1. SAP Data Warehouse Cloud / HANA Cloud 概要 2. シナリオ紹介 3. デモ 4. やってみて感じたこと DWCで機械学習をやってみた
  14. 15 SAP HANA Cloud マルチモデル処理技術と予測分析ライブラリ (PAL) の機械学習分類技術を利用して価格をモデル化します。ガソリンスタ ンドのクラス カテゴリと、ステーション属性 (空間属性を含む) の影響 と、価格に影響があるインジケーターを推測します • Ex 6.1 平均的な e5 燃料価格レベルに基づいて燃料ステーションの価格クラス ラベル変数を作成 し、ステーション マスター データおよび価格指標属性データフレームを定義します • Ex 6.2 複数の地理的位置から派生した属性を持つ追加のステーション属性データフレームを定 義します • Ex 6.3 ステーションの価格クラス分類モデルを構築し、価格クラス ラベルに対する各項目の影 響 (特に位置情報による影響) を確認します DA180 Exrecise5&6 シナリオ https://github.com/SAP-samples/teched2022-DA180/tree/main/exercises/ex6 SAP HANA Cloud のマルチモデル処理技術を用いて、ドイツの地理的 に配置された燃料ステーション データを準備および収集します。次に、 予測分析ライブラリ (PAL)を使用してセグメント化された予測手法を適 用し、各ステーションの「e5」自動車燃料価格の予測モデルを構築して 適用します • Ex 5.1 では、駅と地域の地理データをダウンロードし、 SAP HANA Cloud に保存し、データに HANA 空間フィルタリングを適用して視覚化 • Ex 5.2 で燃料価格データをダウンロードして SAP HANA Cloud に保存し、時系列データを視覚的に探 索 • Ex 5.3 で、空間的にフィルター処理されたステーションで e5 価格予測モデルを構築し、予測された燃 料価格データを視覚化します https://github.com/SAP-samples/teched2022-DA180
  15. 16 SAP Analytics Cloud SAP Data Warehouse Cloud Business and Data Layer, Governance JAPAN_PDM#URESHINO Schema MLモデル の作成 HANA ML – PAL / APL, in-memory DB データフレー ムの定義・分 類データのト レーニング 予測テーブ ルの作成 Imported ML View データ JAPAN_PDM Space ストーリー DA180 Exrecise5&6 シナリオ • Ex 6.1 平均的な e5 燃料価格レベルに基づいて燃料ステー ションの価格クラス ラベル変数を作成し、ステーション マ スターデータおよび価格指標属性データフレームを定義し ます • Ex 6.2 複数の地理的位置から派生した属性を持つ追加のス テーション属性データフレームを定義します • Ex 6.3 ステーションの価格クラス分類モデルを構築し、価 格クラス ラベルに対する各項目の影響 (特に位置情報による 影響) を確認します • Ex 5.1 では、駅と地域の地理データをダウンロードし、 SAP HANA Cloud に保存し、データに HANA 空間フィルタリング を適用して視覚化 • Ex 5.2 で燃料価格データをダウンロードして SAP HANA Cloud に保存し、時系列データを視覚的に探索 • Ex 5.3 で、空間的にフィルター処理されたステーションで e5 価格予測モデルを構築し、予測された燃料価格データを視覚 化します Exercise.5 Exercise.6 Ex.5 Ex.6
  16. 17 1. SAP Data Warehouse Cloud / HANA Cloud 概要 2. シナリオ紹介 3. デモ 4. やってみて感じたこと DWCで機械学習をやってみた
  17. 18 最初の設定 HANA MLをインポート DWCのOpen SQLスキー マの接続情報を入力
  18. 19 燃料価格の時系列表示 燃料価格のbox plot ガソリンスタンドごとに時系列解 析を行い、価格を時系列予測した グラフ # Build a forecast model per station in parallel using PAL Additive Model Forecast (aka Prophet)-forecasting function from hana_ml.algorithms.pal.tsa.additive_model_forecast import AdditiveModelForecast amf = AdditiveModelForecast(massive=True,growth='linear', changepoint_prior_scale=0.06, weekly_seasonality='True', daily_seasonality='True' ) amf.fit(data=train_rnk_hdf, key="date", group_key="station_uuid", holiday=holiday_data_hdf) 燃料価格の予測をモデル化(Additive-Model-Analysis) Ex.5 データの準備と時系列予測
  19. 20 Ex.6.1 ガソリンスタンド分類データの準備と調査 各インジケーターの相関関係を見 るために混合行列を表示する SQL ステートメントに基づいて、下記のステーション関連の e5 価格インジ ケーター属性を導出し、ガソリンスタンドの価格レベルインジケータ属性デー タフレームを作成する • *_E5C_D は、毎日の「e5change」カウント派生指標 (合計、分、....) 例: SUM_E5C = e5 価格変更のすべての毎日のカウントの合計 • *_E5_D は、集計された (VAR、STDDEV、MIN、..) 日次 e5 値に対する集計 (AVG、SUM) 例: AVG_E5_MIN = すべての日次最小 e5 価格値の平均
  20. 21 Ex.6.3 ガソリンスタンドのクラシフィケーションモデルの作成と指標の影響分析 # Train the Station classifer model using PAL HybridGradientBoostingTree from hana_ml.algorithms.pal.unified_classification import UnifiedClassification # Define the model object hgbc = UnifiedClassification(func='HybridGradientBoostingTree', n_estimators = 101, split_threshold=0.1, learning_rate=0.5, max_depth=5, resampling_method='cv', fold_num=5, evaluation_metric = 'error_rate', ref_metric=['auc'], thread_ratio=1.0) # Execute the training of the model hgbc.fit(data=df_trainval, key= 'uuid', label='STATION_CLASS', categorical_variable='STATION_CLASS', impute=True, strategy='most_frequent-mean', ntiles=20, build_report=True, partition_method='user_defined', purpose='TRAIN_VAL_INDICATOR' ) display(hgbc.runtime) HybridGradientBoostingTreeモデルを強化 学習データ モデル 学習結果 出力結果 間違えた部分 を重点的に学 習 間違えた部分 を重点的に学 習 各モデルに重 みづけし、合 計したものが 出力結果 勾配ブ―スティング決定木
  21. 22 EX.6.3 ステーションの価格クラス分類モデルを構築し、価格に対する各指標の影響 を確認 各ステーションの価格に対 して最も重要な指標は高速 道路からの距離だとわかっ た トレーニングモデルと検証モ デルのパフォーマンス統計も 確認できる Model Reportで各指標を調べる
  22. 23 課題  製油所は24時間年中無休で稼働しています。  連続精製はいくつかの重要な機器の通常稼働に依存しています:10個の重要 設備を監視する156個のセンサー  センサーからの情報を瞬時に収集し、分析する技術が必要です。 ソリューション  SAP HANA Cloud 2021QRC01 PAL Additive Model algorithmを使用  1時間ごとに、センサー動作の36時間先読みを予測し、メンテナンスタスク をプロアクティブにスケジュールします。 利点  PAL Additive Model Analysisを使用すると、オープンソースソリューション と比較して時系列予測を最大15倍以上高速化できます  SAP HANA Cloud用のPython機械学習クライアントを使用した開発の予測に より、 プロジェクトの本稼働までの時間が大幅に短縮されました。 SAP HANA Cloudの機械学習 顧客事例 – 石油精製における予知保全 https://www.sap.com/documents/2022/07/0cb5e754-f27d-0010-bca6-c68f7e60039b.html
  23. 24 センサーデータを時系列で表現 1. 時系列データの変化点を検出 2. 変化点の情報を用いて、Additive Model 分析 3. 36時間先のセンサー動作の予測 SAP HANA Cloudの機械学習 顧客事例 – 石油精製における予知保全
Advertisement