SlideShare a Scribd company logo
1 of 58
Download to read offline
Session ID:DAT011
本情報の内容(添付文書、リンク先などを含む)は、Microsoft Tech Summit 開催日(2016年11月1-2日)時点のものであり、予告なく変更される場合があります。
上記課題を解決するために、マイクロソフトが提供する
高速かつスケーラブルなデータ分析基盤を紹介し、
活用していただくためにその価値をお伝えする。
目標
Microsoft Tech Summit
1.R 概要
HDFS
RDDs
• Language Platform
• 統計解析に最適化された統計学者に最も人気のある言語のひとつ
• 機械学習・データ マイニングに広く活用されている
• データ可視化の枠組みも併せ持つ
• オープン ソースの強力なコミュニティ
• 250 万を超える全世界にまたがる統計分析・予測分析のユーザー
• 大学の統計プログラムで最も使われている
• エコシステム
• CRAN(Comprehensive R Archive Network) に 8,000 を超え
る無償のアルゴリズム/テスト データ/評価スクリプト
• 大規模システム、大規模データに対する利用実績
1-1. R 概要
1-1. R 概要
項目 GNU R SAS Python
費用 Free Paid Free
難易度 Easy Difficult Easy
データ解析 High High High
分析モデリング High High Medium
グラフ表示 High Low Medium
テキスト処理 Medium Low High
ビッグ データ分析 Low Medium Medium
汎用処理 High High Medium
ジョブ シナリオ Medium High Low
サポート NO YES NO
高機能ツール Low High Medium
SAS vs R vs Python: 13 Wonderful Comparisons : https://www.educba.com/sas-vs-r-vs-python/
R は導入が比較的容易で高い解析能力とグラフ表示能力を持つが、ビッグ データ分析や
サポート対応などエンタープライズ向けに弱み
1-1. R 概要
• メモリに収まる範囲での処理
• 大規模データ使用時に発生する Out of Memory
• データをサンプリングした上で分析する必要がある為、精度が下が
る可能性がある
• シングル プロセスでしか動作しない
• 処理は直列実行されるため長時間かかる
• 並列実行を独自に組み込むには複雑
• 商用サポートなし
• 個人 PC 利用で低い機能性、問題が発生しても解決が難しい
1-1. R 概要
(CPU制限)
R による分析対象データが増えると、
指数関数的に処理時間がかかる。
(メモリ制限)
時間がかかるだけでなく、データ量が
大きくなるとメモリ エラーが発生し、
処理ができない。
(高速化)
(ビッグ データ分析)
(サポート、開発ツール提供)
1-1. R 概要
後で詳細
後で詳細
統計解析・データ分析ソリューションを提供する Revolution Analytics 社を買収し、SQL Server と合わ
せた製品ラインナップ整理と、オープン ソース・エンタープライズのハイブリッド対応を実現。
1-1. R 概要
DeployR
R Open R Server
DevelopR
R + CRAN
・GNU R
・豊富な R アルゴリズム
・既存の R スクリプト/関数
/パッケージと100%互換
RSR Connector
・GNU R の
パフォーマンスを改善
DistributedR
・分散処理フレームワーク
・同じ R コードが各プラットフォームで動作
(Windows → Hadoop on Redhat 等)
ScaleR
・ビッグ データ分析を行うための機能
・分析処理の並列実行
・並列処理向けにカスタマイズされた R アルゴリズム
ConnectR
・R から各種データ ソースに接続
(SAS, SPSS, Hive, HDFS 等)
DeployR
・作成した R スクリプト
を Web API 化
DevelopR
・R の統合開発環境
(Windows 版のみ)
・R Tools for Visual Studio
に統合
Microsoft R Server
1-1. R 概要
Microsoft R Server
DeployR
R Open R Server
DevelopR
R + CRAN
・GNU R
・豊富なR アルゴリズム
・既存のR スクリプト/関数
/パッケージと100%互換
RSR Connector
・オープン ソースR の
パフォーマンスを改善
DistributedR
・分散処理フレームワーク
・同じ R コードが各プラットフォームで動作
(Windows → Hadoop on Redhat 等)
ScaleR
・ビッグ データ分析を行うための機能
・分析処理の並列実行
・並列処理向けにカスタマイズされた R アルゴリズム
ConnectR
・Rから各種データ ソースに接続
(SAS、SPSS、Hive、HDFS 等)
DeployR
・作成した R スクリプト
を Web API 化
DevelopR
・R の統合開発環境
(Windows 版のみ)
・R Tools for Visual Studio
に統合予定
1-1. R 概要
項目 GNU R SAS Python
費用 Free Paid Free
難易度 Easy Difficult Easy
データ解析 High High High
分析モデリング High High Medium
グラフ表示 High Low Medium
テキスト処理 Medium Low High
ビッグ データ分析 Low Medium Medium
汎用処理 High High Medium
ジョブシナリオ Medium High Low
サポート Low YES NO
高機能ツール Low High Medium
1-1. R 概要
ビッグ データ分析やサポート対応などエンタープライズ向けに弱みだった部分が、Microsoft R
製品群によってカバーされ強みへと変わっている。
• 不正トランザクション検知
• アルゴリズム取引
• 個人向けサービス
• リスク&コンプライアンス
• 不正トランザクション検知
• 患者人口統計分析
• 業務効率化
• 需要予測
• リモート監視
• 予兆保全
• マーケティング最適化
• サプライ チェーン最適化
• 不正トラザクション検知
• 顧客離反分析
• 個人向けサービス
• リスク&コンプライアンス
• 需要予測
• 個人向けプライムサービス
• サプライ チェーン最適化
• 店舗ロケーション分析
• 在庫最適化
• 需要予測
• リモート監視
• 予兆保全
• 不正トランザクション検知
• 顧客離反分析
1-1. R 概要
1-1. R 概要
1-1. R 概要
Hadoop(HDInsight) は大規模データの処理を
現実的なものにしたが、課題もあった。
but
1-2. Spark 概要
オープン ソースの並列分散処理エンジン
• インメモリ処理による高速化
• 汎用的な処理
• 統合スタック
1-2. Spark 概要
HDFS
HDFS
処理
[ n 回ループ ]
[ n 回ループ ]
Hadoop ( MapReduce )
Spark
学習用データ・計算過程のモデ
ルを反復処理の度に DISK
( HDFS) にRead / Write を繰
り返す
→ジョブが多段になった時の、
全体のレイテンシ増加が顕著
何度も利用する 学習用データを
キャッシュ・計算過程のモデル
をキャッシュするため、DISK
(HDFS) に対する IO 量は大幅
に削減される
→反復処理のレイテンシ最小化
処理
処理
RDDs
処理
RDDs
1-2. Spark 概要
Microsoft Tech Summit
1.(DEMO) HDInsight クラスター作成
2.システム構成概要
3.それぞれの環境の使い分け
Microsoft Tech Summit
R User
Workstation
R Server for Hadoop v8.0.5
RDDs
1.6.2
HDInsight
HDFS
RDDs
HDFS
RDDs
HDFS
2-2. システム構成概要
ScaleR
R User
Workstation
ScaleR
Master Task
Initiator
Finalizer
コア毎に分割し並列処理が
可能、1ブロック分の処理
をコア毎に実行
クラスタ構成で複数ノード
による並列分散処理が可能
計算結果は新しい結果で更
新することが可能
メモリのサイズを超えて、
無制限のデータを処理可能
R Script
① R 実行
Instructions
Worker
Task
Worker
Task
Worker
Task
② 実行命令書発行
③ タスク振り分け
④ 各タスク結果
⑤ 結果集約
rxSetComputeContext( RxLocalParallel(…) )
⑥ 合算して回答
2-2. システム構成概要
DistributedR
## 処理実行先指定(ローカルサーバ) ##
rxSetComputeContext(“localpar”)
### ローカルサーバ FS 作成 ###
localFS <- RxNativeFileSystem()
AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”,
fileSystem = localFS)
Local Parallel processing –
Linux or Windows
R スクリプト内
の Compute
Context 指定で
実行先を定義
## 処理実行先指定(Spark) ##
rxSetComputeContext( RxSpark(…) )
### HDFS 作成 ###
hdfsFS <- RxHdfsFileSystem()
AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”),
fileSystem = hdfsFS)
Spark on HDInsight
### 分析処理 ###
### 分析対象データの概要表示
rxSummary(~ArrDelay+DayOfWeek, data= AirlineDataSet, reportProgress=1)
### クロス集計表作成
rxCrossTabs(ArrDelay ~ DayOfWeek, data= AirlineDataSet, means=T)
### 線形回帰分析
ArrLateLinMod <- rxLinMod(ArrDelay ~ DayOfWeek + 0 , data = AirlineDataSet)
plot(hdfsXdfArrLateLinMod$coefficients)
ローカル実行か
ら Spark 上で実
行する際に、分
析処理本体は修
正する必要なし
2-2. システム構成概要
R User
Workstation
R Server for Hadoop v8.0.5
RDDs
1.6.2
HDFS
RDDs
HDFS
RDDs
HDFS
## LOCAL COMPUTE
CONTEXT ##
rxSetComputeContext
(“localpar”)
R Script
Worker
Task
2-3. それぞれの環境の使い分け
R User
Workstation
R Server for Hadoop v8.0.5
RDDs
1.6.2
HDFS
RDDs
HDFS
RDDs
HDFS
## Hadoop COMPUTE
CONTEXT ##
rxSetComputeContext
( RxSpark(…) )
R Script
Worker
Task
Worker
Task
Worker
Task
2-3. それぞれの環境の使い分け
ScaleR
Master Task
Initiator
Finalizer
SPEC:
・5ノードクラスター
・Edge Node:D14 V2 (16 cores, 112GB)
・Worker Nodes:D12 (4 cores, 28GB)
0
5
10
15
20
25
0 3 6 22 48 76 109
対ローカルサーバでの実行速度比
レコード件数 (100万)
ロジスティック回帰分析の処理性能
Spark R Server on
Spark は R on
MapReduce と比
較して 6 倍高速
レコード数が少ない場合
はローカルサーバ実行で
十分なパフォーマンス
2-3. それぞれの環境の使い分け
R on Spark と R on HDInsight (MapReduce) 上でのロジスティック回帰分析実行速度を、
対象レコード数を変えて測定。対 ローカル サーバ上での実行結果速度比でグラフ化。
MapReduce
Local
Microsoft Tech Summit
1.機械学習の処理フロー
1. 業務理解 2. データ理解 3. データ抽出 4. モデリング 5. 効果検証 6. サービス実装
業務上必要なプロセス
3-1. 機械学習の処理フロー
Azure Machine
Learning
Microsoft R
on Spark
Azure BLOB
Storage
システム上必要なプロセス
1. 要件定義 2. ソース DB 選定 3. ETL 処理 4. 解析モデル適用 5. システム テスト 6. デプロイ
HDInsight Web App Excel
Microsoft R
on Spark
1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ
HDInsight
蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。
蓄積データ(CSV)
• 1987~2008 年
(22 年間)
• 1 億 2千万件
• フライト データ
• 天気データ
ETL 処理
• 重複排除
• フォーマット変換
• データ JOIN
評価
• スコア付け
• スコアリング機能
を Azure ML に連
携
デプロイ
• Web サービス実行
• Azure ML と
Excel アドオン連
携による Excel 分
析
反復処理
Microsoft R
on Spark
Microsoft R
on Spark
Azure Machine
Learning
Azure BLOB
Storage
Web App Excel
3-1. 機械学習の処理フロー
解析モデル
• ロジスティック回帰
• ディシジョンツリー
• トレーニング
&テスト
• 分類器の精度算出
R User
Workstation
R Server for Hadoop v8.0.5
RDDs
1.6.2
HDInsight
HDFS
RDDs
HDFS
RDDs
HDFS
3-1. 機械学習の処理フロー
ソース エディタ
R コンソール
環境・履歴
ファイル・
グラフ表示
統合開発環境 画面
Microsoft Tech Summit
1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ
HDInsight
蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。
蓄積データ(CSV)
• 1987~2008 年
(22 年間)
• 1 億 2千万件
• フライト データ
• 天気データ
ETL 処理
• 重複排除
• フォーマット変換
• データ JOIN
評価
• スコア付け
• スコアリング機能
を Azure ML に連
携
デプロイ
• Web サービス実行
• Azure ML と
Excel アドオン連
携による Excel 分
析
反復処理
Microsoft R
on Spark
Microsoft R
on Spark
Azure Machine
Learning
Azure BLOB
Storage
Web App Excel
3-1. 機械学習の処理フロー
解析モデル
• ロジスティック回帰
• ディシジョンツリー
• トレーニング
&テスト
• 分類器の精度算出
1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ
HDInsight
蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。
蓄積データ(CSV)
• 1987~2008 年
(22 年間)
• 1 億 2千万件
• フライト データ
• 天気データ
ETL 処理
• 重複排除
• フォーマット変換
• データ JOIN
評価
• スコア付け
• スコアリング機能
を Azure ML に連
携
デプロイ
• Web サービス実行
• Azure ML と
Excel アドオン連
携による Excel 分
析
反復処理
Microsoft R
on Spark
Microsoft R
on Spark
Azure Machine
Learning
Azure BLOB
Storage
Web App Excel
3-1. 機械学習の処理フロー
解析モデル
• ロジスティック回帰
• ディシジョンツリー
• トレーニング
&テスト
• 分類器の精度算出
1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ
HDInsight
蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。
蓄積データ(CSV)
• 1987~2008 年
(22 年間)
• 1 億 2千万件
• フライト データ
• 天気データ
ETL 処理
• 重複排除
• フォーマット変換
• データ JOIN
解析モデル
• ロジスティック回帰
• ディシジョンツリー
• トレーニング
&テスト
• 分類器の精度算出
評価
• スコア付け
• スコアリング機能
を Azure ML に連
携
デプロイ
• Web サービス実行
• Azure ML と
Excel アドオン連
携による Excel 分
析
反復処理
Microsoft R
on Spark
Microsoft R
on Spark
Azure Machine
Learning
Azure BLOB
Storage
Web App Excel
3-1. 機械学習の処理フロー
1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ
HDInsight
蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。
蓄積データ(CSV)
• 1987~2008 年
(22 年間)
• 1 億 2千万件
• フライト データ
• 天気データ
ETL 処理
• 重複排除
• フォーマット変換
• データ JOIN
評価
• スコア付け
• スコアリング機能
を Azure ML に連
携
デプロイ
• Web サービス実行
• Azure ML と
Excel アドオン連
携による Excel 分
析
反復処理
Microsoft R
on Spark
Microsoft R
on Spark
Azure Machine
Learning
Azure BLOB
Storage
Web App Excel
3-1. 機械学習の処理フロー
解析モデル
• ロジスティック回帰
• ディシジョンツリー
• トレーニング
&テスト
• 分類器の精度算出
1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ
HDInsight
蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。
蓄積データ(CSV)
• 1987~2008 年
(22 年間)
• 1 億 2千万件
• フライト データ
• 天気データ
ETL 処理
• 重複排除
• フォーマット変換
• データ JOIN
評価
• スコア付け
• スコアリング機能
を Azure ML に連
携
デプロイ
• Web サービス実行
• Azure ML と
Excel アドオン連
携による Excel 分
析
反復処理
Microsoft R
on Spark
Microsoft R
on Spark
Azure Machine
Learning
Azure BLOB
Storage
Web App Excel
3-1. 機械学習の処理フロー
解析モデル
• ロジスティック回帰
• ディシジョンツリー
• トレーニング
&テスト
• 分類器の精度算出
蓄積データ統計を地図上に表示
各空港の10日後までの天気予報を取得
NO DELAYS EXPECTED
(12.4%)
•統計解析・データ分析目的で人気があり、コミュニティ活動も活発な
R + Spark + HDInsight の組み合わせで、まず分析を始めることが出来る
•スケーラブルに拡張可能で、機械学習向けに最適なインメモリの分析基
盤を使って、反復処理を実施しながら精度を高めることが出来る
高可用性、高性能、拡張性、低コスト、エンタープライズ向けサポートを
兼ね備えた分析環境を活かして、ビジネス課題解決の力になる
上記課題を解決するために、マイクロソフトが提供する
高速かつスケーラブルなデータ分析基盤を紹介し、
活用していただくためにその価値をお伝えする。
目標
1
2
3
https://aka.ms/dpb2
https://aka.ms/dpb2
https://github.com/Azure/Azure-MachineLearning-
DataScience/tree/master/Misc/KDDCup2016
3. ETL処理(処理前)
airDF = 「フライト情報」を表示
airDF = フライト情報
3. ETL処理(処理後)
weatherDF = 「天気情報」を表示
3. ETL処理(処理後)
4. 解析モデル適用
ロジスティック回帰のモデル作成
4. 解析モデル適用
ディシジョンツリーのモデル作成
logitRoc : ROC曲線表示
4. 解析モデル適用
5. システムテスト
Azure ML にデプロイ
予測モデルの WEB 化
6. デプロイ
6. デプロイ
予測モデルの Excel 化
4.4ZB
2013
44ZB
2020
10倍 1.6倍
$2.5T
データ分析前
$4.1T
データ分析後
• 汎用プログラム含めた言語ランキングで人気上昇中
• vs データ解析用言語の比較で41%の 1 位評価
41%
20%
39%
Go
Ruby
Java Script
PHP
C#
R
C++
Python
Java
C
2016
Metlab
Ruby
Java Script
PHP
R
C#
Python
C++
C
Java
2015
Metlab
R
Ruby
Java Script
PHP
C#
Python
C++
C
Java
2014
R
#9 74%
#6 84.8%
#5 87.9%
Python
SAS
統計解析に使いたいツール
2016
IEEE Spectrum Ranking プログラム言語ランキング 2014 -2016
R User
Workstation
R Server for Hadoop v8.0.5
RDDs
Resource
Manager
Name
Node
Node Manager
リソース要求
Spark起動
ScaleR
Master Task
アプリケーション起動
Initiator
Finalizer
Worker
Taskアプリ実行コマンド
HDFS
RDDs
Node Manager
Worker
Task
HDFS
RDDs
Node Manager
Worker
Task
HDFS
アプリ実行コマンド
No. R の機械学習シナリオ 具体例
1 予測 (Forecasting)
回帰分析(Regression)
・翌日の売上予測
・仕入個数予測
2 異常検知 (Anomaly Detection) ・故障時期の推定
・システム(サーバー リソース) 異常の事前検出
・不正検知 (クレジット カードやセキュリティ等)
3 クラス分類 (Classification)
クラスタリング (Clustering)
レコメンデーション
(Recommendation)
・顧客ステージの分類
・自動判別 (フォルダ分け、タグ付け等)
・併売商品の提案
・顧客属性や履歴に基づくユニキャスト DM
4 テキスト分析 (Text Analytics)
その他
・コメント分析、アンケート分析
・通話記録解析、感情分析
・文字認識、画像認識
・最適化
• 様々な機械学習シナリオで不正検知、予測分析などの領域に活用されている。
1-1. R 概要

More Related Content

What's hot

Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauDataWorks Summit
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)Takahiro Inoue
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理Makoto Yui
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようHideo Takagi
 
トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方Takahiro Inoue
 
FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介Recruit Technologies
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lakede:code 2017
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情Hideo Takagi
 
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するTakahiro Inoue
 
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューションTakahiro Inoue
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]Hideo Takagi
 
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜Takahiro Inoue
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612Takahiro Inoue
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...DataWorks Summit/Hadoop Summit
 
Data Science on Hadoop
Data Science on HadoopData Science on Hadoop
Data Science on HadoopYifeng Jiang
 
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Recruit Technologies
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Hortonworks Japan
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26MapR Technologies Japan
 

What's hot (20)

Big Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and TableauBig Data Visual Analytics Realized By Hadoop and Tableau
Big Data Visual Analytics Realized By Hadoop and Tableau
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
 
トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方トレジャーデータ流,データ分析の始め方
トレジャーデータ流,データ分析の始め方
 
FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介FluentdやNorikraを使った データ集約基盤への取り組み紹介
FluentdやNorikraを使った データ集約基盤への取り組み紹介
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
 
20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
 
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
 
Data Science on Hadoop
Data Science on HadoopData Science on Hadoop
Data Science on Hadoop
 
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Hadoopカンファレンス20140707
Hadoopカンファレンス20140707
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
 

Similar to Dat011 hd insight_+_spark_+_r_を活用した

データからビジネス変革をもたらすマイクロソフトの AI とは
データからビジネス変革をもたらすマイクロソフトの AI とはデータからビジネス変革をもたらすマイクロソフトの AI とは
データからビジネス変革をもたらすマイクロソフトの AI とはMiho Yamamoto
 
マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介Kenji Hara
 
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティスAmazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティスAmazon Web Services Japan
 
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #520160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5Koichiro Sasaki
 
クラウドの破壊力
クラウドの破壊力クラウドの破壊力
クラウドの破壊力Osaka University
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15MapR Technologies Japan
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現インフラジスティックス・ジャパン株式会社
 
DLLAB Engineer Days: 推論環境としての Windows ML x ONNX の実際
DLLAB Engineer Days: 推論環境としての Windows ML x ONNX の実際DLLAB Engineer Days: 推論環境としての Windows ML x ONNX の実際
DLLAB Engineer Days: 推論環境としての Windows ML x ONNX の実際Daiyu Hatakeyama
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDaiyu Hatakeyama
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題kurikiyo
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装de:code 2017
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)日本マイクロソフト株式会社
 
AWSで作る分析基盤
AWSで作る分析基盤AWSで作る分析基盤
AWSで作る分析基盤Yu Otsubo
 
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介Denodo
 
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...Insight Technology, Inc.
 

Similar to Dat011 hd insight_+_spark_+_r_を活用した (20)

データからビジネス変革をもたらすマイクロソフトの AI とは
データからビジネス変革をもたらすマイクロソフトの AI とはデータからビジネス変革をもたらすマイクロソフトの AI とは
データからビジネス変革をもたらすマイクロソフトの AI とは
 
マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介
 
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティスAmazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティス
 
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #520160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5
 
クラウドの破壊力
クラウドの破壊力クラウドの破壊力
クラウドの破壊力
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
 
DLLAB Engineer Days: 推論環境としての Windows ML x ONNX の実際
DLLAB Engineer Days: 推論環境としての Windows ML x ONNX の実際DLLAB Engineer Days: 推論環境としての Windows ML x ONNX の実際
DLLAB Engineer Days: 推論環境としての Windows ML x ONNX の実際
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
 
DLLAB Ignite Update Data Platform
DLLAB  Ignite Update Data PlatformDLLAB  Ignite Update Data Platform
DLLAB Ignite Update Data Platform
 
避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題避けては通れないビッグデータ周辺の重要課題
避けては通れないビッグデータ周辺の重要課題
 
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
 
AWSで作る分析基盤
AWSで作る分析基盤AWSで作る分析基盤
AWSで作る分析基盤
 
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
 
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
[db tech showcase OSS 2017] A24: マイクロソフトと OSS Database - Azure Database for M...
 

More from Tech Summit 2016

Microsoft tech summit_稟議書テンプレート
Microsoft tech summit_稟議書テンプレートMicrosoft tech summit_稟議書テンプレート
Microsoft tech summit_稟議書テンプレートTech Summit 2016
 
Prd001 イノベーションを生み出す組織へ!
Prd001 イノベーションを生み出す組織へ!Prd001 イノベーションを生み出す組織へ!
Prd001 イノベーションを生み出す組織へ!Tech Summit 2016
 
他社資格保有者割引
他社資格保有者割引他社資格保有者割引
他社資格保有者割引Tech Summit 2016
 
Tech summitの歩き方 開発者編
Tech summitの歩き方 開発者編Tech summitの歩き方 開発者編
Tech summitの歩き方 開発者編Tech Summit 2016
 
Tech summitの歩き方 データ分
Tech summitの歩き方 データ分Tech summitの歩き方 データ分
Tech summitの歩き方 データ分Tech Summit 2016
 
Tech summitの歩き方 セキュリ
Tech summitの歩き方 セキュリTech summitの歩き方 セキュリ
Tech summitの歩き方 セキュリTech Summit 2016
 
Tech summitの歩き方 クライア
Tech summitの歩き方 クライアTech summitの歩き方 クライア
Tech summitの歩き方 クライアTech Summit 2016
 
Tech summitの歩き方 dev-ops編
Tech summitの歩き方 dev-ops編Tech summitの歩き方 dev-ops編
Tech summitの歩き方 dev-ops編Tech Summit 2016
 
Tech summitの歩き方 azure編
Tech summitの歩き方 azure編Tech summitの歩き方 azure編
Tech summitの歩き方 azure編Tech Summit 2016
 
Spl006 mixed reality_の世界へようこ
Spl006 mixed reality_の世界へようこSpl006 mixed reality_の世界へようこ
Spl006 mixed reality_の世界へようこTech Summit 2016
 
Spl002 microsoft azure_の安全性と法的
Spl002 microsoft azure_の安全性と法的Spl002 microsoft azure_の安全性と法的
Spl002 microsoft azure_の安全性と法的Tech Summit 2016
 
Spl001 経営に効くitプロの
Spl001 経営に効くitプロのSpl001 経営に効くitプロの
Spl001 経営に効くitプロのTech Summit 2016
 
Snr007 red hat_×_azure_で開発と運用
Snr007 red hat_×_azure_で開発と運用Snr007 red hat_×_azure_で開発と運用
Snr007 red hat_×_azure_で開発と運用Tech Summit 2016
 
Snr006 ソフトバンクが考
Snr006 ソフトバンクが考Snr006 ソフトバンクが考
Snr006 ソフトバンクが考Tech Summit 2016
 
Snr005 レノボだから実現
Snr005 レノボだから実現Snr005 レノボだから実現
Snr005 レノボだから実現Tech Summit 2016
 
Snr004 windows server_2016とnvdimmで異次元の
Snr004 windows server_2016とnvdimmで異次元のSnr004 windows server_2016とnvdimmで異次元の
Snr004 windows server_2016とnvdimmで異次元のTech Summit 2016
 
Snr003 次世代型 crm_環境の構
Snr003 次世代型 crm_環境の構Snr003 次世代型 crm_環境の構
Snr003 次世代型 crm_環境の構Tech Summit 2016
 
Snr002 もうvdiだけではない
Snr002 もうvdiだけではないSnr002 もうvdiだけではない
Snr002 もうvdiだけではないTech Summit 2016
 
Snr001 azure iaa_s_応用編~実務で
Snr001 azure iaa_s_応用編~実務でSnr001 azure iaa_s_応用編~実務で
Snr001 azure iaa_s_応用編~実務でTech Summit 2016
 
Sec020 アイデンティティ
Sec020 アイデンティティSec020 アイデンティティ
Sec020 アイデンティティTech Summit 2016
 

More from Tech Summit 2016 (20)

Microsoft tech summit_稟議書テンプレート
Microsoft tech summit_稟議書テンプレートMicrosoft tech summit_稟議書テンプレート
Microsoft tech summit_稟議書テンプレート
 
Prd001 イノベーションを生み出す組織へ!
Prd001 イノベーションを生み出す組織へ!Prd001 イノベーションを生み出す組織へ!
Prd001 イノベーションを生み出す組織へ!
 
他社資格保有者割引
他社資格保有者割引他社資格保有者割引
他社資格保有者割引
 
Tech summitの歩き方 開発者編
Tech summitの歩き方 開発者編Tech summitの歩き方 開発者編
Tech summitの歩き方 開発者編
 
Tech summitの歩き方 データ分
Tech summitの歩き方 データ分Tech summitの歩き方 データ分
Tech summitの歩き方 データ分
 
Tech summitの歩き方 セキュリ
Tech summitの歩き方 セキュリTech summitの歩き方 セキュリ
Tech summitの歩き方 セキュリ
 
Tech summitの歩き方 クライア
Tech summitの歩き方 クライアTech summitの歩き方 クライア
Tech summitの歩き方 クライア
 
Tech summitの歩き方 dev-ops編
Tech summitの歩き方 dev-ops編Tech summitの歩き方 dev-ops編
Tech summitの歩き方 dev-ops編
 
Tech summitの歩き方 azure編
Tech summitの歩き方 azure編Tech summitの歩き方 azure編
Tech summitの歩き方 azure編
 
Spl006 mixed reality_の世界へようこ
Spl006 mixed reality_の世界へようこSpl006 mixed reality_の世界へようこ
Spl006 mixed reality_の世界へようこ
 
Spl002 microsoft azure_の安全性と法的
Spl002 microsoft azure_の安全性と法的Spl002 microsoft azure_の安全性と法的
Spl002 microsoft azure_の安全性と法的
 
Spl001 経営に効くitプロの
Spl001 経営に効くitプロのSpl001 経営に効くitプロの
Spl001 経営に効くitプロの
 
Snr007 red hat_×_azure_で開発と運用
Snr007 red hat_×_azure_で開発と運用Snr007 red hat_×_azure_で開発と運用
Snr007 red hat_×_azure_で開発と運用
 
Snr006 ソフトバンクが考
Snr006 ソフトバンクが考Snr006 ソフトバンクが考
Snr006 ソフトバンクが考
 
Snr005 レノボだから実現
Snr005 レノボだから実現Snr005 レノボだから実現
Snr005 レノボだから実現
 
Snr004 windows server_2016とnvdimmで異次元の
Snr004 windows server_2016とnvdimmで異次元のSnr004 windows server_2016とnvdimmで異次元の
Snr004 windows server_2016とnvdimmで異次元の
 
Snr003 次世代型 crm_環境の構
Snr003 次世代型 crm_環境の構Snr003 次世代型 crm_環境の構
Snr003 次世代型 crm_環境の構
 
Snr002 もうvdiだけではない
Snr002 もうvdiだけではないSnr002 もうvdiだけではない
Snr002 もうvdiだけではない
 
Snr001 azure iaa_s_応用編~実務で
Snr001 azure iaa_s_応用編~実務でSnr001 azure iaa_s_応用編~実務で
Snr001 azure iaa_s_応用編~実務で
 
Sec020 アイデンティティ
Sec020 アイデンティティSec020 アイデンティティ
Sec020 アイデンティティ
 

Recently uploaded

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Recently uploaded (10)

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

Dat011 hd insight_+_spark_+_r_を活用した

  • 1. Session ID:DAT011 本情報の内容(添付文書、リンク先などを含む)は、Microsoft Tech Summit 開催日(2016年11月1-2日)時点のものであり、予告なく変更される場合があります。
  • 3.
  • 4. Microsoft Tech Summit 1.R 概要 HDFS RDDs
  • 5. • Language Platform • 統計解析に最適化された統計学者に最も人気のある言語のひとつ • 機械学習・データ マイニングに広く活用されている • データ可視化の枠組みも併せ持つ • オープン ソースの強力なコミュニティ • 250 万を超える全世界にまたがる統計分析・予測分析のユーザー • 大学の統計プログラムで最も使われている • エコシステム • CRAN(Comprehensive R Archive Network) に 8,000 を超え る無償のアルゴリズム/テスト データ/評価スクリプト • 大規模システム、大規模データに対する利用実績 1-1. R 概要
  • 7. 項目 GNU R SAS Python 費用 Free Paid Free 難易度 Easy Difficult Easy データ解析 High High High 分析モデリング High High Medium グラフ表示 High Low Medium テキスト処理 Medium Low High ビッグ データ分析 Low Medium Medium 汎用処理 High High Medium ジョブ シナリオ Medium High Low サポート NO YES NO 高機能ツール Low High Medium SAS vs R vs Python: 13 Wonderful Comparisons : https://www.educba.com/sas-vs-r-vs-python/ R は導入が比較的容易で高い解析能力とグラフ表示能力を持つが、ビッグ データ分析や サポート対応などエンタープライズ向けに弱み 1-1. R 概要
  • 8. • メモリに収まる範囲での処理 • 大規模データ使用時に発生する Out of Memory • データをサンプリングした上で分析する必要がある為、精度が下が る可能性がある • シングル プロセスでしか動作しない • 処理は直列実行されるため長時間かかる • 並列実行を独自に組み込むには複雑 • 商用サポートなし • 個人 PC 利用で低い機能性、問題が発生しても解決が難しい 1-1. R 概要
  • 10. 統計解析・データ分析ソリューションを提供する Revolution Analytics 社を買収し、SQL Server と合わ せた製品ラインナップ整理と、オープン ソース・エンタープライズのハイブリッド対応を実現。 1-1. R 概要
  • 11. DeployR R Open R Server DevelopR R + CRAN ・GNU R ・豊富な R アルゴリズム ・既存の R スクリプト/関数 /パッケージと100%互換 RSR Connector ・GNU R の パフォーマンスを改善 DistributedR ・分散処理フレームワーク ・同じ R コードが各プラットフォームで動作 (Windows → Hadoop on Redhat 等) ScaleR ・ビッグ データ分析を行うための機能 ・分析処理の並列実行 ・並列処理向けにカスタマイズされた R アルゴリズム ConnectR ・R から各種データ ソースに接続 (SAS, SPSS, Hive, HDFS 等) DeployR ・作成した R スクリプト を Web API 化 DevelopR ・R の統合開発環境 (Windows 版のみ) ・R Tools for Visual Studio に統合 Microsoft R Server 1-1. R 概要
  • 12. Microsoft R Server DeployR R Open R Server DevelopR R + CRAN ・GNU R ・豊富なR アルゴリズム ・既存のR スクリプト/関数 /パッケージと100%互換 RSR Connector ・オープン ソースR の パフォーマンスを改善 DistributedR ・分散処理フレームワーク ・同じ R コードが各プラットフォームで動作 (Windows → Hadoop on Redhat 等) ScaleR ・ビッグ データ分析を行うための機能 ・分析処理の並列実行 ・並列処理向けにカスタマイズされた R アルゴリズム ConnectR ・Rから各種データ ソースに接続 (SAS、SPSS、Hive、HDFS 等) DeployR ・作成した R スクリプト を Web API 化 DevelopR ・R の統合開発環境 (Windows 版のみ) ・R Tools for Visual Studio に統合予定 1-1. R 概要
  • 13. 項目 GNU R SAS Python 費用 Free Paid Free 難易度 Easy Difficult Easy データ解析 High High High 分析モデリング High High Medium グラフ表示 High Low Medium テキスト処理 Medium Low High ビッグ データ分析 Low Medium Medium 汎用処理 High High Medium ジョブシナリオ Medium High Low サポート Low YES NO 高機能ツール Low High Medium 1-1. R 概要 ビッグ データ分析やサポート対応などエンタープライズ向けに弱みだった部分が、Microsoft R 製品群によってカバーされ強みへと変わっている。
  • 14. • 不正トランザクション検知 • アルゴリズム取引 • 個人向けサービス • リスク&コンプライアンス • 不正トランザクション検知 • 患者人口統計分析 • 業務効率化 • 需要予測 • リモート監視 • 予兆保全 • マーケティング最適化 • サプライ チェーン最適化 • 不正トラザクション検知 • 顧客離反分析 • 個人向けサービス • リスク&コンプライアンス • 需要予測 • 個人向けプライムサービス • サプライ チェーン最適化 • 店舗ロケーション分析 • 在庫最適化 • 需要予測 • リモート監視 • 予兆保全 • 不正トランザクション検知 • 顧客離反分析 1-1. R 概要
  • 19. HDFS HDFS 処理 [ n 回ループ ] [ n 回ループ ] Hadoop ( MapReduce ) Spark 学習用データ・計算過程のモデ ルを反復処理の度に DISK ( HDFS) にRead / Write を繰 り返す →ジョブが多段になった時の、 全体のレイテンシ増加が顕著 何度も利用する 学習用データを キャッシュ・計算過程のモデル をキャッシュするため、DISK (HDFS) に対する IO 量は大幅 に削減される →反復処理のレイテンシ最小化 処理 処理 RDDs 処理 RDDs
  • 21. Microsoft Tech Summit 1.(DEMO) HDInsight クラスター作成 2.システム構成概要 3.それぞれの環境の使い分け
  • 23. R User Workstation R Server for Hadoop v8.0.5 RDDs 1.6.2 HDInsight HDFS RDDs HDFS RDDs HDFS 2-2. システム構成概要
  • 24. ScaleR R User Workstation ScaleR Master Task Initiator Finalizer コア毎に分割し並列処理が 可能、1ブロック分の処理 をコア毎に実行 クラスタ構成で複数ノード による並列分散処理が可能 計算結果は新しい結果で更 新することが可能 メモリのサイズを超えて、 無制限のデータを処理可能 R Script ① R 実行 Instructions Worker Task Worker Task Worker Task ② 実行命令書発行 ③ タスク振り分け ④ 各タスク結果 ⑤ 結果集約 rxSetComputeContext( RxLocalParallel(…) ) ⑥ 合算して回答 2-2. システム構成概要
  • 25. DistributedR ## 処理実行先指定(ローカルサーバ) ## rxSetComputeContext(“localpar”) ### ローカルサーバ FS 作成 ### localFS <- RxNativeFileSystem() AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”, fileSystem = localFS) Local Parallel processing – Linux or Windows R スクリプト内 の Compute Context 指定で 実行先を定義 ## 処理実行先指定(Spark) ## rxSetComputeContext( RxSpark(…) ) ### HDFS 作成 ### hdfsFS <- RxHdfsFileSystem() AirlineDataSet <- RxXdfData(“AirlineDemoSmall.xdf”), fileSystem = hdfsFS) Spark on HDInsight ### 分析処理 ### ### 分析対象データの概要表示 rxSummary(~ArrDelay+DayOfWeek, data= AirlineDataSet, reportProgress=1) ### クロス集計表作成 rxCrossTabs(ArrDelay ~ DayOfWeek, data= AirlineDataSet, means=T) ### 線形回帰分析 ArrLateLinMod <- rxLinMod(ArrDelay ~ DayOfWeek + 0 , data = AirlineDataSet) plot(hdfsXdfArrLateLinMod$coefficients) ローカル実行か ら Spark 上で実 行する際に、分 析処理本体は修 正する必要なし 2-2. システム構成概要
  • 26. R User Workstation R Server for Hadoop v8.0.5 RDDs 1.6.2 HDFS RDDs HDFS RDDs HDFS ## LOCAL COMPUTE CONTEXT ## rxSetComputeContext (“localpar”) R Script Worker Task 2-3. それぞれの環境の使い分け
  • 27. R User Workstation R Server for Hadoop v8.0.5 RDDs 1.6.2 HDFS RDDs HDFS RDDs HDFS ## Hadoop COMPUTE CONTEXT ## rxSetComputeContext ( RxSpark(…) ) R Script Worker Task Worker Task Worker Task 2-3. それぞれの環境の使い分け ScaleR Master Task Initiator Finalizer
  • 28. SPEC: ・5ノードクラスター ・Edge Node:D14 V2 (16 cores, 112GB) ・Worker Nodes:D12 (4 cores, 28GB) 0 5 10 15 20 25 0 3 6 22 48 76 109 対ローカルサーバでの実行速度比 レコード件数 (100万) ロジスティック回帰分析の処理性能 Spark R Server on Spark は R on MapReduce と比 較して 6 倍高速 レコード数が少ない場合 はローカルサーバ実行で 十分なパフォーマンス 2-3. それぞれの環境の使い分け R on Spark と R on HDInsight (MapReduce) 上でのロジスティック回帰分析実行速度を、 対象レコード数を変えて測定。対 ローカル サーバ上での実行結果速度比でグラフ化。 MapReduce Local
  • 29.
  • 31. 1. 業務理解 2. データ理解 3. データ抽出 4. モデリング 5. 効果検証 6. サービス実装 業務上必要なプロセス 3-1. 機械学習の処理フロー Azure Machine Learning Microsoft R on Spark Azure BLOB Storage システム上必要なプロセス 1. 要件定義 2. ソース DB 選定 3. ETL 処理 4. 解析モデル適用 5. システム テスト 6. デプロイ HDInsight Web App Excel Microsoft R on Spark
  • 32. 1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ HDInsight 蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。 蓄積データ(CSV) • 1987~2008 年 (22 年間) • 1 億 2千万件 • フライト データ • 天気データ ETL 処理 • 重複排除 • フォーマット変換 • データ JOIN 評価 • スコア付け • スコアリング機能 を Azure ML に連 携 デプロイ • Web サービス実行 • Azure ML と Excel アドオン連 携による Excel 分 析 反復処理 Microsoft R on Spark Microsoft R on Spark Azure Machine Learning Azure BLOB Storage Web App Excel 3-1. 機械学習の処理フロー 解析モデル • ロジスティック回帰 • ディシジョンツリー • トレーニング &テスト • 分類器の精度算出
  • 33. R User Workstation R Server for Hadoop v8.0.5 RDDs 1.6.2 HDInsight HDFS RDDs HDFS RDDs HDFS 3-1. 機械学習の処理フロー ソース エディタ R コンソール 環境・履歴 ファイル・ グラフ表示 統合開発環境 画面
  • 35. 1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ HDInsight 蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。 蓄積データ(CSV) • 1987~2008 年 (22 年間) • 1 億 2千万件 • フライト データ • 天気データ ETL 処理 • 重複排除 • フォーマット変換 • データ JOIN 評価 • スコア付け • スコアリング機能 を Azure ML に連 携 デプロイ • Web サービス実行 • Azure ML と Excel アドオン連 携による Excel 分 析 反復処理 Microsoft R on Spark Microsoft R on Spark Azure Machine Learning Azure BLOB Storage Web App Excel 3-1. 機械学習の処理フロー 解析モデル • ロジスティック回帰 • ディシジョンツリー • トレーニング &テスト • 分類器の精度算出
  • 36. 1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ HDInsight 蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。 蓄積データ(CSV) • 1987~2008 年 (22 年間) • 1 億 2千万件 • フライト データ • 天気データ ETL 処理 • 重複排除 • フォーマット変換 • データ JOIN 評価 • スコア付け • スコアリング機能 を Azure ML に連 携 デプロイ • Web サービス実行 • Azure ML と Excel アドオン連 携による Excel 分 析 反復処理 Microsoft R on Spark Microsoft R on Spark Azure Machine Learning Azure BLOB Storage Web App Excel 3-1. 機械学習の処理フロー 解析モデル • ロジスティック回帰 • ディシジョンツリー • トレーニング &テスト • 分類器の精度算出
  • 37. 1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ HDInsight 蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。 蓄積データ(CSV) • 1987~2008 年 (22 年間) • 1 億 2千万件 • フライト データ • 天気データ ETL 処理 • 重複排除 • フォーマット変換 • データ JOIN 解析モデル • ロジスティック回帰 • ディシジョンツリー • トレーニング &テスト • 分類器の精度算出 評価 • スコア付け • スコアリング機能 を Azure ML に連 携 デプロイ • Web サービス実行 • Azure ML と Excel アドオン連 携による Excel 分 析 反復処理 Microsoft R on Spark Microsoft R on Spark Azure Machine Learning Azure BLOB Storage Web App Excel 3-1. 機械学習の処理フロー
  • 38. 1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ HDInsight 蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。 蓄積データ(CSV) • 1987~2008 年 (22 年間) • 1 億 2千万件 • フライト データ • 天気データ ETL 処理 • 重複排除 • フォーマット変換 • データ JOIN 評価 • スコア付け • スコアリング機能 を Azure ML に連 携 デプロイ • Web サービス実行 • Azure ML と Excel アドオン連 携による Excel 分 析 反復処理 Microsoft R on Spark Microsoft R on Spark Azure Machine Learning Azure BLOB Storage Web App Excel 3-1. 機械学習の処理フロー 解析モデル • ロジスティック回帰 • ディシジョンツリー • トレーニング &テスト • 分類器の精度算出
  • 39. 1. 要件定義 2. ソースDB選定 3. ETL処理 4. 解析モデル適用 5. システムテスト 6. デプロイ HDInsight 蓄積された大量のフライト データ(1985年~2008年)から傾向を分析し、飛行機の遅延を予測。 蓄積データ(CSV) • 1987~2008 年 (22 年間) • 1 億 2千万件 • フライト データ • 天気データ ETL 処理 • 重複排除 • フォーマット変換 • データ JOIN 評価 • スコア付け • スコアリング機能 を Azure ML に連 携 デプロイ • Web サービス実行 • Azure ML と Excel アドオン連 携による Excel 分 析 反復処理 Microsoft R on Spark Microsoft R on Spark Azure Machine Learning Azure BLOB Storage Web App Excel 3-1. 機械学習の処理フロー 解析モデル • ロジスティック回帰 • ディシジョンツリー • トレーニング &テスト • 分類器の精度算出
  • 42. •統計解析・データ分析目的で人気があり、コミュニティ活動も活発な R + Spark + HDInsight の組み合わせで、まず分析を始めることが出来る •スケーラブルに拡張可能で、機械学習向けに最適なインメモリの分析基 盤を使って、反復処理を実施しながら精度を高めることが出来る 高可用性、高性能、拡張性、低コスト、エンタープライズ向けサポートを 兼ね備えた分析環境を活かして、ビジネス課題解決の力になる 上記課題を解決するために、マイクロソフトが提供する 高速かつスケーラブルなデータ分析基盤を紹介し、 活用していただくためにその価値をお伝えする。 目標 1 2 3
  • 44.
  • 46. 3. ETL処理(処理前) airDF = 「フライト情報」を表示
  • 47. airDF = フライト情報 3. ETL処理(処理後)
  • 48. weatherDF = 「天気情報」を表示 3. ETL処理(処理後)
  • 51. logitRoc : ROC曲線表示 4. 解析モデル適用
  • 56. • 汎用プログラム含めた言語ランキングで人気上昇中 • vs データ解析用言語の比較で41%の 1 位評価 41% 20% 39% Go Ruby Java Script PHP C# R C++ Python Java C 2016 Metlab Ruby Java Script PHP R C# Python C++ C Java 2015 Metlab R Ruby Java Script PHP C# Python C++ C Java 2014 R #9 74% #6 84.8% #5 87.9% Python SAS 統計解析に使いたいツール 2016 IEEE Spectrum Ranking プログラム言語ランキング 2014 -2016
  • 57. R User Workstation R Server for Hadoop v8.0.5 RDDs Resource Manager Name Node Node Manager リソース要求 Spark起動 ScaleR Master Task アプリケーション起動 Initiator Finalizer Worker Taskアプリ実行コマンド HDFS RDDs Node Manager Worker Task HDFS RDDs Node Manager Worker Task HDFS アプリ実行コマンド
  • 58. No. R の機械学習シナリオ 具体例 1 予測 (Forecasting) 回帰分析(Regression) ・翌日の売上予測 ・仕入個数予測 2 異常検知 (Anomaly Detection) ・故障時期の推定 ・システム(サーバー リソース) 異常の事前検出 ・不正検知 (クレジット カードやセキュリティ等) 3 クラス分類 (Classification) クラスタリング (Clustering) レコメンデーション (Recommendation) ・顧客ステージの分類 ・自動判別 (フォルダ分け、タグ付け等) ・併売商品の提案 ・顧客属性や履歴に基づくユニキャスト DM 4 テキスト分析 (Text Analytics) その他 ・コメント分析、アンケート分析 ・通話記録解析、感情分析 ・文字認識、画像認識 ・最適化 • 様々な機械学習シナリオで不正検知、予測分析などの領域に活用されている。 1-1. R 概要