ITインフラsummit 2017発表資料

1© Cloudera, Inc. All rights reserved.
データの分析者と運用者
互いの業務と必要性の「理解」の
壁を打ち破るデータ基盤とは！？
Masayuki Hyugaji - SE Manager, Cloudera

はじめに

自己紹介
• 名前：日向寺正之（♂ナイスミドルでありたい年頃）
• Clouderaでの役割：Sales Engineering Manager （マネージャっぽく
ない）
• 過去の経歴
• 国内システムインテグレータにて
RDBMSやNoSQLの技術/事業開発
• 外資系テクノロジーベンダーにて
IT基盤高度化の推進/分析基盤の
利用推進
• 趣味：潜水、登山、野営。
# 週末は平地には居ない

会社概要 - Cloudera（クラウデラ）
設立 2008年、以下4社出身の社員により設立
本社アメリカパロアルト
マーケットビッグデータプラットフォームソフトウェア＆サービス
ビジネスモデルソフトウェア・トレーニング・プロフェッショナルサービス
従業員数世界全体で 1,400人以上
事業展開世界28カ国
パートナー数 2,600 社以上
Hadoopのディストリビューションの
一つである、CDHの開発、保守、
各種プロフェッショナルサービスを提供
https://www.cloudera.com/more/about.html

アジェンダ
• データ分析の事例
• ビッグデータに関わる人々、理想と現実
• BIユーザー：サクサク使いたいBIツール
• データサイエンス担当：言語やライブラリに縛られない自由な環境
• 開発者、柔軟なテスト環境 vs コスト
• まとめ

CDHを基盤とした
データ分析の事例

様々な業界でのデータ活用事例及びテーマ
Finance Government Telecom Manufacturing Energy Healthcare
不正検知科学研究
ブロードキャスト
モニタリング
サプライチェーンの
最適化
天然資源の最適化製薬の開発
アンチ-
マネーロンダリング
タックス
コンプライアンス
解約防止故障予測地震データの処理ゲノム解析
リスクマネジメント
トラフィックの
最適化
宣伝広告の最適化
RFIDデータの
収集
スマートメーターの
分析
臨床品質
コスト分析
共通するテーマ
感情分析
Webアプリケーションの最適化
ソーシャルCRM / ネットワーク分析
ロイヤリティ / プロモーション分析
ERP
価格の最適化
マーケティング施策の最適化
内部リスクのアセスメント
収益保証
ブランド管理
物流の最適化
ITインフラの分析
法的ディスカバリー
企業内での検索
機器の監視

課題
ソリューション
全てのデータが複数のDBに分散されていた
• 1日分10億件のレコードに対し、
ETLのプロセスが24時間以上かかっていた
• IoTやNW分析を実施する能力が不足
1900にのぼる運用中のデータベースとシステム
を統合・再構築し、全社横断的なViewを実現
• 以前の5倍のデータを1/3の時間で処理
• Better broadband performance through
ネットワーク分析と通信障害の予測により、
より良い帯域性能を提供
• IoTとセンサーデータを活用し、地方都市の
再開発計画に活用
• 200-250%のROIを実現し新しいプロジェ
クトをより速やかに実行できる基盤を持て
た
Customer
360
IT
Optimization

予兆保守を活用することで、効率性を向上し、
貨物の輸送障害を削減
チャレンジ:
• 貨物の輸送障害を削減するために、
180,000を超えるトラックの運行状況を
リアルタイムにモニタリングする必要があっ
た
ソリューション:
• トラック全体の通信情報および位置情報デー
タをオンデマンドに接続して収集
• エンジンの情報を収集して問題を特定し、
貨物輸送車の稼働時間を向上
• メンテナンスコストを1マイルあたり$.12-
$.15から$.03に削減
Connected Car
DATA-
DRIVEN
PROCESS
DATA-
DRIVEN
PRODUCTS
TRANSPORTATION
» PREDICTIVE MAINTENANCE
» TELEMETRY
» IMPROVED SERVICE
Product
& Service

センサーとIoTを活用し、
旅客の安全と空港の効率化を向上
チャレンジ:
• 設備機器（エスカレーター等）のダウン
タイムを低減することで、旅客の満足度
と安全性を向上させる必要があった
ソリューション:
• Azure上にCloudera Hadoop環境を構築
し、エスカレーター、エレベーター、
貨物輸送装置のセンサーデータを
収集し安全な運用を確保
• 計画外のダウンタイムを防止するために
必要な修正を提供
DATA-
DRIVEN
PROCESS
DATA-
DRIVEN
PRODUCTS
TRAVEL & TRANSPORTATION
» INTERNET OF THINGS
» PREDICTIVE MAINTENANCE
» ADVANCED ANALYTICS
Product
& Service
スマートビルディング– 予兆管理

データ分析基盤と関わる人々
理想と現実

Object Store HDFS
データサイエンス・探索
共通のガバナンス
共通のセキュリティ
共通の運用・ガバナンス・セキュリティ・スキーマ・カタログ
データ・アプリケーションBI・レポーティング
配置場所に関わらず分析基盤を提供する状況へ
ワークロード管理
KuduHBase
Cloud OnPrem
基盤利用3V, Volume（量、ユーザの量), Velocity (速度、要求される処理速度や対応の速さ), Variability (多様性、使われ方の多様性）

データ基盤イメージ
セキュリティ
データストリーム
データサイエンス
担当者
BIツール
利用者
外部データや複数のデータとの連携
バッチ
リアルタイム
データ・ソース
データ・ストレージ &
データ処理
提供、分析＆機械学習データ入力
接続された装置/
Enterprise Data Hub
機械学習等からの分析フィードバック
アプリケーション
開発者
外部アプリ連携
クラウドオンプレミス
データ所有者ネットワーク担当者インフラ担当者インターフェース担当者
セキュリティ担当者、サイト・リライアビリティ/運用担当者者、DevOps担当者
事業・ビジネスオーナー
データ統合・ガバナンス担当者

データ基盤イメージ
セキュリティ
データストリーム
担当者
BIツール
利用者
外部データや複数のデータとの連携
バッチ
リアルタイム
データ・ストレージ &
データ処理
提供、分析＆機械学習データ入力
接続された装置/
Enterprise Data Hub
機械学習等からの分析フィードバック
アプリケーション
開発者
外部アプリ連携
クラウドオンプレミス
データ所有者ネットワーク担当者インフラ担当者インターフェース担当者
セキュリティ担当者、サイト・リライアビリティ/運用担当者者、DevOps担当者
事業・ビジネスオーナー
データ統合・ガバナンス担当者
分析・利用広い意味での運用者

インフラ担当
理想と現実
開発エンジニアデータサイエンティストBIユーザー
必要な開発環境
が必要なときに
利用できるとい
いな…
基盤の環境に左右さ
れることなく、必要
なデータとライブラ
リが使えれば…
分析ツールがサ
クサク動く環境
だと仕事の効率
が上がる！
データ基盤として利用
者みんなが幸せになる
ような環境を提供した
い
処理が遅い、制限がある、環境が作れない
使いづらい、セキュリティは…

BIツール利用者

インフラ担当
理想と現実
いな…
が上がる！
い

BIツールの利用環境を取り巻く課題
ユーザの課題
データ量の制約のない分析ができない、重い、データ待ち
インフラ管理者の課題
重い原因がわからない、コストが予測できない、高い
データ管理者の課題
データの意味がわからない、使われているかどうかもわからない

BIツール利用者からのありがちな声
使いたいデータが手元にない
• 欲しいデータを毎回ダウンロードしなければいけない
BIツールの動作が重い
• ちょっとデータ量増えるだけで、画面遷移のたびに待たされる
データが準備できるまで時間がかかる
• 今すぐほしいのに、夜間バッチ待ちで使えるのは翌営業日から
過去のデータもまとめて一度に分析できない
• 過去3年分のデータを分析したいのに直近3ヶ月分しか手元にない
• 3年分のデータをロードしたら重すぎて動かない

インフラ管理者の課題
• どんなクエリを実行されるかわからない
• 何が原因で重いのかわからない
• あるユーザがとんでもないクエリを実行したおかげで他のユーザがBIを
動かせなくなる
結局…
• 管理されていない個別の環境が増殖していく
• 自分の独自環境にデータをダウンロードしてBIを利用してしまう
…という方向に動いてしまう可能性が！

データ管理者の課題
そもそも専任のデータ管理者がいない
• インフラ管理者、古参のBIユーザ、データサイエンティストなどが仕
事の片手間に行っている
データの意味がわからない
• sales, sales_new, sales_new_2
# このテーブル名だけで「売上のマスターテーブルは sales_new」と解釈できる人は誰もいない
データを削除・変更していいかどうかわからない
• もう誰も使ってないと思ったテーブルを消したらオフィスの片隅で悲
鳴が聞こえた

適切なテクノロジーの選択
BIツール利用時にはImpalaとKuduの組み合わせが正解。
設計の段階からBI利用者を意識し、ImpalaとKuduの利用を想定。
それぞれの技術の得意・不得意を把握した上で準備。
適切な分析エンジンの選択適切なストレージの選択
BIやSQL
ベースでのア
ドホック分析
バッチ処理
手続き処理の
中でのSQLの
一部利用
更新頻度：高
大規模分析
構造化データ
更新頻度:高
高速ランダムIO
多構造データ
更新頻度：低
大規模スキャン
非構造データ
HDFS
データ量の制約のない分析ができない、重い、データ待ち

適切な監視とデータガバナンス・カタログを
Cloudera Manager:クラスタ管理ツール Cloudera Navigator：メタデータ管理ツール
• BIから発行されたSQLの履歴・実行状態・パフォーマン
ス・プロファイル
• SQLチューニングに関するメトリックスの集計とヒント
• 利用ユーザー毎のリソース制御、リソース利用別レポート
環境構築、サービス管理、監視、トラブルシューティング
までカバーする運用ツール
データのアクセス監査、データの意味（タギング等）、デー
タの出処等の情報を管理するメタデータ管理ツール
• データリネージ機能：データの変換・抽出過程を可視化
(テーブルの元データ追跡、テーブル変更の影響度の把握）
• オブジェクトに対するメタデータ付与：テーブル、列、
ファイル、クエリ等
• 誰がいつどのオブジェクトに何をしたを追跡・不正アクセ
スや無許可オペレーションの有無などの確認でも利用可
重い原因がわからない、コストが予測できない、データの意味がわからない、利用の有無がわからない

データサイエンティスト

インフラ担当
理想と現実
いな…
が上がる！
い

チームデータサイエンティストとアナリスト
ゴールデータの理解、モデルの開発と改善、知見の共有
データ新規のデータ、かつ頻繁に変更される。大抵の場
合サンプリングしたデータが用いられる
環境ローカルマシンかサンドボックスクラスタ
ツール R、Python、SAS/SPSS、SQL、ノートブック、
データラングリング・ディスカバリツール
最終アウトプットレポート、ダッシュボード、PDF、Excel、Word、
PowerPoint
データサイエンス業務における2つのステージ
探索
(新しい機会の捜索と定量化)
運用
(本番システムへのデプロイ)
チームデータエンジニア、開発者、SRE
ゴールアプリケーションのビルドとメンテナンス、改善
データ既知のデータ、全データ
環境本番クラスタ
ツール Java/Scala、C++、IDE、CI、ソース管理など
最終アウトプットオンライン・本番アプリケーション

データサイエンスに対する期待
より多くの
データサイエンティストに
データ基盤をもっと自由に
使ってほしい
Hadoopのデータと計算能力に直接
アクセスして、使い慣れたツール
をパワフルに活用する
データエンジニア
簡単かつセキュアに
新しいユーザやユースケースを
追加してほしい
セキュアなセルフサービスの分析
ツールを提供し、普及していて手
頃な価格の基盤上でより素早く本
番投入する
エンタープライズアーキテクト
Hadoop管理者

データサイエンス環境を取り巻く課題
探索、実験、イテレーション
インフラ担当者
事業の加速とコンプライアンスの両立
データ基盤上で好きなツールが
利用出来ない
基盤チームが標準提供するツールは使いたくない
結局自分のノートPC上に小さいデータをダウンロードし
ないといけない
データサイエンスチームの雑多な要望への
対応が困難に
セキュリティを保つのが大変になる
コンプライアンスを維持しながら本番適用するのが辛い
限定されたモデル
クラウド上の自由な環境のメンテナンス負荷
個別に高価でハイスペックな環境を購入しないといけない
出処不明のデータ
開発/本番環境での実行環境のバージョンの差異
高価でセキュアでない、サイロ化されたシステム

データサイエンス環境を取り巻く課題
探索、実験、イテレーション
インフラ担当者
事業の加速とコンプライアンスの両立
データ基盤上で好きなツールが
利用出来ない
基盤チームが標準提供するツールは使いたくない
結局自分のノートPC上に小さいデータをダウンロードし
ないといけない
データサイエンスチームの雑多な要望への
対応が困難に
セキュリティを保つのが大変になる
コンプライアンスを維持しながら本番適用するのが辛い
・データサイエンティストはインフラに左右されない自由を得ることが出来るように。
・インフラエンジニアはガバナンスを確保できるように。

データサイエンティストに自由を与える仕組み
• 1つのプラットフォームで複数言語
が利用可能
• マルチテナント目的に利用可能なリ
ソース分離されたセッション
• セキュアなクラスタとの連携が簡単
に
• コードや成果物を共有・再利用可能
• データサイエンスのワークフローの
自動化とジョブスケジューリング
エンタープライズのためのセルフサービスデータサイエンス基盤
Cloudera Data Science Workbench

Cloudera Data Science Workbench
データサイエンティストが享受する環境
インフラ担当者が安心して提供できる環境
エンタープライズのためのセルフサービスデータサイエンス基盤
• R/Python/Scalaをブラウザから環境構築なしにすぐに使える
• 好みのライブラリやフレームワークをプロジェクトごとに独立した環境にインストール可能
• SparkとImpalaを使いセキュアなクラスタのデータを直接触れる
• 知見をチームに再利用・共同開発可能な形で共有できる
• データパイプラインの自動化と監視を組み込みのジョブスケジューラで可能
• データサイエンティスト自身が好きな分析環境を作れる自由を与えられる
• 複雑な設定なしにKerberosと連携ができ、セキュリティの確保も容易
• オンプレミスでもクラウドでもどこでもデータのある場所で提供が可能に

アプリケーション開発者

インフラ担当
理想と現実
いな…
が上がる！
い

開発側の想い
データ基盤に載せるアプリケーション開発
テスト環境としてのHadoop環境の準備
→ 最適な実験台としての環境がほしい
過不足があまりなく、必要に応じて使った分だけ
のコスト
データとサービスがどこからでも利用可能に
開発効率の向上
開発関連コストの削減
インフラ・運用側の想い
ビジネスの柔軟性とデータのポータビリティを保
持したまま、環境依存・ロックインを避ける
管理対象の環境に求められる、統合的な管理性、
可用性、セキュリティ、データガバナンス等の各
種要件を保持したままリスクを低減
運用効率の向上
リスク軽減
適宜Cloudの利用を検討すべき。

クラウドで大規模データを扱う際の課題
● クラスターの立ち上げが遅いと
それだけ実作業に割ける時間が
短くなる
● ユーザーがフォーカスしたいの
はクラスタ管理ではなく彼らの
やるべき仕事
● ログを失うとクラスター起動の
失敗や実行時のパフォーマンス
問題への対処が不可能
● サイロなサービスではビジネス
価値を生み出すことが難しい
● Proprietary なファイル構造が
インフラのロックインを引き起
こす
運用の負荷アプリのトラブルシューティングサイロなアプリケーション

一時的
長時間稼働か一時的な環境か
Object Store
長時間稼働
• 高可用性とディザスタリカバリ
• 運用管理（パッチ・ローリングアップグレード）
• リソース管理
• セキュリティ
• オブジェクトストレージの統合
• 迅速なクラスタープロビジョニング
要件に応じて、必要な環境を利用可能にする必要がある。

Cloudera Director
Cloudera DirectorとCloudera Altus
Cloudera Altus
• Cloudera EDH をクラウド環境でデプロイ＆管理するための
ツール
• ベストプラクティスを再利用可能な構成ファイルで提供
• クラスターのライフサイクル（grow & shrink）を管理
• Cloudera Manager との管理の同期
• 運用も含めて自前になるが、（クラウドプロバイダの選択肢を
含めて）自由度は非常に高い
• Clouderaからのビッグデータ分析用 PaaS
サービスを構築するためのフレームワークの基礎要素
• サービスの第一弾が Altus for data engineering
• 運用はPaaS側で巻き取る代わりに運用の自由度は低め。
• インフラ担当からの目線で、開発環境の細かな運用はPaaSに
まかせてしまいたい場合はおすすめ。
Analytic
DBMS
Operational
DBMS
Data
Engineering
Altus Platform Services
Altus PaaS Foundation

まとめ

まとめ：データ基盤、分析者と運用者の理解
• データ基盤は利用されて初めて真価を発揮する。
• 継続的に最適化され、用途も変化する。
• 利用者との意思疎通を積極的に
• BIツールの利用者
• データサイエンティスト
• 開発者
• その他
• 運用側でもクラウドとオンプレミスの混在環境と成り得るが、データ
を利用してもらうためのデータカタログや適切に利用してもらうため
のデータガバナンス・セキュリティの提供も重要なインフラ設計・運
用のポイントとなる。

さいごに：効率的なアイディエーションと意思
疎通がカギ
• 仕組みはいくつもあるが、広範囲の担当者
が関わり会い、システムの重要度も上がる。
• 何らかのフレームワークに則ったアイディ
エーションや意思疎通プロセスを敷くこと
で、リスクの共有やプライオリティ付けの
明確化を促進させる。
• リーンキャンバス等を用いた議論も優位に
なるのでは。
開発者
BIユーザ
ビジネスオーナー
データの活用方法が高度化し、データ
基盤の重要性が高まる傾向があるので
関係各所との連携を継続的に！

ありがとうございました。

ITインフラsummit 2017発表資料

Recommended

Recommended

More Related Content

Similar to ITインフラsummit 2017発表資料

Similar to ITインフラsummit 2017発表資料 (20)

Recently uploaded

Recently uploaded (8)

ITインフラsummit 2017発表資料

Editor's Notes