最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks

1 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
最新事例から学ぶ
ビッグデータの活⽤法
ホートンワークスジャパン株式会社
マーケティングディレクター
北瀬公彦

北瀬公彦
KIMIHIKO KITAsE
http://blogs.itmedia.co.jp/kkitase
@kkitase
2016年6⽉、ホートンワークスジャパンに⼊社。
ビッグデータの収集、蓄積、分析基盤製品のマーケティ
ングを担当。⼊社前、⽶Data Science Dojoが開催する
データサイエンティスト養成講座に参加するも、全く畑
の違う分野で悪戦苦闘。開き直って、初⼼者に優しい
データの利活⽤術をお伝えしようと考えている。
facebook.com/kkitase

4ZB
DATA
MOBILE
DEVICES
HUMAN
CONTENT
INTERNET
OF THINGS
44ZB
DATA
Source: http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm

出所：第27回産業競争⼒会議 2016.5
政府は2016年5⽉19⽇、第27回
産業競争⼒会議を開催し、名⽬
国内総⽣産（GDP）600兆円に向
けた成⻑戦略（「⽇本再興戦略
2016」）の素案を公表しました。
新たな有望成⻑市場の創出では、
IoT・ビッグデータ・AI・ロボッ
トなどによる第４次産業⾰命の
実現で2020年には30兆円の付加
価値創出を⽬指しています。
⽇本再興戦略2016 〜第４次産業⾰命の実現〜

現⾏のシステムで受け⽌められますか？
Ã 課題
• データがアプリに固定化していてる
• 新しいデータの受け⼊れが難しい
• スケールするとコスト⾼
ビジネスの価値
クリックストリーム
Webデータ
Internet of Things
ドキュメント、メール
サーバーログ
⾳声・画像
2013年
4 Zettabytes
2020年
40 Zeta bytes
1
2 新しいデータ
ERP CRM SCM
新しいデータ
既存データ
新たなデータの多くは、
Internet of Anything
としてシステムとデバイス間の
やり取りとして誕⽣します

企業のIT投資動向
ほぼ横ばい

ビッグデータには新しいプラットフォームが求められる
・⼤量・多種類データに対応する拡張性
・静的・動的データの⼀元管理
・リアルタイム・エッジ実装
・ガバナンス・セキュリティ
・オープンテクノロジー
DATA AT
REST
DATA IN
MOTION
ACTIONABLE
INTELLIGENCE
Modern Data Applications
流れている
データ
蓄積された
データ

新しいタイプの
アナリティクス
新しいタイプのデータ既存のデータ
既存のアナリ
ティクス・業務ビッグデータ活⽤の道のり
データ統合・可視化
貯める・統合する・⾒える化する
DWH・EDW
MDM
Business
Intelligence
データエンリッチメント・多様化
増やす・作る・使わせる
IoT
Data Ingest
Edge
Analytics
データサイエンス・予測分析
使う・発⾒する・予測する
Data
Discovery
Predictive
Analytics
戦略的データ活⽤の⾃動化
最適化する・利益に変える
AI
Real-Time
Deep
Learning

新しいタイプの
アナリティクス
新しいタイプのデータ既存のデータ
既存のアナリ
ティクス・業務
• EDW & ETL データのロードやバランシン
グ
• コスト & 柔軟性
• 新しいスキルセットの習得
• コモディティHWを使ってスケールアウト
• お客様のプロファイルや履歴を360度か
ら⾒るシングルビュー
• クリックストリーム分析によるお客様へ
の最適な商品の提供
• 巨⼤な過去データに対しての⽀払い請求
分析
New Historical View
IT Optimization New Data Influencers
• 「使⽤ベース」保険のためのセンサーや
テレマティクスデータを収集
• センチメント
• ロスコントロールや予防サービスの強化
• 必要ベースのカバレッジ vs. 既存のカバ
レッジ
New Analytics Applications
• テキスト分析やリンク分析による⽀払い
請求の異常値発⾒や不正検地
• リンク分析によるリスク分析の強化
• 新しい予測データを使⽤し、⽀払い請求
の深刻度や頻度を強化
保険業務でのデータ活⽤例

Hortonworks® の顧客は、新たなビジネス⽬標を達成する、コストを削減することのいずれか
の理由で当社の技術を利⽤しています。
Customer Journeyは、弊社が保持する多くのユースケースを案内する事によりお客様のニー
ズに応えます。
ソーシャル
マッピング
リスク評価
テレマト
リックス
ロス
コントロー
ル
コール分析
センサー
データ
製品設計 M & A
デューデリ
ジェンス
レコメン
デーション
サイバー
セキュリ
ティ
リスク
モデリング
リスクアペ
タイト
ロスコント
ロール
Cat
モデル
調査計画
⽀払い請求
深刻度
カスタマー
サポート
センチメン
ト分析
リスク分析
広告掲載
⽀払い請求
分析
セグメン
テーション
クロス
セル
顧客維持
代理店
スコアカー
ド
不正調査
運⽤コスト
削減
メインフ
レームのオ
フロード
履歴レコー
ド
サービス
としての
データ
パブリック
データ取得
不正予防
デバイス
データ
取り込み
⾼速レポー
ティング
デジタル
保護
不正緩和
⽀払い能⼒
分析

事例のご紹介

データ活⽤による新規ビジネスの展開
運転傾向・⾞の使⽤環境に基づ
いた柔軟な保険提案の実現
Ã Snapshot plug-in デバイスは運転の
詳細を収集
Ã Progressiveは、1000万マイル以上
の運転データを保存 (約1600万
Km）
Ã Webアプリ経由で、顧客は⾃⾝の運
転詳細を⾒ることができ、安全向上
に努めることが可能
Ã Snapshotとusage-based insurance
は2014年には、Progressiveに2.6 億
ドルの貢献（約273億円）
Innovate
Renovate
Claims Notes
Mining
Individual
Driving
Histories
Usage-Based
Insurance (UBI)
Web Log
Analysis
Online Ad
Placement
Sensor Data
Ingest
PREDICTIVE
ANALYTICS
A C T I V E
A R C H I V E
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
E T L
O N B O A R D
Safe Roads
既存データの
可視化
データ拡充
新規基盤構築
新規モデル作成新規サービス提
供

爆発するデータ容量に対応したサービス改善
Metadata
Capture
Threat
Predictions
Attacker
Detection
Unified
Security
Security Log
Analysis
Threat
Archive
Device Data
Ingest
Threat
Detection
Legacy
Offload
Data Science Speeds
Time to Protection
Ã 脅威検出時間が4時間から2秒に
Ã 防御回数が5000倍に
Ã 10ペタバイト以上のデータを
使って機械学習した結果、脅威
が可能に
Ã AmbariとCloudbreakを使ってク
ラスターを管理
Innovate
Renovate
Digital
Security
PREDICTIVE
ANALYTICS
E T L
O N B O A R D
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
E T L
O N B O A R D
E T L
O N B O A R D
A C T I V E
A R C H I V E
P R E D I C T I V E
A N A L Y T I C S
S I N G L E
V I E W
Proactive
Safeguards
増え続けるセキュリティ攻撃
に対応した新規基盤及び
サービスレベルの改善
既存データの
⾒える化及び
データ拡充⾬
既存システム
のオフロード
コスト最適化
新規モデル作成
新規データ活⽤
新規サービス提
供

スマートメーター活⽤による
新しいマーケティング・顧客サービスの導⼊
1.3 Million
Smart Meters
EDW
Offload
Mobile App for
Customer Sites
Ingest 300
GB per Day
Product
Cross-Sell
データ活⽤による新しい
電⼒提供サービス
スマートメーターによるデータ
量増加に対応した環境構築
年数回の顧客訪問（検針）
→13万個のスマートメーター
数億円のDWHコスト最適化
11時間かかっていたETL処理を
45分に削減
個客に応じた新たなサービス
⾰新的サービスを主体としたビ
ジネモデルに変⾰
Innovate
Renovate
Smart,
Efficient
Homes
D A T A
D I S C O V E R
Y
D A T A
E N R I C H M E N
T
P R E D I C T I V E
A N A L Y T I C S
S I N G L E
V I E W
A C T I V E
A R C H I V E
E T L
O N B O A R D
SINGLE
VIEW
S I N G L E
V I E W
P R E D I C T I V E
A N A L Y T I C S
On-site customer
data capture
Optimized
engineering
schedule
Tailored
servicing
Customer
sentiment
既存環境の最
適化・可視化データ拡充
予測分析
Data Discovery
供

データ活⽤による製造プロセスの最適化
Scientific
Search
Sensor
Data
Storage
Vaccine Yield
Optimization
Innovate
Renovate
The Journey to
the Golden
Batch10年間、550万通りの製造データ
を結合・分析
最適なワクチン製造⼯程を特定
初年度に40,000ダースの製造増
加に成功。10億円の利益に直結
マッキンゼーの調査の結果、
50％の製造⼯程改善が認められ
る。
Epidemiology
DATA
DISCOVER
Y
A C T I V E
A R C H I V E
D A T A
D I S C O V E R
Y
D A T A
D I S C O V E R
Y
The Golden
Batch
数百万通りのワクチン製造
プロセスから最適な⼯程を特定
既存データの
結合・共有データ拡充
予測分析
Data Discovery
供

⾮構造化データ活⽤による鉄道の最適化
Optimize
Maintenance
Schedule
Innovate
Renovate
The Journey to
the Golden
Batch旧来のメンテナンス履歴、時間
などの作業による膨⼤なコスト
が課題
⾞両搭載のセンサー、GPS、画
像データを⼀括管理
リアルタイムに路線で起こって
いる問題を把握
分析により、将来起こりうる問
題を事前予測、Proactiveなメン
テナンスを⾏う。
DATA
DISCOVER
Y
Safe Rail
位置情報、センサー、画像を活⽤し
たメンテナンス作業の最適化
既存データの
結合・共有データ拡充
予測分析
Data Discovery
供
New Insights
from new
data set
EDW
Offload
Ingest
sensor /
GPS data
D A T A
D I S C O V E R
Y
D A T A
E N R I C H M E N
T
A C T I V E
A R C H I V E
E T L
O N B O A R D
P R E D I C T I V E
A N A L Y T I C S
Ingest Video
Images
Optimized
Maintenance
schedule
北⽶⼤⼿鉄道会社様

eBay: 毎⽇50TB以上のデータが⽣成
Source:
http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
http://www-conf.slac.stanford.edu/xldb2011/talks/xldb2011_tue_1055_TomFastner.pdf

ヘルスケア業界で、データプラットフォームの構築
Preventive
Care
OPEX
Efficiency
Billing &
Payments
Clinical
Docs
Vital Sign
Monitoring
Single
Patient Record
Medical
Decision Support
Lab Notes
Archive
EPIC EMR
Replication
EPIC
Enrichment
Privacy
Database
Device
Data Ingest
効果
払い戻し要求があった場合に
も、患者の状況を把握できる
ようになった。
患者様の情報などを、効率的
テキストサーチを⾏う事が可
能になった。
19000の患者様の情報に対し
てのあるクエリが、２週間か
かっていたバッチ処理が、半
⽇で終わるようになった。
課題
35の病院、500のクリニッ
ク、年間100万の患者
主に、運営、財務、費⽤
のデータを分析していた。
データが増えてもスケー
ルアウトさせられなかっ
た。
ソリューション
すべてのデータをHadoop
にリプリケートした
組織内のデータだけでな
く、3rdパーティのデータ
を利⽤するようになった

Hortonworksのご紹介

Hortonworks
Hadoop / Spark / NiFi を中核に置いたソフトウェアを開発・販売、サービスの提供
• Hortonworksについて
• 100%オープンソース
• 会社設⽴3年⽬で株式公開
• 顧客数 800社以上（2015年Q4）
• ビジネスモデル
• 1年間契約のサブスクリプション（サポートサービス）
• コンサルティングサービス / プロジェクト⽀援サービ
ス
Hadoopを早くから導⼊されたお客様も
Hortonworksのディストリビューションを採⽤
開発 & データツール
インフラストラクチャ
オペレーションツール
RDBMSEDW MPP
データシステム
分析ツール & アプリケーション
BusinessObje
cts BI
Microsoft Analytics
Platform System
1,600を超えるエコシステムパートナー
Hortonworks テクノロジーパートナー
• Connected Data Platformsを提供
• Hortonworks Data Platform (HDP)
• 様々なデータを蓄積する (data at rest)
• Hortonworks DataFlow (HDF)
• リアルタイムのデータを扱う（data in motion）
データ収集、蓄積、分析プラットフォーム

ホートンワークスジャパン株式会社
設⽴
• 2014 Q3
オフィス
• ⼭王パークタワー（東京都千代⽥区永⽥町2丁⽬11−1 3F）
サービス
• サポートサービス: 24時間365⽇、⽇本語でサービス提供
• プロフェッショナルサービス: クラスタ設計・構築⽀援等
社員数
• 14名 (as of 2016/09)
• Hadoop、Spark、HBase関連の書籍執筆者も在籍
• ⽇本初のApache NiFi Project Committerが在籍
3F

Apache Communityへの貢献
コミッターの多くがHortonworksの社員です。
Apache Hadoop プロジェクトに関わるコミッターの
約1/3はHortonworksの社員です。Apache NiFiの⼤半
を始めとする多くの重要なプロジェクトに関わって
います。
コミッターはコネクティッド・データプラット
フォームを改良し、⾰新を続けています。
Hadoopのロードマップに関わっています。
コミュニティに対し、重要なリクワイアメントを⾔
える⽴場にいます。
1,500を超えるエコシステムパートナー
Hortonworks テクノロジーパートナー
専⾨家集団開発に深く携わるコア・メンバーにより構成
Hortonworks はApache Communityに
⾮常に深く関与しています。

100% Open Source
Connected Data Platforms
Eliminates Risk
オープンソースソフトウェア・最先端テクノ
ロジーの活⽤によるデータ活⽤提案
Maximizes Community Innovation
全世界のコミュニティの⼒を活⽤した最先端
技術の活⽤
Integrates Seamlessly
世界中のソリューション・IT Technologyとの
親和性
M A X I M U M C O M M U N I T Y I N N O VAT I O N
T H E
I N N O VAT I O N
A D VA N TA G E
P R O P R I E T A R Y
H A D O O P
T I M E INNOVATION
O P E N
C O M M U N I T Y

Hortonworks: Big Data Hadoop Solutions リーダー
Hortonworks is a Leader of
Big Data Hadoop Solutions
Fortune 100 の40%の企業が採⽤
75% 通信業界
65% 損害保険業界
55% 製造業
46% 卸売、⼩売業界
40% ヘルスケア
“The Forrester Wave™: Big Data Hadoop Solutions”

ビッグデータを⽀える静的・動的データプラットフォーム
Connected Data Platforms
• HadoopはData at Rest（蓄積されたデータ）の基礎
• IoTの登場により、Data in Motion（流れているデータ）の必要性
• モダンデータアプリケーションはData in MotionとData at Restの両
⽅のデータを利⽤してお客様の価値を最⼤化
• 最適な保険料⾦の選定システム
• 故障予測サービス
• サイバーセキュリティ
• その他のインダストリーアプリなど
Data Operating System

Hortonworks Data Platform
のご紹介

データの蓄積、分析プラットフォーム
Hortonworks Data Platform (HDP)
Data Operating System
クリックストリームセンサーソーシャルモバイル位置情報サーバーログ
バッチインタラクティブサーチストリーミングマシンラーニング
既存データ

29 © Hortonworks Inc. 2011 – 2016. All Rights Reserved runs on
ETL
RDBMS Import/Export
Distributed Storage & Processing Framework
Secure NoSQL DB
SQL on HBase
NoSQL DB
Workflow Management
SQL
Streaming Data Ingestion
Cluster System Operations
Secure Gateway
Distributed Registry
ETL
Search & Indexing
Even Faster Data Processing
Data Management
Machine Learning
Hadoop Ecosystem

データの蓄積、分析プラットフォーム

HORTONWORKS DATA PLATFORM
Hadoop
& YARN
Flume
Oozie
Pig
Hive
Tez
Sqoop
Cloudbreak
Ambari
Slider
Kafka
Knox
Solr
Zookeeper
Spark
Falcon
Ranger
HBase
Atlas
Accumulo
Storm
Phoenix
4.10.2
DATA MGMT DATA ACCESS GOVERNANCE & INTEGRATION OPERATIONS SECURITY
HDP 2.2
Dec 2014
HDP 2.1
April 2014
HDP 2.0
Oct 2013
HDP 2.2
Dec 2014
HDP 2.1
April 2014
HDP 2.0
Oct 2013
0.12.0 0.12.0
0.12.1 0.13.0 0.4.0
1.4.4 1.4.4 3.3.23.4.5
0.4.00.5.0
0.14.0 0.14.0 3.4.6 0.5.0 0.4.00.9.30.5.2
4.0.04.7.2
1.2.1 0.60.0 0.98.4 4.2.0 1.6.1 0.6.0 1.5.21.4.5 4.1.02.0.0
1.4.0 1.5.1 4.0.0
1.3.1
1.5.1 1.4.4 3.4.5
2.2.0
2.4.0
2.6.0
2.7.1 1.4.6 1.0.0 0.6.0 0.5.02.1.00.8.2 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0
HDP 2.3
Oct 2015 4.2.0
0.96.1
0.98.0 0.9.1
0.8.1
1.4.1 1.1.2
2.7.3 1.4.6 1.3.0 0.9.0 0.6.02.4.00.10.0 3.4.61.5.25.5.1 0.91.0 0.7.01.7.04.7.0 1.0.1 0.10.00.7.0
1.2.1+
2.1***
0.16.0
HDP 2.5*
2H2016
4.2.0
1.6.2+
2.0**
1.1.2
2.7.1 1.4.6 1.2.0 0.6.0 0.5.02.2.10.9.0 3.4.61.5.25.2.1 0.80.0 0.5.01.7.04.4.0 0.10.0 0.6.10.7.01.2.10.15.0
HDP 2.4
Mar 2016 4.2.01.6.0 1.1.2
Zeppelin
Ongoing Innovation in Apache
0.6.0
HDP 2.5 – Shows current Apache branches being used. Final component version subject to change based on Apache release process.
** Spark 1.6.2+ Spark 2.0 – HDP 2.5 support installation of both Spark 1.6.2 and Spark 2.0. Spark 2.0 is Technical Preview within HDP 2.5.
*** Hive 2.1 is Technical Preview within HDP 2.5.
互換性などのテスト

Ambari（クラスタ管理）

Ambari（SQLクエリ）

Hive performance
http://hortonworks.com/blog/announcing-apache-hive-2-1-25x-faster-queries-much/
LLAP: http://www.slideshare.net/techblogyahoo/hivellap

Apache Zeppelin （データサイエンティスト向けUI）

Demonstration
1. クラスタの管理 – Ambari （クラスタ管理）, Hive（Hadoop SQLエンジン）,
Ranger （監査）
2. オーストラリア州の納税額を使ったデータ分析 – Zeppelin （データ分析ツー
ル）

Hortonworks DataFlow
のご紹介

Hortonworks DataFlowとHortonworks Data Platformにより、
ビックデータ基盤のエンド・ツー・エンドソリューションを提供します。
Hortonworks Data Platform
powered by Apache Hadoop
Enrich
Context
Store Data
and Metadata
Internet
of Anything
powered by Apache NiFi
動的・鮮度が
重要な⾒識
静的・過去データ
による⾒識
Connected Data Platform
データ収集プラットフォーム

Lambda (λ) Architecture
Source: http://lambda-architecture.net/

Ingestion
Simple Event
Processing
Engine
Complex Event
Processing
Destination
Data Bus
Build
Predictive Model
From Historical
Data
Deploy
Predictive Model
For Rea-time
Insights
Perishable Insights
Historical Insights
Lambda (λ) Architecture

過去8年間にNSAによっ
て開発
「NSAのイノベーターは、
考えられる中で最も困難
な国家安全保障の問題の
⼀部に取り組んだ」
「商業エンタープライズ
は、これを利⽤して地理
的に
離れたサイトからの情報
フローを迅速に制御、管
理、分析し、総合的な状
況認識を⽣み出すことが
できる」
-- NSAディレクター
Linda L. Burger⽒
国家安全保障局が開発したNiFi

130以上のシステムとの連携が可能
HTTP
Syslog
Email
HTML
Image
Hash Encrypt
Extract
TailMerge
Evaluate
Duplicate Execute
Scan
GeoEnrich
Replace
ConvertSplit
Translate
HL7
FTP
UDP
XML
SFTP
Route Content
Route Context
Route Text
Control Rate
Distribute Load
AMQP

Demonstration
Hortonworks DataFlow (HDF)
1. Twitterのリアルタイム分析 - NiFi, Solar

デモ環境
検索エンジン
HDFS
分散ストレージ
データフロー
コントローラー
ソーシャル
データ

クラウドでの利⽤

クラウド環境での利⽤ - Azure編

クラウド環境での利⽤ - AWS編
http://hortonworks.com/blog/quickly-launch-hortonworks-data-platform-amazon-web-services/

クラウド環境での利⽤ - OpenStack編

クラウド環境での利⽤ - Baremetal編
Zookeeper
Master Nodes * 3
Ambari * 1
YARN(RM),
HDFS(NN) HA
Other master components
Hardware
Software(HDP)
components
ambari-
server
MySQL
(master-slave)
PostgreSQL
HDFS: DataNodes
YARN: NodeManagers
Slave Nodes * 3+

Hortonworksを始める為の５ステップ
1. Hortonworksサンドボックスを試す
hortonworks.com/sandbox
2. チュートリアルを試す
hortonworks.com/tutorials
3. Future of Data 勉強会に参加する
futureofdata.connpass.com
4. Hortonworks Community Connect (HCC)に参加する
hortonworks.com/community
5. サポートサービスを検討する
http://hortonworks.com/support

Hadoop Summit 2016 Tokyo
Apache Hadoop / Spark、機械学習、データサイエンス、
IoT、ビッグデータなど、データ活⽤最新動向を⼀挙紹介
http://hadoopsummit.org/tokyo
facebook.com/hadoopsummit
@hadoopsummit
Promotion Code
APAC2020%OFF
eBay, Yahoo Japan, Daimler Trucks Asia, Coca-Cola East Japan, 楽天, Verizon,
LinkedIn, セガ, Criteoなどデータ活⽤先進企業からの登壇決定！

最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks

Similar to 最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks (20)

More from Kimihiko Kitase

More from Kimihiko Kitase (20)

Recently uploaded

Recently uploaded (9)

最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks