1	©	Cloudera,	Inc.	All	rights	reserved.	
Amr Awadallah | Cloudera 共同創業者、CTO
Twitter: @awadallah
“パーペイシブ分析”を目指して
2	©	Cloudera,	Inc.	All	rights	reserved.	
ビッグデータ⾰命が今まさに起ころうとしています
産 業 ⾰ 命 デ ー タ ⾰ 命
3	©	Cloudera,	Inc.	All	rights	reserved.	
それはあらゆる産業で起っています
テ レ コ ム
ネットワークパフォーマンスの最適化
⾦ 融 サ ー ビ ス
マネーロンダリングの検知
公 共 機 関
サイバー攻撃の検知
⼩ 売
商品のレコメンデーション
ヘ ル ス ケ ア
パーソナライズ医療
4	©	Cloudera,	Inc.	All	rights	reserved.	
それはあらゆる事業分野で起っています
マ ー ケ テ ィ ン グ 部 ⾨
コンバージョンを 2% 増加
営 業 部 ⾨
リードの 5% を実績に
管 理 部 ⾨
不正⾏為を 3% 削減
顧 客 満 ⾜ 度
解約率を 1% 削減
製 品
ユーザーの採⽤が 10% 増加
5	©	Cloudera,	Inc.	All	rights	reserved.	
なぜ今ビッグデータなのでしょう?
インスツルメンテーション パーソナライゼーション アドバンスド・アナリシス
測定できるものは
すべて計測されるようになる
従業員とお客様は、費⽤をかけずに
よりパーソナライズされた
関わりが持てることを期待してる。
「ひとりを区別する」時代
⾰新的な企業は、実験的で
予測的な分析を活⽤して
迅速な対応を図ってる
6	©	Cloudera,	Inc.	All	rights	reserved.	
ビッグデータの要件は何によって決まるのでしょう?
©2014	Cloudera,	Inc.	All	rights	reserved.			
求められるのは:
1.  技術的にも経済的にも⼤規模な拡張が可能(1バイトあたりのコスト削減)
2.  異なるデータタイプを同時に処理(マルチイン)
Ø  構造化データ: リレーショナルデータベースからトランザクションシステムまで (RDBMS)
Ø  半構造データ: サーバログ、センサーログ、クリックストリームなど
Ø  ⾮構造化データ: Eメール、ツイート、画像、⾳声、動画など
3.  同じデータパイプラインで異なるデータタイプを処理(マルチアウト)
7	©	Cloudera,	Inc.	All	rights	reserved.	
Hadoop: スケーラブルでフレキシブルなストレージと処理機能
©2014	Cloudera,	Inc.	All	rights	reserved.			
Hadoop の⽅式従来の⽅式
1TB あたり $30,000 以上
⾼ 額 で 達 成 不 能
•  拡張が困難
•  必然的にネットワークがボトルネックに
•  構造化データ、リレーショナルデータのみに対応
•  新規フィールドやデータタイプの追加が困難
⾼価、特定⽬的、ベンダー製の「信頼性の⾼い」サーバー、
⾼価なソフトウェアライセンス
ネットワーク
データストレージ
(SAN, NAS)
処理
(RDBMS, EDW)
1TB あたり $300 ~ $1,000
⼿ 頃 な 価 格 で 達 成 可 能
•  無限に拡張可能
•  ボトルネックになるネットワークを排除
•  あらゆるデータタイプを容易に投⼊可能
•  ⾼速な「スキーマ・オン・リード」データアクセス
「普通の信頼性」をもったコモディティサーバー
ハイブリッド・オープンソース・ソフトウェア
処理
(CPU)
メモリ ストレージ
(ディスク)
z
z
8	©	Cloudera,	Inc.	All	rights	reserved.	
アジリティを提供する「スマートフォン」のようなビッグデータ
現状
アプリケーションにデータをコピー
あるべき姿
データにアプリケーションを提供
データ
情報中⼼型で
あらゆるデータを扱う
業務向け仕様:
さまざまなデータ構造の、
あらゆるタイプの
内部や外部データを、
360度のビューで統合
アプリ
アプリ
アプリ
処理中⼼型の
業務向け仕様:
•  構造化データが中⼼
•  内部データ限定
•  「⾼い価値密度」のみ
•  複数のデータコピー
アプリ
アプリ
アプリ
データ
データ
データ
データ
9	©	Cloudera,	Inc.	All	rights	reserved.	
データ
ソース
データ
システム
データ
アクセス
業務分析
カスタム
アプリケーション
既存データ
データベース
業務
アプリケーション
新 規 デ ー タ
限定的なデータ
新規データはもちろん既存のデータでさ
え、⼤規模な環境でパフォーマンスを維
持しながら管理するには、不適切
まずデータを構造化しなければならない
限定的なインサイト
アクセスの制約や貧弱なデータビュー
により、不⼗分な分析と限定的な
適⽤しかできない
インサイトを実践に移すことは困難
複雑なアーキテクチャ
複雑さを⽣む複数のデータやユーザー、
ツール群
総合的なセキュリティ対策の⽋如が、
犯罪者の付け⼊る隙を⽣む
なぜレガシーなデータアーキテクチャでは不⼗分なのでしょう?
従来のアプローチは構造化
のための設計になっている:
•  構造化 データ
•  構造化 分析
•  構造化 プロセス
10	©	Cloudera,	Inc.	All	rights	reserved.	
つまり、	
道のりはやさしくない、ということです
11	©	Cloudera,	Inc.	All	rights	reserved.	
1. 正しいチームを組むこと
2. 正しいアーキテクチャを採⽤すること
3. アジャイルなアプローチを採⽤すること
12	©	Cloudera,	Inc.	All	rights	reserved.	
正しいチームを組む
IT
運⽤、情報セキュリティ、DBA、ETL
データチーム
BI、分析、データサイエンス
「ビジネス」ユーザー
すべての⼈
•  SLA を守りながらコストをコントロール
•  セキュアな環境の維持
•  可能なら、セルフサービス機能を提供
•  データを精査し、新しい事を試してみる
•  多⾓的な分析テクニックを駆使
•  ⾼いパフォーマンスとアジリティが必要
•  適時、リアルタイムなインサイトが必要
•  ⾼度な分析を⾏なう時間やスキルはない
•  結果がすべて:ビジネス上の成果は?
成功するビッグデータプロジェクトには、常に次の各グループに属するメンバーが⼊っています:
13	©	Cloudera,	Inc.	All	rights	reserved.	
ビッグデータプラットフォーム⾰命
2006 2008 2009 2010 2011 2012 現在
Core Hadoop
(HDFS, MR)
HBase
ZooKeeper
Core Hadoop
Hive
Pig
Mahout
HBase
ZooKeeper
Core Hadoop
Sqoop
Whirr
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
Core Hadoop
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
Whirr
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
Whirr
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
Parquet
Sentry
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
Whirr
Avro
Hive
Pig
Mahout
HBase
ZooKeeper
Core Hadoop
+YARN
Core Hadoop
+YARN
Core Hadoop
+YARN
Hadoop は、単なる Hadoop 以上に多くの
ことを成し遂げています
14	©	Cloudera,	Inc.	All	rights	reserved.	
Cloudera Enterprise
Hadoopを⾼速化し、使いやすく、セキュアな環境に
OPERATIONS
DATA+
MANAGEMENT
STRUCTURED UNSTRUCTURED
PROCESS,+ANALYZE,+SERVE
UNIFIED+SERVICES
RESOURCE+MANAGEMENT SECURITY
FILESYSTEM RELATIONAL NoSQL
STORE
INTEGRATE
BATCH STREAM SQL SEARCH SDK
新しい種類の
データプラットフォーム
•  無制限のデータを1か所に
•  統⼀的なデータアクセス
Cloudera が実現:
•  業務スピードの向上
•  容易な管理
•  侵害のないセキュアな環境
15	©	Cloudera,	Inc.	All	rights	reserved.	
WEB/モバイル アプリケーション
オンライン
サービスシステム
エンタープライズ
データウェアハウス
業務報告書BI / 分析機械学習
⾼度な
アプリケーション
CLOUDERA
MANAGER
メタデータ /
ETL ツール
エンタープライズデータハブ
今⽇の情報アーキテクチャ
データアーキテクト システム運⽤担当 エンジニア データサイエンティスト アナリスト ビジネスユーザー
お客様およびエンドユーザー
SYS ログ WEB ログ ファイル RDBMS
16	©	Cloudera,	Inc.	All	rights	reserved.	
1つにまとめる: EDHのデータを活⽤する
収集、作成、管理
制約の無いデータ
データ検索、分析
さまざまな⼿段で
実践化
⾏動を促すインサイト
アジャイルな処理ステージ データ処理 ユーザーアクセス
IT
運⽤、情報セキュリティ、DBA、ETL
データチーム
BI、分析、データサイエンス
「ビジネス」ユーザー
すべての⼈
1.
2.
3.
Enterprise Data Hub
⽣データ
ロード、セキュア、統治、タグ
データの改善
ブレンド、クレンジング、構造化
信頼性の⾼いデータ
⼀般のアクセスを可能に
17	©	Cloudera,	Inc.	All	rights	reserved.	©2014	Cloudera,	Inc.	All	rights	reserved.			
スタートスモール、シンクビッグ (あるいは「⾛る前に歩きなさい」)
SQL
を超越する
アジャイルな
データソース
調査
ETL/Batch
の⾼速化
運⽤効率
(より⾼速に、⼤規模に、低予算で)
⾰新的なアプリケーション
(新しいビジネス価値)
安価な
ストレージ
ビジネス													IT	
EDW
の最適化
パーベイシブ
分析
18	©	Cloudera,	Inc.	All	rights	reserved.	
まとめ
1.  テクノロジーの変化であると同時に、⽂化の変化です
2. はじめはゆっくりと、歩いて、それから⾛りましょう
3. 時間がかかります。直ぐに始めましょう
4. コミュニティの専⾨家に学びましょう
19	©	Cloudera,	Inc.	All	rights	reserved.	
共同創業者/CTO、Cloudera, Inc.
Twitter: @awadallah
Amr	Awadallah

基調講演: 「パーペイシブ分析を目指して」#cwt2015

Editor's Notes

  • #3 If we can collectively execute as a group we will spark a data revolution. We have seen this happen before. The industrial revolution was sparked by new manufacturing technology that allowed organizations to more efficiently produce products, in turn, offering a better more affordable product to consumers. This had a profound impact on not only the producer but also the consumers. The same thing will happen with data. If we can leverage data in a way that makes people more efficient at building better products we can in turn provide a better service to end users have a similar impact on the world around us. Just like the industrial revolution started with the Textile industry the data revolution started with the technology sector. The Googles, Facebooks, Ubers of the world have already changed our lives, and in turn, have seen the data returns that we are all after.
  • #4 Key Takeaways: Industries are already beginning to transform. How can data help transform the way employees and customers interact with these industries.
  • #5 Key Takeaways: Employees are already asking the right questions, we just need to help them achieve their goals through the use of data.
  • #6 With maturity of the platform and  technology ecosystem, and with enterprises better understanding not only the promise of the technology but also how to implement it, we are seeing a fundamental shift in the market….. Hadoop and big data are no longer about technologies only, nor are they  simply about cost reduction. In fact, there have been shifts towards aligning data to business objectives in order to derive even greater value out of big data. The three areas of opportunities within businesses generally are: Customer 360 - How do I understand my customers and my channel better to improve my topline? Data-driven products - How do I create better and more products to satisfy the needs of my customers? Risk - How do I make sure that the company complies to rules and regulations, protects customer and enterprise information, and minimize the risk factors?
  • #8 Pricing Data: Cloudera: HW + SW per-year list prices for Basic thru EDH at various configs Old Way: Various sources. One of note: - Cowen / Goldmacher coverage initiation of Teradata, June 17, 2013 - List price of high-end appliance (which he thinks is more comparable to our solution) is $57K/TB + maintenance for an annual cost of $39K/TB - Prices have likely decreased, but we estimate they are still in excess of $30K/TB/year - List price of their low-end appliance is $12K/TB + maint or $8K per year
  • #9 Today we're in the middle of a shift in how businesses use information. In the past, you'd define a set of business processes, build applications around each of them, and then go about gathering, conforming, and merging the necessary data sets to support those applications. From an infrastructure perspective, you'd be bringing the data over to the compute, often in relational databases. But you'd be leaving quite a lot on the table. The modern realities of business demand a new approach. Today companies need, more than ever, to become information-driven, but given the amount and diversity of information available, and the rate of change in business, it's simply unsustainable to keep moving around and transforming huge volumes of data.
  • #10 We are in the middle of a shift in how businesses use information. We want to use not just more data, but more kinds of data. We need to combine old data with new, interact with data in multiple ways, and rapidly iterate on the results. Several challenges: A. Limited Data. Faced with the tremendous growth in volume and variety of data, most existing systems aren’t positioned to meet the demand and require you to store data offline where it is inaccessible to users. B. Limited Insights. Analysts and data scientists struggle with the tools available to them. SQL is only one way to interact with data, and often not the right tool for the job. Without access to all the original data, it can take weeks or months to deploy new views. If the tools your data team uses are limited to the expertise of that team then business user must rely on the stressed data teams. C. Complex Architecture. Managing multiple systems creates gaps in security, policy enforcement, and management capabilities. Not to mention inflated costs and a decrease of ROI In traditional architectures, it can be complex to secure all data for all users, so it’s often easier to simply leave data out of analysis, or lock users out of analytics
  • #11 The Journey is not easy It takes time We know, we have done this countless times before New technology can seem complex It can create operational complexity Requires new skills and ongoing training 3 parts to the solution: architecture, team, process
  • #12 Assemble the right team and make sure the right players are part of the conversation. Get the right architecture to provide your users the right framework and tools to do their jobs. Adopt an agile approach, and never stop experimenting. 
  • #13 Breakdown as more personas and not necessarily titles. And each think about different things. IT – provides plumbing and data to business users. Next we need to think about security. Deliver self service where you can! But don’t stop here! Build a data team The people that are tasked turning data into value. Try many things quickly and they need good tools. They also need high performance tools. Business Users One of the reasons big data projects fail is because business users are not brought into the conversation at the right time. Seek executive sponsors and internal champions : These users care about results.
  • #14 Enter Apache Hadoop, I imagine that is why you all are here today? Apache Hadoop is a community Continues to grow as Hadoop continues to expand out of just batch storage and processing. As more businesses adopt Hadoop, more use cases emerge. With Hadoop, you don’t just get the code your team built, you get the code the community built.
  • #17 Hadoop does not need a schema to load and land data.  You can land any data in full fidelity.  Secure it and tag it, then make it available to your data team. Leverage more types of data and future-proof your efforts as the business matures
  • #19 In Summary, In order to realize the dream of Pervasive Analytics It’s a cultural shift as much as a technology shift Start Small, and prepare for the next success It takes time, start today Lean on experts in the community, and never stop experimenting