Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Strata + Hadoop World 2014 レポート #cwt2014

1,868 views

Published on

Cloudera World Tokyo 2014 で発表した、 Strata + Hadoop World 2014 のレポートです。Cloudera 会長 Mike Olson のキーノートや、保険会社の事例、ソーシャルグラフ作成、ETLの課題、HBase のアーキテクチャなどについて紹介しています。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Strata + Hadoop World 2014 レポート #cwt2014

  1. 1. Strata + Hadoop World 2014 レポート Cloudera 嶋内 翔
  2. 2. ⾃自⼰己紹介 • プリセールスソリューションアーキテクト • 2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社 • お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメイン の仕事 • 実際は技術に関係する業務は全部⾏行行っている • email: sho@cloudera.com • twitter: @shiumachi © 2014 Cloudera, Inc. All rights reserved. 2
  3. 3. © 2014 Cloudera and/or its affiliates. All rights reserved. 3 ニューヨーク ⾏行行ってきました!
  4. 4. © 2014 Cloudera, Inc. All rights reserved. 4
  5. 5. © 2014 Cloudera and/or its affiliates. All rights reserved. 5 ニューヨーク ⾏行行ってきました!
  6. 6. © 2014 Cloudera and/or its affiliates. All rights reserved. 6
  7. 7. Strata + Hadoop World とは • データサイエンティストやアナリスト、エグゼクティブなどが集 まって知識識を共有したり、⾼高度度な技術のチュートリアルを受けたり する世界最⼤大の(ビッグ)データ産業に関するイベント • 概要説明にHadoopの⽂文字はない! • データ産業の変化につれ、以下のようなトピックを追加している • セキュリティ、ユビキタスコンピューティング、データチームの作り⽅方、マシ © 2014 Cloudera, Inc. All rights reserved. 7 ンデータなど
  8. 8. © 2014 Cloudera, Inc. All rights reserved. 8 Strata + Hadoop World 2014 概要 • Hadoop World としては今年年で6回⽬目 • 2014年年10⽉月15⽇日〜~10⽉月17⽇日開催 • ニューヨーク ジャヴィッツ・セン ターでの初開催 • 参加者数5500⼈人! • 第1回⽬目(2009)は400⼈人程度度
  9. 9. © 2014 Cloudera, Inc. All rights reserved. 9 会場の様⼦子
  10. 10. © 2014 Cloudera, Inc. All rights reserved. 10 会場の様⼦子
  11. 11. © 2014 Cloudera, Inc. All rights reserved. 11 会場の様⼦子
  12. 12. © 2014 Cloudera, Inc. All rights reserved. 12 キーノート: Mike Olson (Cloudera会⻑⾧長) • データプラットフォーム業界のトレ ンドの移り変わりと、それに伴う Hadoop World のテーマの変遷につい て語った • 製品紹介も会社のビジョンもほぼ⼀一 切切なし! • キーノートでのサプライズ発表もな し • C5.2の発表やパートナーシップの発表など は事前にプレスリリース済み
  13. 13. Strata + Hadoop World のテーマの移り変わり • 第⼀一回⽬目: 新しいHadoopプロジェクト (geeky project)について語った。 Pig、Hive、Sqoopなど • ほとんど誰もHadoopがどんなものか知らなかった時代 • 数年年後、「皆がHadoopで何をしているか」の話にシフトした • ⾦金金融や農業の企業がデータを活⽤用して成果を上げている話など • 2013年年: エンタープライズデータハブ(EDH) • 全てのデータを⼀一箇所に集める • 皆がこの概念念を受け⼊入れ、EDH上で素晴らしいアプリケーションを作れること © 2014 Cloudera, Inc. All rights reserved. 13 がわかった
  14. 14. これからHadoopはどうなるのか? • Hadoopは⾒見見えなくなる (dissapear) • ⼀一部⽇日本語の記事で「消え去る」と訳していたけどそれは誤訳 • TeradataやOracleなど、既存のデータプラットフォーム企業のビジネ スユーザの多くは、何が基盤として動いているかを意識識せずに利利⽤用 している • HadoopもじきにそうなるだろうとMike Olsonは予測 • Strata + Hadoop World の参加者はそれじゃダメです • “We should all together build it!” • 皆さんはそういうプラットフォームを作る側の⼈人間 • もちろんCWT参加者も同じ! © 2014 Cloudera, Inc. All rights reserved. 14
  15. 15. セッションオーバービュー • テクニカルセッションは最新技術の⼊入⾨門向けが多かった印象 • ⼀一番多いのはやっぱりSpark • 製品紹介なども多い • チュートリアルの⽅方はもっと⾼高度度かも(未参加) • 事例例セッションは、「きれいな」事例例よりも割と泥泥臭い事例例が多 かったような印象 • たまたま⾃自分の参加したセッションがそうだっただけかも © 2014 Cloudera, Inc. All rights reserved. 15
  16. 16. 事例例: Transamerica Life and Protection • Transamerica Life and Protection: ⽣生命保険などを扱う保険会社 • ⽬目標 • マーケティング、企画、分析のための顧客の360度度ビュー • 関係性の発⾒見見と発掘 • ⾼高度度にターゲティングされ個別化されたマーケティングプログラムの作成 © 2014 Cloudera, Inc. All rights reserved. 16
  17. 17. © 2014 Cloudera, Inc. All rights reserved. 17 しかし現状は…… http://strataconf.com/stratany2014/public/schedule/detail/36763
  18. 18. © 2014 Cloudera, Inc. All rights reserved. 18 どうやって解決したか • プラットフォーム: Cloudera • HBase にデータを格納 • Cloudera Navigator により監査なども⾏行行う • ETL: Informatica Big Data Edition • 名寄せなどもしてくれるらしい • BI: Datameer
  19. 19. © 2014 Cloudera, Inc. All rights reserved. 19 開発⼯工程の紹介 作業 担当 期間 クラスタ初期構築 Cloudera 2週間 Informatica インストールとデータの Informatica / Transamerica 2週間 準備 プロファイリング、データのクレ ンジング、正規化、集約、重複排 除、顧客の特定など Informatica / Transamerica 4週間 可視化、モデル、PMML、キャン ペーンファイル Datameer / Transamerica 2週間 SAS連携 Transamerica 1週間 仕上げ -- 1週間
  20. 20. © 2014 Cloudera, Inc. All rights reserved. 20 チーム紹介 • ビジネス (スポンサー、データ、分析、キャンペーン) • プロジェクトマネージャ • ビジネスアナリスト • IT(6名) • 運⽤用(協⼒力力会社3名) • ⽀支援スタッフ • 法務 • 調達 • セキュリティ
  21. 21. 事例例: LinkedIn • LinkedInにおけるソーシャルグラフ(Economic Graph)の話 • きれいなアルゴリズムの話ではなく、むしろ泥泥臭い話 • http://www.slideshare.net/VitalyGordon/computing-professional-identity-for-the-economic- © 2014 Cloudera, Inc. All rights reserved. 21 graph • まとめにある「データクリーニングはただ空の値をフィルタすれば いいだけじゃねえんだよ!」という⾔言葉葉が全て
  22. 22. © 2014 Cloudera, Inc. All rights reserved. 22 Identity Standardization • 同⼀一性の標準化 • これがないと、ユーザはひたすら OR 検索索をすることになる • 例例: 「Helpdesk」 OR 「Technical Support」 OR 「テクニカルサポート」 • シンプルなアプローチ: テキストベースのソリューション • 略略語の展開や、最も⼀一般的な⽤用語に変換する、など • この⽅方法は限界がある • あるとき、建築家( Architect ) から、「私にシステムアーキテクトの求⼈人を送る のをやめてくれ」と⾔言われた
  23. 23. © 2014 Cloudera, Inc. All rights reserved. 23 スキルエンドースメント • 「嶋内 翔」さんは「Hadoop」のス キルを持っていますか?という質問 に次々に答えていく • アンケート結果のように、「嶋内 翔」のスキルセットに対する「エン ドースメント」が表⽰示される
  24. 24. スキルエンドースメントによる分類 • tf-idfを使ってスキルの重み付け • クラスタリング • 「データマイニング」「機械学習」など、近い意味を持つスキルをクラスタリ © 2014 Cloudera, Inc. All rights reserved. 24 ングする • アノマリー検知 • 「カラオケ」などの特異異なスキルの抽出
  25. 25. マイケル・ストーンブレーカー先⽣生の講演 • 現在はTamrというスタートアップで活動中 • Tamrの製品「Tamr」の紹介セッション。開発の経緯などについて語 る • 基本的にはデータキュレーション(ETL)の話 • 既に話している内容なので知っている⼈人もいるかも © 2014 Cloudera, Inc. All rights reserved. 25
  26. 26. データサイロとデータモデルの現実 • データサイロは企業内に存在する。それもたくさん。なぜか? • あなたの前任者のせい • あなたのCEOがIT畑じゃないから • そのCOBOLプログラムのソースコードが失われているので移⾏行行できない • 政治的理理由 • データの統合はビジネスに必要 • クロスセリング • ソーシャルネットワーク分析 • データモデルの現実: グローバルデータモデルは存在しない © 2014 Cloudera, Inc. All rights reserved. 26
  27. 27. データキュレーションの三世代 • 第⼀一世代:DWHとETL • 90年年代半ば、⼩小売業が営業データをDWHにまとめようとした (ETLの誕⽣生) • 予算の2〜~3倍も費⽤用がかかるようになり、そして2〜~3倍も遅くなっていった • データ統合が頭痛の種 • 異異なる内容のフィールドを⼀一つにまとめなければいけない(通貨単位の変換など) • 名寄せの問題 • トップダウンでスキーマを統合しようとするため、⾃自動化できない。⼈人⼿手がかかるので⼤大 変 © 2014 Cloudera, Inc. All rights reserved. 27
  28. 28. 第⼆二世代データキュレーション • キュレーションツールをETLに追加 • 重複排除や外れ値検知 • しかしこれではスケールしない • エンタープライズにおいてはどんどんデータは増えていく • 社外のデータ • 研究データ(全部別のスキーマ) © 2014 Cloudera, Inc. All rights reserved. 28
  29. 29. Tamrの紹介: 第三世代データキュレーション • トップダウンでなく、ボトムアップでグローバルスキーマを作る • 最初の数個のデータソースは専⾨門家に⼈人⼒力力で作業してもらう • システムはその後機械学習や統計を使って学習していく © 2014 Cloudera, Inc. All rights reserved. 29
  30. 30. © 2014 Cloudera, Inc. All rights reserved. 30 Apache HBase Application Archetypes • HBase のアーキテクチャパターンの紹介 • HBaseCon で話した内容とほぼ同じだが、今回初めて聴いたので⾮非常 に⾯面⽩白かった • HBaseCon のスライド: http://www.slideshare.net/HBaseCon/case-studies-session-7
  31. 31. HBaseに格納するデータの種類 • 「エンティティ」か「イベント」のどちらか • エンティティ: 現在の状態についての情報 • 顧客情報、ユーザ情報、位置情報、クリック数などのメトリクスなど • リアルタイムの読み書きが発⽣生する • イベント: 連続的な時系列列のデータ • センサーデータ、メトリクスの履履歴、株のティッカーデータなど • 書き込みはリアルタイムだが、読み込みはリアルタイムとバッチ両⽅方が考えら © 2014 Cloudera, Inc. All rights reserved. 31 れる • エンティティと時間の範囲、どちらについて先にクエリしたいか? これによってどのようにデータを保存すればいいかが決まる
  32. 32. Short scan HBase Replication HBase Replication © 2014 Cloudera, Inc. All rights reserved. 32 How does data get in and out of HBase? Put, Incr, Append HBase Client Gets HBase Client Full Scan, MapReduce HBase Scanner Bulk Import HBase Client http://www.slideshare.net/HBaseCon/case-studies-session-7/15
  33. 33. HBaseアプリケーションユースケース • よいパターン • シンプル・エンティティ • メッセージング・ストア • グラフ・ストア • メトリクス・ストア • 悪いパターン • BLOB © 2014 Cloudera, Inc. All rights reserved. 33 • 3MB以上のデータをセルに保存するのはよくない • (現在、10MB程度度までなら保存できるような機能を開発中) • ナイーブRDBMSポート • 分析アーカイブ • どちらともいえないパターン • 時系列列DB • 複合的なワークロード
  34. 34. © 2014 Cloudera and/or its affiliates. All rights reserved. 34 まとめ
  35. 35. 今年年は何が変わったの? • いい意味で「普通」になりつつあるHadoop • 新進気鋭のソフトという扱いはもうされない。使って当たり前だし、Hadoop⾃自 © 2014 Cloudera, Inc. All rights reserved. 35 体の紹介もされないことが多い • 現実的な話が増えた • 「きれいな」事例例が減った印象 • 技術セッションは⽐比較的易易しい • 尖った話をしたいなら、チュートリアルに⾏行行くか、Meetupに参加するか、開発 者を直接捕まえること • 当然ながら⼗十分な英語⼒力力と技術⼒力力が要求されます
  36. 36. 私は⾏行行くべき?(あるいは誰か⾏行行かせるべき?) • 「Hadoopは使って当たり前」という空気を理理解してから⾏行行くこと • 「Hadoopとは」みたいなセッションはまずない • 使うのが当たり前なので、「Hadoop導⼊入したらうまくいきました」みたいな事例例紹介 もない • 逆に、この「当たり前」の空気を感じとってから、イベント後に調査活動するという のも⼿手 • 技術は、「⼊入⾨門」か「超難しい」のどちらか • 開発者とソースコードを元に設計レベルで議論論する機会がある • 既知の技術を学ぶなら本読むかClouderaのトレーニング受けましょう • 超ハイレベルな技術者達の議論論に触れてモチベーションを⾼高めるというのもあり • いずれにせよ、相当の英語⼒力力は必要です • ネイティブの英語を数⽇日聴き続けても⼤大丈夫な程度度。もちろん会話できるのがベスト © 2014 Cloudera, Inc. All rights reserved. 36
  37. 37. 来年年は Strata+Hadoop World に⾏行行こう!

×