2010年9月16日
 2010年9月16日
 第5回 Hadoopソースコードリーディング
 第5回 Hadoopソースコードリーディング




NTTデータにおけるHadoopへの取り組み
  & Hadoop Summit 2010 レポート

                    株式会社NTTデータ
                  基盤システム事業本部
                    濱野 賢一朗
                     山下 真一
                      Copyright ©2010 NTT DATA Corporation
自己紹介
濱野 賢一朗 (はまの けんいちろう)
 株式会社NTTデータ 基盤システム事業本部 システム方式技術ビジネスユニット
 Linux/OSSを利用したシステム構築・運用をサポートする業務を担当
 最近は、大規模分散処理基盤 Hadoop 屋さん

 日本OSS推進フォーラム クラウド部会 部会長
 情報処理推進機構(IPA) オープンソフトウェアセンタ 技術WG/人材育成WG
 情報処理推進機構(IPA) 日本OSS貢献者賞 実行委員長
 経済産業省 情報処理技術者試験 試験委員
 日本Apacheユーザ会、日本Sambaユーザー会、日本LDAPユーザ会などの
 OSSコミュニティの立ち上げや運営にも関わっている

 著書に 『オープンソースソフトウェアの本当の使い方』 (技術評論社)、
 『Linux教科書 LPIC レベル1・2・3』 (翔泳社) などがある。



               Copyright ©2010 NTT DATA Corporation   1
NTTデータにおける
Hadoopへの取り組み


    Copyright ©2010 NTT DATA Corporation   2
SI事業者としてのHadoopの位置づけ

今まで扱うことが難しかった領域を切り拓く
 ペタバイトクラスのデータ、大規模分散処理 など
 プロセス指向だけでなく、データ指向に基づいたシステムの浸透
 スケールアウト技術が身近なものに
 コモディティ品(IAサーバ+OSS)により大量サーバの利用が容易化
 新しい処理モデルやデータモデルの浸透


アプローチ
 新しいビジネス領域を切り拓くビジネスをお客様と一緒に生み出す
   今まで捨てざるを得なかったデータの活用やあきらめていた処理の実現
 活用例
   POSデータなどの解析による顧客動向の分析システム
   ログ解析による広告最適化を支援するシステム
   大規模Webサイトのログ解析システム
   レコメンデーションを支えるシステム など

               Copyright ©2010 NTT DATA Corporation   3
OSS構築実績 (規模・処理量マップ)
 処理量
(万件/時)



60                                                                                       今後の           先見派
                                                                      ●                 ターゲット
                                                                                         領域
40
                 ●
                                     PostgreSQL                               ●
                             ●                                                                          構築・運用中
                                                             ●

20                                                                                      ●
                                     ●
                                                                                                     Hadoop
                                                                                                 実
                                             ●
10                                                                                               証
                                                   ●
                 ●                       ●
                                                                                                 環
                                                                          ●
                                 ●                                                               境
 5                                   ●                 ●              ●
         ●              ●
             ●                       ●

     10万件            100万件           300万件       500万件           1000万件           1億件     10億件
                                                                                        DB規模


                                                 Copyright ©2010 NTT DATA Corporation                         4
BizXaaS® Hadoop構築・運用ソリューション
BizXaaS® クラウド構築サービスのひとつとして 『Hadoop構築・運用ソリューション』 を発表
  2010年7月1日にプレスリリース
  BizXaaS® はNTTデータのクラウドサービスのブランド名称




                     Copyright ©2010 NTT DATA Corporation   5
BizXaaS® Hadoop構築・運用ソリューション
これまでに培った技術力やノウハウをもとに提供
 NTTデータはこれまでに数十台~千台のサーバによるHadoopシステムを構築・
 運用してきた実績を有している
 お客様の新しいビジネス機会を生み出すシステムの実現のためのコンサルティング、
 システム構築、運用設計、導入後のサポートまで幅広く対応
 Hadoop特有の考え方やノウハウについて知識・経験を持つメンバーが対応


                                        業務システムや社会基盤システムと
                                        して活用できるノウハウが盛り込まれ
                                        ている
                                               信頼性を向上させるための仕組み
                                               多数のサーバを管理する際に顕在化
                                               しやすい運用コストの増大を抑える仕
                                               組み など




             Copyright ©2010 NTT DATA Corporation                  6
Hadoop World NYC 2010
Hadoop World: NYC 2010
  日程: 2010年10月12日
  会場: Hilton New York
  主催: Cloudera社
  Hadoopの活用事例が中心
     Keynoteは Tim O’Relly 氏
     Bank of America、GE、AOL
     Yahoo!、eBay、Twitter、facebook など


参加される方!
  数名であれば、ディスカウントコードが
  あります。




                              Copyright ©2010 NTT DATA Corporation   7
Hadoop Summit 2010
      レポート


      Copyright ©2010 NTT DATA Corporation   8
Hadoop Summit 2010 概要
[日時] 2010年6月29日 (火) 9:00 – 18:00

[場所] Hyatt Regency Santa Clara, Santa Clara, CA, USA

[主催] Yahoo! (米国)

[参加者] 1000人程度
 米国内の企業からの参加者が
 大半を占める




                       Copyright ©2010 NTT DATA Corporation   9
午前: Keynoteセッション


  Time                                              Agenda
          Big Data and the Power of Hadoop
          Blake Irving, Executive Vice President and Chief Products Officer,   Yahoo!
09:00-    Hadoop and The Future of Internet Scale Cloud Computing
10:15     Shelton Shugar, Senior Vice President, Cloud Computing, Yahoo!

          Scaling Hadoop
          Eric Baldeschwieler, Vice President, Hadoop Software Development,     Yahoo!
10:30-    Making Hadoop Enterprise Ready with Amazon Elastic MapReduce
11:00     Peter Sirota, General Manager, Elastic Map Reduce , Amazon

11:00-    Hadoop Grows Up
11:30     Doug Cutting, Cloudera

11:30-    Inside Large-Scale Analytics at Facebook
12:00     Mike Schroepfer, VP of Engineering, Facebook

                               Copyright ©2010 NTT DATA Corporation                      10
Keynoteセッション (Yahoo!)

■ Big Data and The Power of Hadoop
   “Mass Technology , Mass Scale , CloudComputing”
   Hadoopは、大規模なデータを利用する場面で真価を発揮する。

■ Hadoop and The Future of Internet Scale Cloud Computing
   “Science + Big Data + Insight = 個人の傾向 = 大きな価値”
   “Yahoo!は、オープンソースとして今後もHadoopに貢献する”

   Yahoo! (米) でのHadoop利用状況
      120TB/day の入力データ
      70PB のHadoop用蓄積データ
      合計 38K nodes & 170 PB のHadoopクラスタ
      100万/month のジョブをHadoopで実行



                            Copyright ©2010 NTT DATA Corporation   11
Hadoop and The Future of Internet Scale Cloud Computing




                Copyright ©2010 NTT DATA Corporation      12
Hadoop and The Future of Internet Scale Cloud Computing




                Copyright ©2010 NTT DATA Corporation      13
Hadoop and The Future of Internet Scale Cloud Computing




                Copyright ©2010 NTT DATA Corporation      14
Keynoteセッション (Yahoo!)

■ Scaling Hadoop
  Yahoo! でのHadoop利用事例
  ・ 個人の嗜好に対する分析処理
   - 5億クリック/日のデータを使用して個人の嗜好を分析
   - 分析処理は、5分間隔で実行
   - 分析データは、Yahoo!ページのニュースやレコメンド情報で使用
   - 分析情報利用前に比べて、個人の嗜好に沿ったアクセスが増加

 ・ スパムメールフィルタリング
  - Hadoopにより数時間間隔で、フィルタルールを更新
  - スパムメール受信率: Hotmailより40%減少、Gmailより55%減少

 Yahoo! のHadoopへの貢献
 ・ Hadoopのセキュリティ対策 (Kerberosの組み込み)
 ・ OOZIE : Hadoop用ワークフローエンジンの開発
                   Copyright ©2010 NTT DATA Corporation   15
Scaling Hadoop




                 Copyright ©2010 NTT DATA Corporation   16
Scaling Hadoop




                 Copyright ©2010 NTT DATA Corporation   17
Scaling Hadoop




                 Copyright ©2010 NTT DATA Corporation   18
Keynoteセッション (協賛企業)


■ Making Hadoop Enterprise Ready with Amazon Elastic MapReduce
    Amazon Elastic MapReduceを Enterprise向けに対応

  ・ 新しいバージョンのHadoopも利用可能
     これまで: Hadoop 0.18.3 / Hive 0.4 / Pig 0.5
     これから: Hadoop 0.20 / Hive 0.5 / Pig 0.6
  ・ Bootstrap actions
     Hadoopクラスタに対する柔軟な設定/実行/インストールが可能
  ・ Hadoop用ツールやBIソフトウェアとの連携強化
     MicroStrategy (BI), Karmasphere, Datameer (Hadoop用ツール)
  ・ SPOT INSTANCE
     Elastic MapReduce実行時に動的に処理ノードを追加/削除 可能
     → 従来に比べて、約20%のコスト削減を実現


                           Copyright ©2010 NTT DATA Corporation   19
Keynoteセッション (協賛企業)

■ Hadoop Grow up
   Hadoopビジネスを展開しているCloudera社の発表
   ・ CDH (Cloudera’s Distribution for Hadoop)の最新バージョンの紹介
   ・ Enterprise向けにHadoopビジネスの展開

■ Inside Large-Scale Analytics at Faceboook
    Hadoopコミュニティにも貢献が大きいFacebookの発表
    FacebookでのHadoop利用
    ・ 2250nodes (総23000 cores, 32GB RAM/node), 36PBのHadoopクラスタ
    ・ 80-90TB/日 でHadoopにデータを格納, 25000ジョブ/日, 825TB/日のI/O
     - ジョブの95%は、Hiveを使用 (HiPal と呼ばれるHiveQL作成用ツールも使用)
     - Facebook社の300 – 400人がHiveにて処理
    ・ Scribe : Hadoopクラスタにデータを格納するためのツール
    ・ Backend Hadoopクラスタ (データ格納)
    ・ Platinum Hadoopクラスタ (処理用)
    ・ Oracle RAC/MySQL用のデータをPlatinum クラスタで生成

                        Copyright ©2010 NTT DATA Corporation     20
Hadoop Grows Up




              Copyright ©2010 NTT DATA Corporation   21
Hadoop Grows Up




              Copyright ©2010 NTT DATA Corporation   22
Inside Large-Scale Analytics at Facebook




                Copyright ©2010 NTT DATA Corporation   23
Inside Large-Scale Analytics at Facebook




                Copyright ©2010 NTT DATA Corporation   24
午後のセッション

Developers Track
 Hadoopでの開発事例を紹介

Applications Track
 Hadoop上で動作させるアプリケーション事例を紹介

Research Track
 Hadoopを利用した研究事例の紹介




             Copyright ©2010 NTT DATA Corporation   25
午後のセッション (抜粋)

■ Hadoop Security in Detail
  Hadoopへのセキュリティ対策についての説明
  - KerberosによるHadoopクラスタへのアクセス
  - HTTP通信のセキュア化
  - Hadoopクラスタでのowner, groupでのパーミッション (HDFS)
  - MapReduceに関するuser, groupでのACL設定の適用
  - APIの改良
  正式版を8月にリリース予定。

■ Workflow on Hadoop Using Oozie
  WorkflowエンジンOozie(ウジー)の紹介
  - MapReduce, Pig, HDFS操作をworkflow形式で定義
  - Tomcat + DB (Oracle, MySQL)を使用して実行
  - まだまだ開発中: マスタサーバへの高負荷, SPOF, ユーザライクな機能


                     Copyright ©2010 NTT DATA Corporation   26
午後のセッション (抜粋)

■ Hadoop at Twitter
  TwitterでのHadoop利用事例, 以下のシーンでHadoop・ツールを利用
  ・ Data Input
   - Scribe : 7TB/日のログデータをHDFSに格納
   - Crane : MySQL-Hadoopクラスタ間でのデータ操作に関する支援ツール

 ・ Data Storage : LZO形式によるデータ圧縮
  - Elephant bird : Protocol Buffer
  - HBase : 更新しつづけるデータを処理するために利用

 ・ Data Analysis
  - Pig : HBase, Elephant birdと連携させて処理




                       Copyright ©2010 NTT DATA Corporation   27
午後のセッション (抜粋)
Hadoopを組み込んだ製品の紹介に関するセッション
 IBM
 Karmasphere
 ZettaVox




               Copyright ©2010 NTT DATA Corporation   28
午後のセッション (抜粋)

■ Astronomical Image Processing with Hadoop / 天体画像へのHadoopの適用
  SDSS (Slone Digital Sky Servey)
  LSST(Large Synoptic Suver Telescope)

  天体画像(FITS)をファイルフォーマット形式で処理、複数の天体画像を組み
  合わせて最終的な天体画像を生成
  → 複数の画像を組み合わせる部分をHadoopにて処理
  → 単純なFITSファイルをInputとして与えた処理では、処理時間が掛かる
   → FITSファイルをSequenceFileに変換して使用することで、処理時間改善
     SequenceFileは、単純にFITSを変換したもの,構造化したもので測定
      (100000ファイル 42分→8分(単純)→4分(構造化)に短縮)




                        Copyright ©2010 NTT DATA Corporation    29
記載されている会社名、商品名、又はサービス名は、各社の登録商標又は商標です。
Copyright ©2010 NTT DATA Corporation      30

NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート

  • 1.
    2010年9月16日 2010年9月16日 第5回Hadoopソースコードリーディング 第5回 Hadoopソースコードリーディング NTTデータにおけるHadoopへの取り組み & Hadoop Summit 2010 レポート 株式会社NTTデータ 基盤システム事業本部 濱野 賢一朗 山下 真一 Copyright ©2010 NTT DATA Corporation
  • 2.
    自己紹介 濱野 賢一朗 (はまのけんいちろう) 株式会社NTTデータ 基盤システム事業本部 システム方式技術ビジネスユニット Linux/OSSを利用したシステム構築・運用をサポートする業務を担当 最近は、大規模分散処理基盤 Hadoop 屋さん 日本OSS推進フォーラム クラウド部会 部会長 情報処理推進機構(IPA) オープンソフトウェアセンタ 技術WG/人材育成WG 情報処理推進機構(IPA) 日本OSS貢献者賞 実行委員長 経済産業省 情報処理技術者試験 試験委員 日本Apacheユーザ会、日本Sambaユーザー会、日本LDAPユーザ会などの OSSコミュニティの立ち上げや運営にも関わっている 著書に 『オープンソースソフトウェアの本当の使い方』 (技術評論社)、 『Linux教科書 LPIC レベル1・2・3』 (翔泳社) などがある。 Copyright ©2010 NTT DATA Corporation 1
  • 3.
    NTTデータにおける Hadoopへの取り組み Copyright ©2010 NTT DATA Corporation 2
  • 4.
    SI事業者としてのHadoopの位置づけ 今まで扱うことが難しかった領域を切り拓く ペタバイトクラスのデータ、大規模分散処理 など プロセス指向だけでなく、データ指向に基づいたシステムの浸透 スケールアウト技術が身近なものに コモディティ品(IAサーバ+OSS)により大量サーバの利用が容易化 新しい処理モデルやデータモデルの浸透 アプローチ 新しいビジネス領域を切り拓くビジネスをお客様と一緒に生み出す 今まで捨てざるを得なかったデータの活用やあきらめていた処理の実現 活用例 POSデータなどの解析による顧客動向の分析システム ログ解析による広告最適化を支援するシステム 大規模Webサイトのログ解析システム レコメンデーションを支えるシステム など Copyright ©2010 NTT DATA Corporation 3
  • 5.
    OSS構築実績 (規模・処理量マップ) 処理量 (万件/時) 60 今後の 先見派 ● ターゲット 領域 40 ● PostgreSQL ● ● 構築・運用中 ● 20 ● ● Hadoop 実 ● 10 証 ● ● ● 環 ● ● 境 5 ● ● ● ● ● ● ● 10万件 100万件 300万件 500万件 1000万件 1億件 10億件 DB規模 Copyright ©2010 NTT DATA Corporation 4
  • 6.
    BizXaaS® Hadoop構築・運用ソリューション BizXaaS® クラウド構築サービスのひとつとして『Hadoop構築・運用ソリューション』 を発表 2010年7月1日にプレスリリース BizXaaS® はNTTデータのクラウドサービスのブランド名称 Copyright ©2010 NTT DATA Corporation 5
  • 7.
    BizXaaS® Hadoop構築・運用ソリューション これまでに培った技術力やノウハウをもとに提供 NTTデータはこれまでに数十台~千台のサーバによるHadoopシステムを構築・ 運用してきた実績を有している お客様の新しいビジネス機会を生み出すシステムの実現のためのコンサルティング、 システム構築、運用設計、導入後のサポートまで幅広く対応 Hadoop特有の考え方やノウハウについて知識・経験を持つメンバーが対応 業務システムや社会基盤システムと して活用できるノウハウが盛り込まれ ている 信頼性を向上させるための仕組み 多数のサーバを管理する際に顕在化 しやすい運用コストの増大を抑える仕 組み など Copyright ©2010 NTT DATA Corporation 6
  • 8.
    Hadoop World NYC2010 Hadoop World: NYC 2010 日程: 2010年10月12日 会場: Hilton New York 主催: Cloudera社 Hadoopの活用事例が中心 Keynoteは Tim O’Relly 氏 Bank of America、GE、AOL Yahoo!、eBay、Twitter、facebook など 参加される方! 数名であれば、ディスカウントコードが あります。 Copyright ©2010 NTT DATA Corporation 7
  • 9.
    Hadoop Summit 2010 レポート Copyright ©2010 NTT DATA Corporation 8
  • 10.
    Hadoop Summit 2010概要 [日時] 2010年6月29日 (火) 9:00 – 18:00 [場所] Hyatt Regency Santa Clara, Santa Clara, CA, USA [主催] Yahoo! (米国) [参加者] 1000人程度 米国内の企業からの参加者が 大半を占める Copyright ©2010 NTT DATA Corporation 9
  • 11.
    午前: Keynoteセッション Time Agenda Big Data and the Power of Hadoop Blake Irving, Executive Vice President and Chief Products Officer, Yahoo! 09:00- Hadoop and The Future of Internet Scale Cloud Computing 10:15 Shelton Shugar, Senior Vice President, Cloud Computing, Yahoo! Scaling Hadoop Eric Baldeschwieler, Vice President, Hadoop Software Development, Yahoo! 10:30- Making Hadoop Enterprise Ready with Amazon Elastic MapReduce 11:00 Peter Sirota, General Manager, Elastic Map Reduce , Amazon 11:00- Hadoop Grows Up 11:30 Doug Cutting, Cloudera 11:30- Inside Large-Scale Analytics at Facebook 12:00 Mike Schroepfer, VP of Engineering, Facebook Copyright ©2010 NTT DATA Corporation 10
  • 12.
    Keynoteセッション (Yahoo!) ■ BigData and The Power of Hadoop “Mass Technology , Mass Scale , CloudComputing” Hadoopは、大規模なデータを利用する場面で真価を発揮する。 ■ Hadoop and The Future of Internet Scale Cloud Computing “Science + Big Data + Insight = 個人の傾向 = 大きな価値” “Yahoo!は、オープンソースとして今後もHadoopに貢献する” Yahoo! (米) でのHadoop利用状況 120TB/day の入力データ 70PB のHadoop用蓄積データ 合計 38K nodes & 170 PB のHadoopクラスタ 100万/month のジョブをHadoopで実行 Copyright ©2010 NTT DATA Corporation 11
  • 13.
    Hadoop and TheFuture of Internet Scale Cloud Computing Copyright ©2010 NTT DATA Corporation 12
  • 14.
    Hadoop and TheFuture of Internet Scale Cloud Computing Copyright ©2010 NTT DATA Corporation 13
  • 15.
    Hadoop and TheFuture of Internet Scale Cloud Computing Copyright ©2010 NTT DATA Corporation 14
  • 16.
    Keynoteセッション (Yahoo!) ■ ScalingHadoop Yahoo! でのHadoop利用事例 ・ 個人の嗜好に対する分析処理 - 5億クリック/日のデータを使用して個人の嗜好を分析 - 分析処理は、5分間隔で実行 - 分析データは、Yahoo!ページのニュースやレコメンド情報で使用 - 分析情報利用前に比べて、個人の嗜好に沿ったアクセスが増加 ・ スパムメールフィルタリング - Hadoopにより数時間間隔で、フィルタルールを更新 - スパムメール受信率: Hotmailより40%減少、Gmailより55%減少 Yahoo! のHadoopへの貢献 ・ Hadoopのセキュリティ対策 (Kerberosの組み込み) ・ OOZIE : Hadoop用ワークフローエンジンの開発 Copyright ©2010 NTT DATA Corporation 15
  • 17.
    Scaling Hadoop Copyright ©2010 NTT DATA Corporation 16
  • 18.
    Scaling Hadoop Copyright ©2010 NTT DATA Corporation 17
  • 19.
    Scaling Hadoop Copyright ©2010 NTT DATA Corporation 18
  • 20.
    Keynoteセッション (協賛企業) ■ MakingHadoop Enterprise Ready with Amazon Elastic MapReduce Amazon Elastic MapReduceを Enterprise向けに対応 ・ 新しいバージョンのHadoopも利用可能 これまで: Hadoop 0.18.3 / Hive 0.4 / Pig 0.5 これから: Hadoop 0.20 / Hive 0.5 / Pig 0.6 ・ Bootstrap actions Hadoopクラスタに対する柔軟な設定/実行/インストールが可能 ・ Hadoop用ツールやBIソフトウェアとの連携強化 MicroStrategy (BI), Karmasphere, Datameer (Hadoop用ツール) ・ SPOT INSTANCE Elastic MapReduce実行時に動的に処理ノードを追加/削除 可能 → 従来に比べて、約20%のコスト削減を実現 Copyright ©2010 NTT DATA Corporation 19
  • 21.
    Keynoteセッション (協賛企業) ■ HadoopGrow up Hadoopビジネスを展開しているCloudera社の発表 ・ CDH (Cloudera’s Distribution for Hadoop)の最新バージョンの紹介 ・ Enterprise向けにHadoopビジネスの展開 ■ Inside Large-Scale Analytics at Faceboook Hadoopコミュニティにも貢献が大きいFacebookの発表 FacebookでのHadoop利用 ・ 2250nodes (総23000 cores, 32GB RAM/node), 36PBのHadoopクラスタ ・ 80-90TB/日 でHadoopにデータを格納, 25000ジョブ/日, 825TB/日のI/O - ジョブの95%は、Hiveを使用 (HiPal と呼ばれるHiveQL作成用ツールも使用) - Facebook社の300 – 400人がHiveにて処理 ・ Scribe : Hadoopクラスタにデータを格納するためのツール ・ Backend Hadoopクラスタ (データ格納) ・ Platinum Hadoopクラスタ (処理用) ・ Oracle RAC/MySQL用のデータをPlatinum クラスタで生成 Copyright ©2010 NTT DATA Corporation 20
  • 22.
    Hadoop Grows Up Copyright ©2010 NTT DATA Corporation 21
  • 23.
    Hadoop Grows Up Copyright ©2010 NTT DATA Corporation 22
  • 24.
    Inside Large-Scale Analyticsat Facebook Copyright ©2010 NTT DATA Corporation 23
  • 25.
    Inside Large-Scale Analyticsat Facebook Copyright ©2010 NTT DATA Corporation 24
  • 26.
    午後のセッション Developers Track Hadoopでの開発事例を紹介 ApplicationsTrack Hadoop上で動作させるアプリケーション事例を紹介 Research Track Hadoopを利用した研究事例の紹介 Copyright ©2010 NTT DATA Corporation 25
  • 27.
    午後のセッション (抜粋) ■ HadoopSecurity in Detail Hadoopへのセキュリティ対策についての説明 - KerberosによるHadoopクラスタへのアクセス - HTTP通信のセキュア化 - Hadoopクラスタでのowner, groupでのパーミッション (HDFS) - MapReduceに関するuser, groupでのACL設定の適用 - APIの改良 正式版を8月にリリース予定。 ■ Workflow on Hadoop Using Oozie WorkflowエンジンOozie(ウジー)の紹介 - MapReduce, Pig, HDFS操作をworkflow形式で定義 - Tomcat + DB (Oracle, MySQL)を使用して実行 - まだまだ開発中: マスタサーバへの高負荷, SPOF, ユーザライクな機能 Copyright ©2010 NTT DATA Corporation 26
  • 28.
    午後のセッション (抜粋) ■ Hadoopat Twitter TwitterでのHadoop利用事例, 以下のシーンでHadoop・ツールを利用 ・ Data Input - Scribe : 7TB/日のログデータをHDFSに格納 - Crane : MySQL-Hadoopクラスタ間でのデータ操作に関する支援ツール ・ Data Storage : LZO形式によるデータ圧縮 - Elephant bird : Protocol Buffer - HBase : 更新しつづけるデータを処理するために利用 ・ Data Analysis - Pig : HBase, Elephant birdと連携させて処理 Copyright ©2010 NTT DATA Corporation 27
  • 29.
  • 30.
    午後のセッション (抜粋) ■ AstronomicalImage Processing with Hadoop / 天体画像へのHadoopの適用 SDSS (Slone Digital Sky Servey) LSST(Large Synoptic Suver Telescope) 天体画像(FITS)をファイルフォーマット形式で処理、複数の天体画像を組み 合わせて最終的な天体画像を生成 → 複数の画像を組み合わせる部分をHadoopにて処理 → 単純なFITSファイルをInputとして与えた処理では、処理時間が掛かる → FITSファイルをSequenceFileに変換して使用することで、処理時間改善 SequenceFileは、単純にFITSを変換したもの,構造化したもので測定 (100000ファイル 42分→8分(単純)→4分(構造化)に短縮) Copyright ©2010 NTT DATA Corporation 29
  • 31.