ひとつのデータベース技術だけでは生き残れない

      - NoSQL - Hadoop 編 -


                             Insight Technology, Inc.
                                        新久保 浩二


                                                   1
1.   Insight Qubeなる新プロダクト開発中

           2.   おら オラ Oracle どっぷり検証生活

           2.   Oracle ACE

           3.   @kouji_s_0808

           4.   JPOUG(Japan Oracle User Group)




本日はOracle以外の話です。
本資料に使用されている社名、ロゴ、製品、サービス名およびブランドは、該当する各社の登
録商標または商標です。本資料の一部あるいは全体について、許可なく複製および転載するこ
とを禁じます。

                                                 2
•   企業は今後10年で50倍のデータ量                                                                            •   ビッグデータの95%は非構造化データ
•   一方、IT部門は1.5倍増にとどまる                                                                               が含まれる。
                                                                                                             http://enterprisezine.jp/article/detail/3394
•   2011年には1.8ゼタバイトのデータが作成、
    複製されると予想
    World's Data More Than Doubling Every Two Years—Driving Big Data Opportunity, New IT Roles   •   Googleは94テラバイト/月のデータ処
                                                                                                     理(2010/6時点)
                                                                                                              ACM Symposium on Cloud Computing (SOCC) 2010




                    大量データ                                         高効率                                多種類               高速



                                                                                                                                                3
OLTP


           Oracle / DB2 / SQL Server

                                                     大手RDBMSベンダーの
                                                     進出が著しいエリア

       PostgreSQL / MySQL

                             Teradata / Netezza / Sybase IQ
                            GreenPlum / Vertica / VectorWise


                                                      Hadoop (NoSQL)

                                                                           SIZE

                                                                       4
複数のディストリビューション


           本家(http://hadoop.apache.org/)


           Cloudera社(http://www.cloudera.com/)


           Yahoo!社
           (http://developer.yahoo.com/hadoop/)




                                                  5
複数のコンポーネント(ごくごく一部)
http://hadoop.apache.org/index.html




      HiveQL(SQLライクな言語)によるHDFS上のデータ操作        HDFS上で動作するKey-Value型データベース




                分散処理フレームワーク               Hadoopのprimary Storageとなる分散ファイルシステム




                      Hadoopサブプロジェクトをサポートするライブラリを含むユーティリティ




                                                                                6
• ビッグデータと呼ばれるデータの質を正確に認識する必要がある
  • 構造化 / 非構造化
  • 利用シーン

• ビッグデータへのアプローチは様々ある中で、最適なものを選択
  していく必要がある
  • RDBMS / New RDBMS / NoSQL (Hadoop)

• 新しい領域と新しい技術を組み合わせる場合、その技術を活用す
  るための情報量が少ない

• 実際にビッグデータに対するプロジェクトの担当者に話を聞くの
  が最も効果的



                                         7
8

[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop

  • 1.
    ひとつのデータベース技術だけでは生き残れない - NoSQL - Hadoop 編 - Insight Technology, Inc. 新久保 浩二 1
  • 2.
    1. Insight Qubeなる新プロダクト開発中 2. おら オラ Oracle どっぷり検証生活 2. Oracle ACE 3. @kouji_s_0808 4. JPOUG(Japan Oracle User Group) 本日はOracle以外の話です。 本資料に使用されている社名、ロゴ、製品、サービス名およびブランドは、該当する各社の登 録商標または商標です。本資料の一部あるいは全体について、許可なく複製および転載するこ とを禁じます。 2
  • 3.
    企業は今後10年で50倍のデータ量 • ビッグデータの95%は非構造化データ • 一方、IT部門は1.5倍増にとどまる が含まれる。 http://enterprisezine.jp/article/detail/3394 • 2011年には1.8ゼタバイトのデータが作成、 複製されると予想 World's Data More Than Doubling Every Two Years—Driving Big Data Opportunity, New IT Roles • Googleは94テラバイト/月のデータ処 理(2010/6時点) ACM Symposium on Cloud Computing (SOCC) 2010 大量データ 高効率 多種類 高速 3
  • 4.
    OLTP Oracle / DB2 / SQL Server 大手RDBMSベンダーの 進出が著しいエリア PostgreSQL / MySQL Teradata / Netezza / Sybase IQ GreenPlum / Vertica / VectorWise Hadoop (NoSQL) SIZE 4
  • 5.
    複数のディストリビューション 本家(http://hadoop.apache.org/) Cloudera社(http://www.cloudera.com/) Yahoo!社 (http://developer.yahoo.com/hadoop/) 5
  • 6.
    複数のコンポーネント(ごくごく一部) http://hadoop.apache.org/index.html HiveQL(SQLライクな言語)によるHDFS上のデータ操作 HDFS上で動作するKey-Value型データベース 分散処理フレームワーク Hadoopのprimary Storageとなる分散ファイルシステム Hadoopサブプロジェクトをサポートするライブラリを含むユーティリティ 6
  • 7.
    • ビッグデータと呼ばれるデータの質を正確に認識する必要がある • 構造化 / 非構造化 • 利用シーン • ビッグデータへのアプローチは様々ある中で、最適なものを選択 していく必要がある • RDBMS / New RDBMS / NoSQL (Hadoop) • 新しい領域と新しい技術を組み合わせる場合、その技術を活用す るための情報量が少ない • 実際にビッグデータに対するプロジェクトの担当者に話を聞くの が最も効果的 7
  • 8.