SlideShare a Scribd company logo
1 of 20
Download to read offline
Vectorwise
on Real Enterprise Environment

   - Comfortable Agile Analytics -
                               Insight Technology, Inc.
                                          新久保 浩二


                                                     1
1.   Insight Qube & Vectorwise

           2.   おら オラ Oracle どっぷり検証生活

           2.   Oracle ACE

           3.   @kouji_s_0808

           4.   JPOUG(Japan Oracle User Group)




本日はOracle以外の話です。
本資料に使用されている社名、ロゴ、製品、サービス名およびブランド名は、該当する各社の
登録商標または商標です。本資料の一部あるいは全体について、許可なく複製および転載する
ことを禁じます。

                                                 2
1. Vectorwise(Column oriented Database)の概要

2. Agile Analytics による “心地よさ” 体験




                                             3
History
‘70s          RDBMS黎明期から開発は行われている
’76           カナダ統計局の RAPID (カナダの国勢調査および統計的処理システム)
              * 80年代には世界中でRAPIDが共有され、90年代まで使用された(wikipedia)
’00           長年、Sybase IQが商用のColumnar Databaseとして存在
NOW           近年、大量データにおける分析需要の高まりから様々な製品およびプロジェクトが誕生
              また、商用大手ベンダーも列指向と行指向のハイブリッド化を進めている

Commercial
Sybase IQ
Aster Data
Vertica
Greenplum
VectorWise

Free or Open
InfiniDB CE
MonetDB
C-Store
                                 x100
LucidDB


                                                              4
• 列指向とは?
   • メリットは?
       (シーケンシャルな)アクセス効率 + データ圧縮 = 分析基盤に向いている

    Prod ID   Prod Name   Date         Prod ID   Prod Name   Date
    Prod ID   Prod Name   Date         Prod ID   Prod Name   Date
    Prod ID   Prod Name   Date         Prod ID   Prod Name   Date
    Prod ID   Prod Name   Date         Prod ID   Prod Name   Date
    Prod ID   Prod Name   Date         Prod ID   Prod Name   Date

1ブロックには様々な                1ブロックには同様の
タイプのデータが格納                タイプのデータが格納
されているので圧縮効                されているので圧縮効
率を上げにくい                   率を上げやすい



                                                                    5
• デメリットは?
       一般的に
       (ランダムな)アクセスが非効率 + データ圧縮 = OLTP基盤に向いていない

    Prod ID   Prod Name    Date         Prod ID   Prod Name   Date
    Prod ID   Prod Name    Date         Prod ID   Prod Name   Date
    Prod ID   Prod Name    Date         Prod ID   Prod Name   Date
    Prod ID   Prod Name    Date         Prod ID   Prod Name   Date
    Prod ID   Prod Name    Date         Prod ID   Prod Name   Date

                          更新時に圧縮・展開
                          のオーバーヘッドが
                          大きい(*1)



(*1) 圧縮のデメリットはカラムナーデータベースに限った話ではありません                                6
TPC-Hベンチマーク
  (www.tpc.org)に
おけるNon-Cluster
分野において、最速
  のデータベース




              7
- CPU
        SIMD (Vector Processing)
        Utilizing CPU Cache as execution memory
        Parallel Execution (Optimizing CPU many cores)


- IO (Optimizing large data scan)
        Column-based Storage
        Data Compression
        Storage Index




                                                         8
SIMD (Single Instruction Multiple Data)

Pentium ⅢよりSSE(Streaming SIMD Extensions)として搭載され、Sandy BridgeよりIntel AVX(Advanced Vector eXtensions)へ




                                             Instruction

                                             Data



                                                                    ・・・
                                                                    ・・・
                                                                    ・・・
                                                                    ・・・
                     ・・・




                                             Output



                                                                                                9
12000        11166.392
                                                                                Query22
                                                                                Query21
                                                                                Query20
        10000
                                          13                   136              Query19
                                                                                Query18
                                          倍                     倍               Query17
                                                                                Query16
         8000                             高                     高               Query15

                                          速                     速               Query14
                                                                                Query13
                                                                                Query12
         6000
                                                                                Query11
                                                                                Query10
                                                                                Query09
                                                                                Query08
         4000
                                                                                Query07
                                                                                Query06
                                                                                Query05
                                                                                Query04
         2000
                                    853.186                                     Query03
                                                                                Query02
                                                                                Query01
                                                                    82.085
                                                                                ElapsedTime
           0
                 RDBMS X on HDD   VectorWise2.0 on HDD   VectorWise2.0 on SSD
good




(*) DBT3のデータを使ったTPC-H相当のベンチマーク (弊社調べ)                                                         10
(*) 2012/09/14 – 2012/10/09 までのTwitterデータから(弊社調べ)   11
ひらめき             Legacy Analytics
                             分析は結果として何がアウトプットされるか
                             プロジェクト初期段階で見えづらい

                             最初の”ひらめき”の結果が出るまでに、時間と
  結果                    検討
                             お金がかかり、最初の“ひらめき”の信頼度の
数千万~数百億件 程度のデータの分析、          責任が重い

集計なら、サクッとこなしましょうよ。
                             Agile Analytics
という単純な話
                             “ひらめき”から超高速に結果に結び付け、
                             ”何度も”分析、検証のプロセスを実行し、
       検証          分析        精度の高いアウトプットをプロジェクト
                             初期段階から得る



                                                12
- Twitterのデータが約8,000万件 (2012/09/15 ~ 2012/10/11)
- Mecabによる形態素解析データが約6,000万件 (日本語圏のTweetのみ対象)
- 奈良先端大学の日本語評価極性辞書が1.1万件
 (http://cl.naist.jp/~inui/research/EM/sentiment-lexicon.html)
- Juman辞書内のドメイン情報が1.3万件



    関連する言葉ランキングや、マクロな気持ち(Positive/Negative)
    を分析する人工無脳
    * 出力されるアウトプットには全く責任を負えませんので悪しからず…


                                                                 13
各デモアプリケーション内での典型的なSQL文のイメージ

SELECT …
FROM    Twitter本文 本文
        ,Twitter言葉 言葉                            SQL的には結構、重い
        ,(各種辞書データ 辞書)                            SQLになっています。
WHERE   本文.ID = 言葉.ID                            - キーワードマッチに
(AND    言葉.言葉 = 辞書.言葉 AND 言葉.品詞 = 辞書.品詞)           よるCPU負荷
AND     upper(本文.140文字のTEXT) like ‘%大文字キーワード%’   - 大量データによる
AND     本文.Tweetされた時刻 between 開始 and 終了            I/O負荷
GROUP BY date_format(Tweetされた時刻,’日付フォーマット’)
         ,…;




                                                         14
Vectorwise 2.5.1       DBMS X                DBMS X


  Redhat Enterprise      Redhat Enterprise    Redhat Enterprise
  Linux 6.2 64bit        Linux 5.7 64bit      Linux 5.7 64bit



  Intel Xeon E5-2690     Intel Xeon E5645     Intel Xeon E5645
  2.90GHz * 2            2.40GHz * 4          2.40GHz * 4




  256 GB                 256 GB               256 GB




  SATA SSD * 14          SATA 1K rpm HDD *    SATA SSD * 18
  (RAID10)               18 (RAID10)          (RAID10)




                                                           15
16
DBMS-X on SSD



Vectorwise on SSD

                        168.4秒 → 6.7秒




                                        17
まず、データからイメージしてもらいたいこと

           製造業、金融業 (コールセンター)
           製造業大手では、お客様からの問い合わせ情報が5年で2,000万件弱

           製薬
           製薬業界データで年間1,000 ~ 1,500万件、MR関連データで500万件
           マーケティングデータで数千万件

           流通(POS)
           売上規模によるが、明細レベルで、年間、数十億 ~ 数百億件




(*) WEB上の各種記事より (弊社調べ)                          18
Time is money


           ひらめき is priceless




(*) 弊社調べ                       19
Any Questions ?



                  20

More Related Content

Similar to A12 Vectorwise on real enterprise environment by 新久保浩二

[db tech showcase Tokyo 2018] #dbts2018 #C13 『IoT からクラウドで活用される Hybrid Data を高...
[db tech showcase Tokyo 2018] #dbts2018 #C13 『IoT からクラウドで活用される Hybrid Data を高...[db tech showcase Tokyo 2018] #dbts2018 #C13 『IoT からクラウドで活用される Hybrid Data を高...
[db tech showcase Tokyo 2018] #dbts2018 #C13 『IoT からクラウドで活用される Hybrid Data を高...Insight Technology, Inc.
 
How Rakuten Reduced Database Management Spending by 90%
How Rakuten Reduced Database Management Spending by 90%How Rakuten Reduced Database Management Spending by 90%
How Rakuten Reduced Database Management Spending by 90%Rakuten Group, Inc.
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアルAmelieff
 
AZAREA-Cluster (Hadoop Conference Japan 2013 Winter)
AZAREA-Cluster (Hadoop Conference Japan 2013 Winter)AZAREA-Cluster (Hadoop Conference Japan 2013 Winter)
AZAREA-Cluster (Hadoop Conference Japan 2013 Winter)AzareaCluster
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Yoshiki Kouno
 

Similar to A12 Vectorwise on real enterprise environment by 新久保浩二 (7)

[db tech showcase Tokyo 2018] #dbts2018 #C13 『IoT からクラウドで活用される Hybrid Data を高...
[db tech showcase Tokyo 2018] #dbts2018 #C13 『IoT からクラウドで活用される Hybrid Data を高...[db tech showcase Tokyo 2018] #dbts2018 #C13 『IoT からクラウドで活用される Hybrid Data を高...
[db tech showcase Tokyo 2018] #dbts2018 #C13 『IoT からクラウドで活用される Hybrid Data を高...
 
How Rakuten Reduced Database Management Spending by 90%
How Rakuten Reduced Database Management Spending by 90%How Rakuten Reduced Database Management Spending by 90%
How Rakuten Reduced Database Management Spending by 90%
 
Japan r.3
Japan r.3Japan r.3
Japan r.3
 
次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル次世代シーケンス解析サーバーReseq解析マニュアル
次世代シーケンス解析サーバーReseq解析マニュアル
 
AZAREA-Cluster (Hadoop Conference Japan 2013 Winter)
AZAREA-Cluster (Hadoop Conference Japan 2013 Winter)AZAREA-Cluster (Hadoop Conference Japan 2013 Winter)
AZAREA-Cluster (Hadoop Conference Japan 2013 Winter)
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
 
Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話Redshift Spectrumを使ってみた話
Redshift Spectrumを使ってみた話
 

More from Insight Technology, Inc.

グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?Insight Technology, Inc.
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Insight Technology, Inc.
 
事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明するInsight Technology, Inc.
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーンInsight Technology, Inc.
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとInsight Technology, Inc.
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?Insight Technology, Inc.
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームInsight Technology, Inc.
 
SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門Insight Technology, Inc.
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 Insight Technology, Inc.
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也Insight Technology, Inc.
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー Insight Technology, Inc.
 
難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?Insight Technology, Inc.
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Insight Technology, Inc.
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?Insight Technology, Inc.
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...Insight Technology, Inc.
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 Insight Technology, Inc.
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Insight Technology, Inc.
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]Insight Technology, Inc.
 

More from Insight Technology, Inc. (20)

グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
Docker and the Oracle Database
Docker and the Oracle DatabaseDocker and the Oracle Database
Docker and the Oracle Database
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
 
事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごと
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォーム
 
SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門
 
Lunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL ServicesLunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL Services
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
 
難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
 

A12 Vectorwise on real enterprise environment by 新久保浩二

  • 1. Vectorwise on Real Enterprise Environment - Comfortable Agile Analytics - Insight Technology, Inc. 新久保 浩二 1
  • 2. 1. Insight Qube & Vectorwise 2. おら オラ Oracle どっぷり検証生活 2. Oracle ACE 3. @kouji_s_0808 4. JPOUG(Japan Oracle User Group) 本日はOracle以外の話です。 本資料に使用されている社名、ロゴ、製品、サービス名およびブランド名は、該当する各社の 登録商標または商標です。本資料の一部あるいは全体について、許可なく複製および転載する ことを禁じます。 2
  • 3. 1. Vectorwise(Column oriented Database)の概要 2. Agile Analytics による “心地よさ” 体験 3
  • 4. History ‘70s RDBMS黎明期から開発は行われている ’76 カナダ統計局の RAPID (カナダの国勢調査および統計的処理システム) * 80年代には世界中でRAPIDが共有され、90年代まで使用された(wikipedia) ’00 長年、Sybase IQが商用のColumnar Databaseとして存在 NOW 近年、大量データにおける分析需要の高まりから様々な製品およびプロジェクトが誕生 また、商用大手ベンダーも列指向と行指向のハイブリッド化を進めている Commercial Sybase IQ Aster Data Vertica Greenplum VectorWise Free or Open InfiniDB CE MonetDB C-Store x100 LucidDB 4
  • 5. • 列指向とは? • メリットは? (シーケンシャルな)アクセス効率 + データ圧縮 = 分析基盤に向いている Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date 1ブロックには様々な 1ブロックには同様の タイプのデータが格納 タイプのデータが格納 されているので圧縮効 されているので圧縮効 率を上げにくい 率を上げやすい 5
  • 6. • デメリットは? 一般的に (ランダムな)アクセスが非効率 + データ圧縮 = OLTP基盤に向いていない Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date Prod ID Prod Name Date 更新時に圧縮・展開 のオーバーヘッドが 大きい(*1) (*1) 圧縮のデメリットはカラムナーデータベースに限った話ではありません 6
  • 8. - CPU SIMD (Vector Processing) Utilizing CPU Cache as execution memory Parallel Execution (Optimizing CPU many cores) - IO (Optimizing large data scan) Column-based Storage Data Compression Storage Index 8
  • 9. SIMD (Single Instruction Multiple Data) Pentium ⅢよりSSE(Streaming SIMD Extensions)として搭載され、Sandy BridgeよりIntel AVX(Advanced Vector eXtensions)へ Instruction Data ・・・ ・・・ ・・・ ・・・ ・・・ Output 9
  • 10. 12000 11166.392 Query22 Query21 Query20 10000 13 136 Query19 Query18 倍 倍 Query17 Query16 8000 高 高 Query15 速 速 Query14 Query13 Query12 6000 Query11 Query10 Query09 Query08 4000 Query07 Query06 Query05 Query04 2000 853.186 Query03 Query02 Query01 82.085 ElapsedTime 0 RDBMS X on HDD VectorWise2.0 on HDD VectorWise2.0 on SSD good (*) DBT3のデータを使ったTPC-H相当のベンチマーク (弊社調べ) 10
  • 11. (*) 2012/09/14 – 2012/10/09 までのTwitterデータから(弊社調べ) 11
  • 12. ひらめき Legacy Analytics 分析は結果として何がアウトプットされるか プロジェクト初期段階で見えづらい 最初の”ひらめき”の結果が出るまでに、時間と 結果 検討 お金がかかり、最初の“ひらめき”の信頼度の 数千万~数百億件 程度のデータの分析、 責任が重い 集計なら、サクッとこなしましょうよ。 Agile Analytics という単純な話 “ひらめき”から超高速に結果に結び付け、 ”何度も”分析、検証のプロセスを実行し、 検証 分析 精度の高いアウトプットをプロジェクト 初期段階から得る 12
  • 13. - Twitterのデータが約8,000万件 (2012/09/15 ~ 2012/10/11) - Mecabによる形態素解析データが約6,000万件 (日本語圏のTweetのみ対象) - 奈良先端大学の日本語評価極性辞書が1.1万件 (http://cl.naist.jp/~inui/research/EM/sentiment-lexicon.html) - Juman辞書内のドメイン情報が1.3万件 関連する言葉ランキングや、マクロな気持ち(Positive/Negative) を分析する人工無脳 * 出力されるアウトプットには全く責任を負えませんので悪しからず… 13
  • 14. 各デモアプリケーション内での典型的なSQL文のイメージ SELECT … FROM Twitter本文 本文 ,Twitter言葉 言葉 SQL的には結構、重い ,(各種辞書データ 辞書) SQLになっています。 WHERE 本文.ID = 言葉.ID - キーワードマッチに (AND 言葉.言葉 = 辞書.言葉 AND 言葉.品詞 = 辞書.品詞) よるCPU負荷 AND upper(本文.140文字のTEXT) like ‘%大文字キーワード%’ - 大量データによる AND 本文.Tweetされた時刻 between 開始 and 終了 I/O負荷 GROUP BY date_format(Tweetされた時刻,’日付フォーマット’) ,…; 14
  • 15. Vectorwise 2.5.1 DBMS X DBMS X Redhat Enterprise Redhat Enterprise Redhat Enterprise Linux 6.2 64bit Linux 5.7 64bit Linux 5.7 64bit Intel Xeon E5-2690 Intel Xeon E5645 Intel Xeon E5645 2.90GHz * 2 2.40GHz * 4 2.40GHz * 4 256 GB 256 GB 256 GB SATA SSD * 14 SATA 1K rpm HDD * SATA SSD * 18 (RAID10) 18 (RAID10) (RAID10) 15
  • 16. 16
  • 17. DBMS-X on SSD Vectorwise on SSD 168.4秒 → 6.7秒 17
  • 18. まず、データからイメージしてもらいたいこと 製造業、金融業 (コールセンター) 製造業大手では、お客様からの問い合わせ情報が5年で2,000万件弱 製薬 製薬業界データで年間1,000 ~ 1,500万件、MR関連データで500万件 マーケティングデータで数千万件 流通(POS) 売上規模によるが、明細レベルで、年間、数十億 ~ 数百億件 (*) WEB上の各種記事より (弊社調べ) 18
  • 19. Time is money ひらめき is priceless (*) 弊社調べ 19