SlideShare a Scribd company logo
1 of 49
Download to read offline
© Hitachi, Ltd. 2014. All rights reserved. 
db tech showcase 2014 
株式会社 日立製作所 情報・通信システム社 
ITプラットフォーム事業本部 開発統括本部 
ソフトウェア開発本部 DB設計部 
2014/11/13 
山口 健一 
超高速データベースエンジンでの ビッグデータ分析活用事例
© Hitachi, Ltd. 2014. All rights reserved. 
はじめに 
1 
<本日のテーマ> 
超高速データベースを実際に分析業務に適用した際の経験から、 
ビッグデータではこんなこともありますよというお話しを、 
データベース技術者の視点で紹介いたします。
© Hitachi, Ltd. 2014. All rights reserved. 
1. 超高速データベースエンジンとは 
2. ビッグデータ分析への活用例:流通分析ソリューション 
3. ビッグデータ適用時、こんなことがありました! 
Contents 
2 
4. おわりに
© Hitachi, Ltd. 2014. All rights reserved. 
1. 超高速データベースエンジンとは 
2. ビッグデータ分析への活用例:流通分析ソリューション 
3. ビッグデータ適用時、こんなことがありました! 
Contents 
3 
4. おわりに
© Hitachi, Ltd. 2014. All rights reserved. 
1.1 超高速データベースエンジンとは 
4 
Hitachi Advanced Data Binder プラットフォーム 
Hitachi Advanced Data Binder プラットフォーム 
日立ラックサーバ 
日立ストレージ 
超高速データベースエンジン 
□自社従来比100倍(*3)の検索性能を誇る、超高速データベースエンジン 
Hitachi Advanced Data Binderを搭載。 
□可用性の高い日立のサーバと高速ストレージをセット化。 
(*1) 世界のトップを目指した先端的研究を推進することで、産業、安全保障等の分野における我が国の中長期的な国際的競争力、底力の強化を図るとともに、研究開発成果の 国民および社会への確かな還元を図ることを目的として創設された国の研究開発プログラム。 
(*2) 内閣府の最先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評 価」(中心研究者:喜連川 東大教授/国立情報学研究所所長)の成果を利用』。 
(*3) 当社従来製品との比較。解析系データベースに関する標準的なベンチマークを元に作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高 速化率には差が見られるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果。 
最先端研究開発支援プログラム(*1)において、国立大学法人東京大学が 
推進している超高速データベースエンジンの研究開発(*2)の成果を利用して 
日立が製品化したリレーショナルデータベースシステム。
© Hitachi, Ltd. 2014. All rights reserved. 
1.2 Hitachi Advanced Data Binderプラットフォーム 
5 
高速データアクセス基盤 
Hitachi Advanced Data Binder プラットフォーム 
超高速データベースエンジン 
Hitachi Advanced Data Binder 
(RDBMS) 
日立サーバ 
日立ストレージ 
BI 
ツール 
業務 
アプリケーション 
センサー 
稼働ログ 
売上 
SNS 
受発注 
契約 
データ 
ソース 
収集/加工 
多種データ 
高速検索 
価値を創造 
大量データ 
DWH 
Hitachi Advanced Data Binder PFはDWHの中核を支えるDBサーバです 
□ 大量データのローディング処理を高速化 
□ 多種多様なデータ結合処理(JOIN)を高速化 
JDBC/ODBC/CLI 
(SQLインタフェース)
© Hitachi, Ltd. 2014. All rights reserved. 
1.2 Hitachi Advanced Data Binderの高速化技術 
6 
サーバ、ストレージの能力を最大限に使いきるソフトウェア技術。 
内閣府の最先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする 
戦略的社会サービスの実証・評価」(中心研究者:国立大学法人 東京大学 喜連川教授)の成果を利用 
DB検索(SQL)処理を並列実行単位(I/O単位)に自動分割し高多重で実行。 
タスク割当 検索処理 I/O完了待ち ディスクI/O 
サーバ 
ストレージ 
【従来方式】 
:順序実行方式 
【新方式】:非順序型実行原理(*2) 
検索処理(μs) 
同期I/O処理(ms) 
【従来方式でのストレージアクセストレース】 
【新方式でのストレージアクセストレース】 
処理時間を大幅短縮 
東京大学との超高速データベースエンジンの共同研究開発成果の製品化。 
自社従来比約100倍(*1)のデータ検索性能。 
(*1) 当社従来製品との比較。解析系データベースに関する標準的なベンチマークを元に作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高速化率には差が見ら 
れるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果。 
(*2) 喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理 。 
顧客情報 注文情報 明細履歴情報 
検索処理(μs) 
同期I/O処理(ms) 
サーバ 
ストレージ
© Hitachi, Ltd. 2014. All rights reserved. 
1.3 Hitachi Advanced Data Binderの高速化技術 
7 
非順序実行原理では、発行したI/Oを待たずに、次々にレコード処理を行うた め、並列度を高めやすい。レコード処理順序に依存しない集合演算や結合処 理が得意。 
<順序実行> 
<非順序実行>
© Hitachi, Ltd. 2014. All rights reserved. 
1.4 TPC-H 100TBクラスで世界初登録 
8 
Hitachi Advanced Data Binderプラットフォーム、世界初の100TBクラス登録 
日刊工業新聞社 第56回十大新製品賞「増田賞」 受賞 
産学連携による研究開発の成果を基に、「非順序型実行原理*1」に基づく処理機構をもつ 
純国産の超高速データベースエンジンを搭載し、非常に優れた処理性能を発揮できる 
革新的な製品を実現し、2013年10月には、データベースシステムの業界標準ベンチ 
マーク(性能測定基準)である「TPC-H」の最大クラス(100TB)に世界で初めて登録 
されたことなどが評価された。 
TPC-H: 
TPC協会が定めるデータベースの業界 標準ベンチマークテストのひとつ。 
データ規模で7つのクラス(100GB~ 100TB)があり、最大規模である100TB クラスに世界初登録した。 
(*1) 喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理 。
© Hitachi, Ltd. 2014. All rights reserved. 
1. 超高速データベースエンジンとは 
2. ビッグデータ分析への活用例:流通分析ソリューション 
3. ビッグデータ適用時、こんなことがありました! 
Contents 
9 
4. おわりに
© Hitachi, Ltd. 2014. All rights reserved. 
2.1 ビッグデータ分析への活用例 流通分析ソリューション 
10 
小売業のビッグデータ利活用を支援する「流通分析ソリューション」の 
データ管理基盤に適用。 
データウェアハウス 
流通分析ソリューション 
「流通分析ソリューション」は、売上や 
在庫数だけでなく、時間や分類といった 
さまざまな切り口で、POSデータの分析 
を容易に実現する「商品分析システム」、 
RFM分析やデシル分析をはじめさまざ 
まな分析手法によって会員情報を分析 
し、会員への必要なアプローチ施策の 
決定を支援する「顧客分析システム」を 
提供
© Hitachi, Ltd. 2014. All rights reserved. 
2.2 なぜ、Hitachi Advanced Data Binder PFを選んだか? 
11 
なぜ、HADB PFを選んだか聞いてみました 
(*1) 喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理 。 
(*2) 当社従来製品との比較。解析系データベースに関する標準的なベンチマークを元に作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高速化率には差が見ら 
れるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果。
© Hitachi, Ltd. 2014. All rights reserved. 
2.2 なぜ、Hitachi Advanced Data Binder PFを選んだか? 
12 
なぜ、HADB PFを選んだか聞いてみました 
シンプルな構成での 
システム構築が可能 
運用コスト・負担を低減 
ベストプラクティスモデル 
により導入が容易 
高速なデータアクセス 
高性能・高信頼なデータ基盤 
がすぐに利用可能 
データマートレスの実現へ 
(*1) 喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理 。 
(*2) 当社従来製品との比較。解析系データベースに関する標準的なベンチマークを元に作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高速化率には差が見ら 
れるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果。
© Hitachi, Ltd. 2014. All rights reserved. 
2.3 流通分析ソリューションとは 
13 
流通分析ソリューションの特長
© Hitachi, Ltd. 2014. All rights reserved. 
2.4 流通分析ソリューションの機能: 商品分析 
14 
商品分析によるPDCA 
さまざまな売り場改善のPDCAを多彩な分析メニューで支援
© Hitachi, Ltd. 2014. All rights reserved. 
2.5 流通分析ソリューションの機能: 商品分析 
15 
流通分析ソリューション:商品分析メニュー
© Hitachi, Ltd. 2014. All rights reserved. 
2.6 流通分析ソリューションの機能: 顧客分析 
16 
顧客分析によるPDCA 
「個客対応」実現のPDCAを多彩な分析メニューで支援
© Hitachi, Ltd. 2014. All rights reserved. 
2.7 流通分析ソリューションの機能: 顧客分析 
17 
流通分析ソリューション:顧客分析メニュー
© Hitachi, Ltd. 2014. All rights reserved. 
1. 超高速データベースエンジンとは 
2. ビッグデータ分析への活用例:流通分析ソリューション 
3. ビッグデータ適用時、こんなことがありました! 
Contents 
18 
4. おわりに
© Hitachi, Ltd. 2014. All rights reserved. 
3.1 ビッグデータのデータメンテナンスってどうしよう? 
19 
ポイント1 
数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? 
一日当たりのデータ量も膨大。 
どうやって運用しよう・・・
© Hitachi, Ltd. 2014. All rights reserved. 
3.1 ビッグデータのデータメンテナンスってどうしよう? 
20 
ポイント1 
数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? 
<マルチチャンク表とバッググランドインポート機能の適用> 
マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て 
て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する 
ような場合は、日付単位でチャンクを作成できます。 
'14/4/1 
インポート データ 
'14/4/2 
インポート データ 
'14/4/3 
インポート データ 
・・・ 
'14/5/1 
インポート データ 
'14/5/2 
インポート データ 
チャンク1 
チャンク2 
チャンク3 
チャンク31 
チャンク32 
POSテーブル 
インポートした単位で「チャンク」 
というデータの塊として管理
© Hitachi, Ltd. 2014. All rights reserved. 
3.1 ビッグデータのデータメンテナンスってどうしよう? 
21 
ポイント1 
数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? 
<マルチチャンク表とバッググランドインポート機能の適用> 
マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て 
て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する 
ような場合は、日付単位でチャンクを作成できます。 
■ インポート対象外のチャンクはSQL操作可能 
□ チャンク単位で削除が可能 ⇒ 保持期間が過ぎた日付のデータを一括削除 
□ チャンク単位でエクスポートが可能 
'14/4/1 
インポート データ 
'14/4/2 
インポート データ 
'14/4/3 
インポート データ 
・・・ 
'14/5/1 
インポート データ 
'14/5/2 
インポート データ 
チャンク1 
チャンク2 
チャンク3 
チャンク31 
チャンク32 
POSテーブル 
'14/5/3 
インポート データ 
チャンク33 
今回インポートするデータ。 
新しいチャンクを作成 
これまでのデータは、 
インポート中でもSQL操作可能
© Hitachi, Ltd. 2014. All rights reserved. 
3.1 ビッグデータのデータメンテナンスってどうしよう? 
22 
ポイント1 
数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? 
<マルチチャンク表とバッググランドインポート機能の適用> 
マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て 
て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する 
ような場合は、日付単位でチャンクを作成できます。 
■ インポート対象外のチャンクはSQL操作可能 
□ チャンク単位で削除が可能 ⇒ 保持期間が過ぎた日付のデータを一括削除 
□ チャンク単位でエクスポートが可能 
'14/4/1 
インポート データ 
'14/4/2 
インポート データ 
'14/4/3 
インポート データ 
・・・ 
'14/5/1 
インポート データ 
'14/5/2 
インポート データ 
チャンク1 
チャンク2 
チャンク3 
チャンク31 
チャンク32 
POSテーブル 
'14/5/3 
インポート データ 
チャンク33 
インポート完了後は自動的に 
SQL操作可能な状態へ
© Hitachi, Ltd. 2014. All rights reserved. 
3.1 ビッグデータのデータメンテナンスってどうしよう? 
23 
ポイント1 
数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? 
<マルチチャンク表とバッググランドインポート機能の適用> 
マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て 
て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する 
ような場合は、日付単位でチャンクを作成できます。 
□ インポート対象外のチャンクはSQL操作可能 
■ チャンク単位で削除が可能 ⇒ 保持期間が過ぎた日付のデータを一括削除 
□ チャンク単位でエクスポートが可能 
'14/4/1 
インポート データ 
'14/4/2 
インポート データ 
'14/4/3 
インポート データ 
・・・ 
'14/5/1 
インポート データ 
'14/5/2 
インポート データ 
チャンク1 
チャンク2 
チャンク3 
チャンク31 
チャンク32 
POSテーブル 
'14/5/3 
インポート データ 
チャンク33 
チャンク単位の一括削除
© Hitachi, Ltd. 2014. All rights reserved. 
3.1 ビッグデータのデータメンテナンスってどうしよう? 
24 
ポイント1 
数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? 
<マルチチャンク表とバッググランドインポート機能の適用> 
マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て 
て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する 
ような場合は、日付単位でチャンクを作成できます。 
□ インポート対象外のチャンクはSQL操作可能 
□ チャンク単位で削除が可能 ⇒ 保持期間が過ぎた日付のデータを一括削除 
■ チャンク単位でエクスポートが可能 
'14/4/1 
インポート データ 
'14/4/2 
インポート データ 
'14/4/3 
インポート データ 
・・・ 
'14/5/1 
インポート データ 
'14/5/2 
インポート データ 
チャンク1 
チャンク2 
チャンク3 
チャンク31 
チャンク32 
POSテーブル 
'14/5/3 
インポート データ 
チャンク33 
チャンク単位のエクスポート
© Hitachi, Ltd. 2014. All rights reserved. 
3.2 無駄なデータにはアクセスしたくない! 
25 
ポイント2 
集計期間を条件にするので、日付列はインデクスに入れておきたい。 
でも、日付列は範囲条件になり、インデクス列の定義順序が難しい 
SELECT 店舗コード, sum(売上) FROM POSテーブル 
WHERE 日付 BETWEEN '14/4/2' AND '14/5/1' 
AND 店舗コード in ('aaa', 'bbb', 'ccc') 
GROUP BY 店舗コード 
CREATE INDEX IDX01 on POSテーブル 
( 日付, 店舗コード) ・・・ ??? 
( 店舗コード, 日付) ・・・ ??? 
B-treeインデクス定義
© Hitachi, Ltd. 2014. All rights reserved. 
3.2 無駄なデータにはアクセスしたくない! 
26 
ポイント2 
集計期間を条件にするので、日付列はインデクスに入れておきたい。 
でも、日付列は範囲条件になり、インデクス列の定義順序が難しい 
<レンジインデクスの適用> 
レンジインデクスは、チャンクの値域を管理するインデクスです。 
検索時、レンジインデクス列に条件があると、対象外のチャンクにはアクセス 
しないため、無駄なデータアクセスを抑止できます。 
'14/4/1 
インポート データ 
'14/4/2 
インポート データ 
'14/4/3 
インポート データ 
・・・ 
'14/5/1 
インポート データ 
'14/5/2 
インポート データ 
'14/5/3 
インポート データ 
チャンク1 
チャンク2 
チャンク3 
チャンク31 
チャンク32 
チャンク33 
SELECT 店舗コード, SUM(売上) FROM POSテーブル 
WHERE 日付 BETWEEN '14/4/2' AND '14/5/1' 
AND 店舗コード in ('aaa', 'bbb', 'ccc') 
GROUP BY 店舗コード 
POSテーブル 
レンジインデクス 
レンジインデクス 
レンジインデクス 
・・・ 
レンジインデクス 
レンジインデクス 
レンジインデクス 
CREATE INDEX IDX_RNG ON POSテーブル 
(日付) IN DBAREA1 INDEXTYPE RANGE 
各チャンクの「日付」列の値域を管理
© Hitachi, Ltd. 2014. All rights reserved. 
3.2 無駄なデータにはアクセスしたくない! 
27 
ポイント2 
集計期間を条件にするので、日付列はインデクスに入れておきたい。 
でも、日付列は範囲条件になり、インデクス列の定義順序が難しい 
<レンジインデクスの適用> 
レンジインデクスは、チャンクの値域を管理するインデクスです。 
検索時、レンジインデクス列に条件があると、対象外のチャンクにはアクセス 
しないため、無駄なデータアクセスを抑止できます。 
■ レンジインデクス列に条件があると自動的に利用します 
□ B-treeインデクスと併用可能で、両方のインデクスでデータを絞り込みます 
'14/4/1 
インポート データ 
'14/4/2 
インポート データ 
'14/4/3 
インポート データ 
・・・ 
'14/5/1 
インポート データ 
'14/5/2 
インポート データ 
'14/5/3 
インポート データ 
チャンク1 
チャンク2 
チャンク3 
チャンク31 
チャンク32 
チャンク33 
該当するチャンクだけを 検索対象にする 
SELECT 店舗コード, SUM(売上) FROM POSテーブル 
WHERE 日付 BETWEEN '14/4/2' AND '14/5/1' 
AND 店舗コード in ('aaa', 'bbb', 'ccc') 
GROUP BY 店舗コード 
POSテーブル 
レンジインデクス 
レンジインデクス 
レンジインデクス 
・・・ 
レンジインデクス 
レンジインデクス 
レンジインデクス
© Hitachi, Ltd. 2014. All rights reserved. 
3.2 無駄なデータにはアクセスしたくない! 
28 
ポイント2 
集計期間を条件にするので、日付列はインデクスに入れておきたい。 
でも、日付列は範囲条件になり、インデクス列の定義順序が難しい 
<レンジインデクスの適用> 
レンジインデクスは、チャンクの値域を管理するインデクスです。 
検索時、レンジインデクス列に条件があると、対象外のチャンクにはアクセス 
しないため、無駄なデータアクセスを抑止できます。 
□ レンジインデクス列に条件があると自動的に利用します 
■ B-treeインデクスと併用可能で、両方のインデクスでデータを絞り込みます 
'14/4/1 
インポート データ 
'14/4/2 
インポート データ 
'14/4/3 
インポート データ 
・・・ 
'14/5/1 
インポート データ 
'14/5/2 
インポート データ 
'14/5/3 
インポート データ 
チャンク1 
チャンク2 
チャンク3 
チャンク31 
チャンク32 
チャンク33 
該当するチャンクだけを対象に 
B-Treeインデクスを使って検索 
SELECT 店舗コード, SUM(売上) FROM POSテーブル 
WHERE 日付 BETWEEN '14/4/2' AND '14/5/1' 
AND 店舗コード in ('aaa', 'bbb', 'ccc') 
GROUP BY 店舗コード 
POSテーブル 
レンジインデクス 
レンジインデクス 
レンジインデクス 
・・・ 
レンジインデクス 
レンジインデクス 
レンジインデクス
© Hitachi, Ltd. 2014. All rights reserved. 
3.3 B-treeインデクスを使った方がいいはず・・・? 
29 
ポイント3 
B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど 
なんとなく遅い気がする・・・ 
インデクスはちゃんと 
使っているんだけどなあ?
© Hitachi, Ltd. 2014. All rights reserved. 
3.3 B-treeインデクスを使った方がいいはず・・・? 
30 
ポイント3 
B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど 
なんとなく遅い気がする・・・ 
<テーブルスキャンの適用> 
ビッグデータの場合、B-treeインデクスを適切に使用して、条件も絞り込める 
(全体に対する比率として)場合でも、件数そのものが膨大なため、インデクス 
経由のランダムI/Oよりも、テーブルスキャンが優位なケースがあります。 
データ部 
B-treeインデクス 
POSテーブル 
B-treeインデクス 
で絞り込み 
ランダムI/O 
SQL検索 
データ部 
POSテーブル 
SQL検索 
<インデクス経由の検索> 
<テーブルスキャン>
© Hitachi, Ltd. 2014. All rights reserved. 
3.3 B-treeインデクスを使った方がいいはず・・・? 
31 
ポイント3 
B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど 
なんとなく遅い気がする・・・ 
<テーブルスキャンの適用> 
ビッグデータの場合、B-treeインデクスを適切に使用して、条件も絞り込める 
(全体に対する比率として)場合でも、件数そのものが膨大なため、インデクス 
経由のランダムI/Oよりも、テーブルスキャンが優位なケースがあります。 
■ ヒント句で明示的にテーブルスキャンすることを指定 
□ セグメント単位I/Oかつテーブルスキャン専用バッファで高速アクセス 
□ テーブルスキャンでもレンジインデクスで対象データを絞り込み 
データ部 
B-treeインデクス 
POSテーブル 
B-treeインデクス 
で絞り込み 
ランダムI/O 
SQL検索 
データ部 
POSテーブル 
SQL検索 
ヒント句でテーブル 
スキャン指定
© Hitachi, Ltd. 2014. All rights reserved. 
3.3 B-treeインデクスを使った方がいいはず・・・? 
32 
ポイント3 
B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど 
なんとなく遅い気がする・・・ 
<テーブルスキャンの適用> 
ビッグデータの場合、B-treeインデクスを適切に使用して、条件も絞り込める 
(全体に対する比率として)場合でも、件数そのものが膨大なため、インデクス 
経由のランダムI/Oよりも、テーブルスキャンが優位なケースがあります。 
□ ヒント句で明示的にテーブルスキャンすることを指定 
■ セグメント単位I/O (テーブルスキャン専用バッファ利用)で高速アクセス 
□ テーブルスキャンでもレンジインデクスで対象データを絞り込み 
データ部 
B-treeインデクス 
POSテーブル 
B-treeインデクス 
で絞り込み 
ランダムI/O 
SQL検索 
データ部 
POSテーブル 
SQL検索 
セグメント単位I/O 
(専用バッファ利用)
© Hitachi, Ltd. 2014. All rights reserved. 
3.3 B-treeインデクスを使った方がいいはず・・・? 
33 
ポイント3 
B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど 
なんとなく遅い気がする・・・ 
<テーブルスキャンの適用> 
ビッグデータの場合、B-treeインデクスを適切に使用して、条件も絞り込める 
(全体に対する比率として)場合でも、件数そのものが膨大なため、インデクス 
経由のランダムI/Oよりも、テーブルスキャンが優位なケースがあります。 
□ ヒント句で明示的にテーブルスキャンすることを指定 
□ セグメント単位I/O (テーブルスキャン専用バッファ利用)で高速アクセス 
■ テーブルスキャンでもレンジインデクスで対象データを絞り込み 
データ部 
B-treeインデクス 
POSテーブル 
B-treeインデクス 
で絞り込み 
ランダムI/O 
SQL検索 
データ部 
POSテーブル 
SQL検索 
レンジインデクスで 
対象データを絞り込み
© Hitachi, Ltd. 2014. All rights reserved. 
3.4 ジョイン方式によって検索性能は変わる? 
34 
ポイント4 
インデクスを適切に使ったネストジョイン方式になってるのに、なんだか 
遅い気がする・・・ 
商品マスタ 
POSデータ001 
POSデータ002 
POSデータ003 
POSデータ004 
POSデータ005 
・・・ 
商品001 
商品002 
商品003 
商品004 
商品005 
・・・ 
POSテーブル 
ジョインすると 
なんだか遅いなあ?
© Hitachi, Ltd. 2014. All rights reserved. 
3.4 ジョイン方式によって検索性能は変わる? 
35 
ポイント4 
インデクスを適切に使ったネストジョイン方式になってるのに、なんだか 
遅い気がする・・・ 
<ハッシュジョイン方式の適用> 
ビッグデータの場合、内側表・外側表の件数に応じて繰り返し処理回数が増え 
るネストジョイン方式よりも、両表を1回ずつスキャンするハッシュジョイン方式 
が優位となる場合があります。 
内側表・外側表の件数に 
応じて結合回数が増加 
<ネストジョイン方式> 
商品マスタ 
POSデータ001 
POSデータ002 
POSデータ003 
POSデータ004 
POSデータ005 
・・・ 
商品001 
商品002 
商品003 
商品004 
商品005 
・・・ 
POSテーブル 
<ハッシュジョイン方式> 
ハッシュテーブル 
商品マスタを1回 
スキャンしてハッシュ 
テーブルに登録 
POSテーブルを1回スキャン してハッシュテーブルで突き 合わせ 
商品マスタ 
POSデータ001 
POSデータ002 
POSデータ003 
POSデータ004 
POSデータ005 
・・・ 
商品001 
商品002 
商品003 
商品004 
商品005 
・・・ 
POSテーブル
© Hitachi, Ltd. 2014. All rights reserved. 
3.4 ジョイン方式によって検索性能は変わる? 
36 
ポイント4 
インデクスを適切に使ったネストジョイン方式になってるのに、なんだか 
遅い気がする・・・ 
<ハッシュジョイン方式の適用> 
ビッグデータの場合、内側表・外側表の件数に応じて繰り返し処理回数が増え 
るネストジョイン方式よりも、両表を1回ずつスキャンするハッシュジョイン方式 
が優位となる場合があります。 
■ コスト情報を取得することで、コストに応じてハッシュジョインを選択 
■ コスト情報がない場合でもヒント句でハッシュジョイン化することが可能 
<ネストジョイン方式> 
商品マスタ 
POSデータ001 
POSデータ002 
POSデータ003 
POSデータ004 
POSデータ005 
・・・ 
商品001 
商品002 
商品003 
商品004 
商品005 
・・・ 
POSテーブル 
<ハッシュジョイン方式> 
ハッシュテーブル 
商品マスタ 
POSデータ001 
POSデータ002 
POSデータ003 
POSデータ004 
POSデータ005 
・・・ 
商品001 
商品002 
商品003 
商品004 
商品005 
・・・ 
POSテーブル 
内側表・外側表の件数に 
応じて結合回数が増加 
商品マスタを1回 
スキャンしてハッシュ 
テーブルに登録 
POSテーブルを1回スキャン してハッシュテーブルで突き 合わせ
© Hitachi, Ltd. 2014. All rights reserved. 
3.5 クライアントとサーバ間のデータ転送も効率よく! 
37 
ポイント5 
検索結果が多いけど、クライアント-サーバ間のデータ転送オーバヘッドは 
大丈夫だろうか? 
検索結果が多いけど 
大丈夫かなあ?
© Hitachi, Ltd. 2014. All rights reserved. 
3.5 クライアントとサーバ間のデータ転送も効率よく! 
38 
<Fetch処理の一括送信機能の適用> 
クライアント-サーバ間で検索結果を1件ずつやりとりしていると、検索結果が 
多い時のオーバヘッドが増加します。Fetch処理の一括送信機能で複数件を 
まとめて送受信することで、効率的に処理できます。 
ポイント5 
検索結果が多いけど、クライアント-サーバ間のデータ転送オーバヘッドは 
大丈夫だろうか? 
データベース 
転送回数が増大 
HADBクライアント 
超高速データベースエンジン 
Hitachi Advanced Data Binder 
(RDBMS) 
HADBサーバ UAP 
HADBクライアント 
I/F 
Fetch要求
© Hitachi, Ltd. 2014. All rights reserved. 
3.5 クライアントとサーバ間のデータ転送も効率よく! 
39 
<Fetch処理の一括送信機能の適用> 
クライアント-サーバ間で検索結果を1件ずつやりとりしていると、検索結果が 
多い時のオーバヘッドが増加します。Fetch処理の一括送信機能で複数件を 
まとめて送受信することで、効率的に処理できます。 
■ システムの平均的な検索量に合わせて一括送信件数を指定します 
(デフォルトで一括送信件数:200件) 
ポイント5 
検索結果が多いけど、クライアント-サーバ間のデータ転送オーバヘッドは 
大丈夫だろうか? 
データベース 
一括送信機能で 
検索結果をまとめて送信 
HADBクライアント 
超高速データベースエンジン 
Hitachi Advanced Data Binder 
(RDBMS) 
HADBサーバ UAP 
HADBクライアント 
I/F 
Fetch要求
© Hitachi, Ltd. 2014. All rights reserved. 
3.6 ジョインするタイミングに気をつけよう! 
40 
ポイント6 
売上集計するSQLで、名称を付加するためにマスタ表をジョインしているが、 
アクセス回数が多い気がする・・・ 
1対1ジョインのはずなのに 
ずいぶん時間がかかるなあ? 
select POS.商品コード 
, MST.商品名 
, SUM(POS.売価) as 売上額 
, COUNT(*) as 売上数 
from POSテーブル POS 
left outer join 商品マスタ MST 
on POS.商品コード=MST.商品コード 
where 日付 between '14/9/1' and '14/9/30' 
group by POS.商品コード 
, MST.商品名;
© Hitachi, Ltd. 2014. All rights reserved. 
3.6 ジョインするタイミングに気をつけよう! 
41 
ポイント6 
売上集計するSQLで、名称を付加するためにマスタ表をジョインしているが、 
アクセス回数が多い気がする・・・ 
<集計処理(Group by)がある場合、ジョインするタイミングに注意> 
集計処理をする前にジョインするか、後にジョインするかでジョイン回数が 
大きく変わることがあります。ビッグデータでは特に顕著に現れます。
© Hitachi, Ltd. 2014. All rights reserved. 
3.6 ジョインするタイミングに気をつけよう! 
42 
ポイント6 
売上集計するSQLで、名称を付加するためにマスタ表をジョインしているが、 
アクセス回数が多い気がする・・・ 
select POS.商品コード 
, MST.商品名 
, SUM(POS.売価) as 売上額 
, count(*) as 売上数 
from POSテーブル POS 
left outer join 商品マスタ MST 
on POS.商品コード=MST.商品コード 
where 日付 between '14/9/1' and '14/9/30' 
group by POS.商品コード 
, MST.商品名 
select POS.商品コード 
, MST.商品名 
, POS.売上額 
, POS.売上数 
from (select 商品コード 
, sum(売価) as 売上額 
, count(*) as 売上数 
from POSテーブル 
where 日付 between '14/9/1' and '14/9/30' 
group by 商品コード 
) POS 
left outer join 商品マスタ MST 
on POS.商品コード=MST.商品コード 
例)100商品が、1日当たりの平均で1店舗各10個売れるとし、全10店舗の1カ月の商品別売上金額を求める 
ジョインしてから集計(Group By) 
集計してからジョイン 
<集計処理(Group by)がある場合、ジョインするタイミングに注意> 
集計処理をする前にジョインするか、後にジョインするかでジョイン回数が 
大きく変わることがあります。ビッグデータでは特に顕著に現れます。 
■ 集計処理の後でジョインするようにSQLを書き換えます
© Hitachi, Ltd. 2014. All rights reserved. 
3.6 ジョインするタイミングに気をつけよう! 
43 
ポイント6 
売上集計するSQLで、名称を付加するためにマスタ表をジョインしているが、 
アクセス回数が多い気がする・・・ 
<集計処理(Group by)がある場合、ジョインするタイミングに注意> 
集計処理をする前にジョインするか、後にジョインするかでジョイン回数が 
大きく変わることがあります。ビッグデータでは特に顕著に現れます。 
■ 集計処理の後でジョインするようにSQLを書き換えます 
例)100商品が、1日当たりの平均で1店舗各10個売れるとし、全10店舗の1カ月の商品別売上金額を求める 
select POS.商品コード 
, MST.商品名 
, SUM(POS.売価) as 売上額 
, count(*) as 売上数 
from POSテーブル POS 
left outer join 商品マスタ MST 
on POS.商品コード=MST.商品コード 
where 日付 between '14/9/1' and '14/9/30' 
group by POS.商品コード 
, MST.商品名 
select POS.商品コード 
, MST.商品名 
, POS.売上額 
, POS.売上数 
from (select 商品コード 
, sum(売価) as 売上額 
, count(*) as 売上数 
from POSテーブル 
where 日付 between '14/9/1' and '14/9/30' 
group by 商品コード 
) POS 
left outer join 商品マスタ MST 
on POS.商品コード=MST.商品コード 
先に集計して100件(商品)の 結果を求めてからジョインする ので、ジョイン回数は100回。 
100商品×10個/日×10店舗×30日 
⇒ 300,000 回のジョインをして名称付加して 
から集計。検索結果は100件(商品)。 
⇒ 同じ商品コードで何度も商品名を付加。
© Hitachi, Ltd. 2014. All rights reserved. 
1. 超高速データベースエンジンとは 
2. ビッグデータ分析への活用例:流通分析ソリューション 
3. ビッグデータ適用時、こんなことがありました! 
Contents 
44 
4. おわりに
© Hitachi, Ltd. 2014. All rights reserved. 
4.おわりに 
45 
1.超高速データベースエンジンとは 
Hitachi Advanced Data Binderプラットフォーム 
「自社従来比100倍」、「TPC-H 100TBクラス世界初登録」、「増田賞受賞」 
⇒ PRはすごいけど、現場で使われてる? 
2.ビッグデータ分析への活用例:流通分析ソリューション 
日立の小売業向け「流通分析ソリューション」に採用 
⇒商品分析、顧客分析のデータ基盤で使われています。 
3.ビッグデータ適用時、こんなことがありました! 
実際に分析業務に適用した際の経験をいくつかご紹介 
⇒ビッグデータを対象にすることで、気をつけないといけないことも。
© Hitachi, Ltd. 2014. All rights reserved. 
株式会社 日立製作所 情報・通信システム社 
ITプラットフォーム事業本部 開発統括本部 
ソフトウェア開発本部 DB設計部 
超高速データベースエンジンの 
ビッグデータ分析活用事例 
2014/11/13 
山口 健一 
END 
46
© Hitachi, Ltd. 2014. All rights reserved. 
他社商品名、商標等の引用に関する表示 
47 
・ 記載の会社名、製品名は、それぞれの会社の商標または登録商標です。 
・ 製品の内容・仕様は、改良のために予告なしに変更する場合があります。 
・ 製品写真は出荷時のものと異なる場合があります。
[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例  by 株式会社日立製作所 山口健一

More Related Content

What's hot

20201113_PGconf_Japan_GPU_PostGIS
20201113_PGconf_Japan_GPU_PostGIS20201113_PGconf_Japan_GPU_PostGIS
20201113_PGconf_Japan_GPU_PostGISKohei KaiGai
 
PCCC20 東京大学情報基盤センター「BDECシステムとh3-Open-BDEC」
PCCC20 東京大学情報基盤センター「BDECシステムとh3-Open-BDEC」PCCC20 東京大学情報基盤センター「BDECシステムとh3-Open-BDEC」
PCCC20 東京大学情報基盤センター「BDECシステムとh3-Open-BDEC」PC Cluster Consortium
 
20200424_Writable_Arrow_Fdw
20200424_Writable_Arrow_Fdw20200424_Writable_Arrow_Fdw
20200424_Writable_Arrow_FdwKohei KaiGai
 
20180914 GTCJ INCEPTION HeteroDB
20180914 GTCJ INCEPTION HeteroDB20180914 GTCJ INCEPTION HeteroDB
20180914 GTCJ INCEPTION HeteroDBKohei KaiGai
 
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...Insight Technology, Inc.
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビックTech Summit 2016
 
Geotiff.jsで始めるリアルタイム演算 in foss4g japan 2020 online
Geotiff.jsで始めるリアルタイム演算 in foss4g japan 2020 onlineGeotiff.jsで始めるリアルタイム演算 in foss4g japan 2020 online
Geotiff.jsで始めるリアルタイム演算 in foss4g japan 2020 onlineRyousuke Wayama
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いRyuji Tamagawa
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会Hitoshi Sato
 
20211112_jpugcon_gpu_and_arrow
20211112_jpugcon_gpu_and_arrow20211112_jpugcon_gpu_and_arrow
20211112_jpugcon_gpu_and_arrowKohei KaiGai
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]Hideo Takagi
 
20200806_PGStrom_PostGIS_GstoreFdw
20200806_PGStrom_PostGIS_GstoreFdw20200806_PGStrom_PostGIS_GstoreFdw
20200806_PGStrom_PostGIS_GstoreFdwKohei KaiGai
 
これからのデータセンターが目指す技術(公開用)
これからのデータセンターが目指す技術(公開用) これからのデータセンターが目指す技術(公開用)
これからのデータセンターが目指す技術(公開用) Tadashi Sugita
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介Recruit Technologies
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)Takeshi Mikami
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeHideo Takagi
 
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]Hideo Takagi
 

What's hot (20)

20201113_PGconf_Japan_GPU_PostGIS
20201113_PGconf_Japan_GPU_PostGIS20201113_PGconf_Japan_GPU_PostGIS
20201113_PGconf_Japan_GPU_PostGIS
 
PCCC20 東京大学情報基盤センター「BDECシステムとh3-Open-BDEC」
PCCC20 東京大学情報基盤センター「BDECシステムとh3-Open-BDEC」PCCC20 東京大学情報基盤センター「BDECシステムとh3-Open-BDEC」
PCCC20 東京大学情報基盤センター「BDECシステムとh3-Open-BDEC」
 
GTC Japan 2017
GTC Japan 2017GTC Japan 2017
GTC Japan 2017
 
20200424_Writable_Arrow_Fdw
20200424_Writable_Arrow_Fdw20200424_Writable_Arrow_Fdw
20200424_Writable_Arrow_Fdw
 
20180914 GTCJ INCEPTION HeteroDB
20180914 GTCJ INCEPTION HeteroDB20180914 GTCJ INCEPTION HeteroDB
20180914 GTCJ INCEPTION HeteroDB
 
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
[20170922 Sapporo Tech Bar] 地図用データを高速処理!オープンソースGPUデータベースMapDってどんなもの?? by 株式会社...
 
Dat009 クラウドでビック
Dat009 クラウドでビックDat009 クラウドでビック
Dat009 クラウドでビック
 
Geotiff.jsで始めるリアルタイム演算 in foss4g japan 2020 online
Geotiff.jsで始めるリアルタイム演算 in foss4g japan 2020 onlineGeotiff.jsで始めるリアルタイム演算 in foss4g japan 2020 online
Geotiff.jsで始めるリアルタイム演算 in foss4g japan 2020 online
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
 
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
第162回情報処理学会ハイパフォーマンスコンピューティング研究発表会
 
20211112_jpugcon_gpu_and_arrow
20211112_jpugcon_gpu_and_arrow20211112_jpugcon_gpu_and_arrow
20211112_jpugcon_gpu_and_arrow
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
 
20200806_PGStrom_PostGIS_GstoreFdw
20200806_PGStrom_PostGIS_GstoreFdw20200806_PGStrom_PostGIS_GstoreFdw
20200806_PGStrom_PostGIS_GstoreFdw
 
Hadoopカンファレンス2013
Hadoopカンファレンス2013Hadoopカンファレンス2013
Hadoopカンファレンス2013
 
これからのデータセンターが目指す技術(公開用)
これからのデータセンターが目指す技術(公開用) これからのデータセンターが目指す技術(公開用)
これからのデータセンターが目指す技術(公開用)
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
 
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
 

Similar to [db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 山口健一

[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi IshikawaInsight Technology, Inc.
 
データを事業に活かすために必要なデータ基盤とは
データを事業に活かすために必要なデータ基盤とはデータを事業に活かすために必要なデータ基盤とは
データを事業に活かすために必要なデータ基盤とはgriddb
 
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...Insight Technology, Inc.
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...Insight Technology, Inc.
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro YokoyamaInsight Technology, Inc.
 
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide HanataniInsight Technology, Inc.
 
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔Insight Technology, Inc.
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューションDell TechCenter Japan
 
C22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by Taichi Umeda
C22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by  Taichi UmedaC22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by  Taichi Umeda
C22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by Taichi UmedaInsight Technology, Inc.
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例Tetsutaro Watanabe
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化Kazunori Sato
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一Insight Technology, Inc.
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』The Japan DataScientist Society
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
C34 ニッチだけど、社会インフラを支えるデータベース、HiRDB ~HiRDBを選ぶ人、選ばない人、その選択基準とは~ by Taichi Ishikawa
C34 ニッチだけど、社会インフラを支えるデータベース、HiRDB ~HiRDBを選ぶ人、選ばない人、その選択基準とは~ by Taichi IshikawaC34 ニッチだけど、社会インフラを支えるデータベース、HiRDB ~HiRDBを選ぶ人、選ばない人、その選択基準とは~ by Taichi Ishikawa
C34 ニッチだけど、社会インフラを支えるデータベース、HiRDB ~HiRDBを選ぶ人、選ばない人、その選択基準とは~ by Taichi IshikawaInsight Technology, Inc.
 
実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方Fujishiro Takuya
 
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...Insight Technology, Inc.
 
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??griddb
 

Similar to [db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 山口健一 (20)

[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
[C32] 正確でスピーディーな決断を促す、日立の高速データアクセス基盤~性能検証事例と活用効果~ by Taichi Ishikawa
 
データを事業に活かすために必要なデータ基盤とは
データを事業に活かすために必要なデータ基盤とはデータを事業に活かすために必要なデータ基盤とは
データを事業に活かすために必要なデータ基盤とは
 
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
[db tech showcase Sapporo 2015] B16:ビッグデータには、なぜ列指向が有効なのか? by 日本ヒューレット・パッカード株式...
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
[C23] 「今」を分析するストリームデータ処理技術とその可能性 by Takahiro Yokoyama
 
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
 
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
 
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
 
C22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by Taichi Umeda
C22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by  Taichi UmedaC22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by  Taichi Umeda
C22 スプリットブレインになっても一貫性を保証するインメモリデータグリッド製品 by Taichi Umeda
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一 [db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ!  by 株式会社日立製作所 村上順一
[db tech showcase Tokyo 2014] D25: 今を分析する日立の「CEP」、知るなら今でしょ! by 株式会社日立製作所 村上順一
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
C34 ニッチだけど、社会インフラを支えるデータベース、HiRDB ~HiRDBを選ぶ人、選ばない人、その選択基準とは~ by Taichi Ishikawa
C34 ニッチだけど、社会インフラを支えるデータベース、HiRDB ~HiRDBを選ぶ人、選ばない人、その選択基準とは~ by Taichi IshikawaC34 ニッチだけど、社会インフラを支えるデータベース、HiRDB ~HiRDBを選ぶ人、選ばない人、その選択基準とは~ by Taichi Ishikawa
C34 ニッチだけど、社会インフラを支えるデータベース、HiRDB ~HiRDBを選ぶ人、選ばない人、その選択基準とは~ by Taichi Ishikawa
 
実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方
 
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
 
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
高速処理と高信頼性を両立し、ペタバイト級の多種大量データを蓄積する、ビッグデータ/ IoT時代のデータベースとは??
 

More from Insight Technology, Inc.

グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?Insight Technology, Inc.
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Insight Technology, Inc.
 
事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明するInsight Technology, Inc.
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーンInsight Technology, Inc.
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとInsight Technology, Inc.
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?Insight Technology, Inc.
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームInsight Technology, Inc.
 
SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門Insight Technology, Inc.
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 Insight Technology, Inc.
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也Insight Technology, Inc.
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー Insight Technology, Inc.
 
難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?Insight Technology, Inc.
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Insight Technology, Inc.
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?Insight Technology, Inc.
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 Insight Technology, Inc.
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Insight Technology, Inc.
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]Insight Technology, Inc.
 
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...Insight Technology, Inc.
 

More from Insight Technology, Inc. (20)

グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
Docker and the Oracle Database
Docker and the Oracle DatabaseDocker and the Oracle Database
Docker and the Oracle Database
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
 
事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごと
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォーム
 
SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門
 
Lunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL ServicesLunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL Services
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
 
難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
 
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

[db tech showcase Tokyo 2014] B33: 超高速データベースエンジンでのビッグデータ分析活用事例 by 株式会社日立製作所 山口健一

  • 1. © Hitachi, Ltd. 2014. All rights reserved. db tech showcase 2014 株式会社 日立製作所 情報・通信システム社 ITプラットフォーム事業本部 開発統括本部 ソフトウェア開発本部 DB設計部 2014/11/13 山口 健一 超高速データベースエンジンでの ビッグデータ分析活用事例
  • 2. © Hitachi, Ltd. 2014. All rights reserved. はじめに 1 <本日のテーマ> 超高速データベースを実際に分析業務に適用した際の経験から、 ビッグデータではこんなこともありますよというお話しを、 データベース技術者の視点で紹介いたします。
  • 3. © Hitachi, Ltd. 2014. All rights reserved. 1. 超高速データベースエンジンとは 2. ビッグデータ分析への活用例:流通分析ソリューション 3. ビッグデータ適用時、こんなことがありました! Contents 2 4. おわりに
  • 4. © Hitachi, Ltd. 2014. All rights reserved. 1. 超高速データベースエンジンとは 2. ビッグデータ分析への活用例:流通分析ソリューション 3. ビッグデータ適用時、こんなことがありました! Contents 3 4. おわりに
  • 5. © Hitachi, Ltd. 2014. All rights reserved. 1.1 超高速データベースエンジンとは 4 Hitachi Advanced Data Binder プラットフォーム Hitachi Advanced Data Binder プラットフォーム 日立ラックサーバ 日立ストレージ 超高速データベースエンジン □自社従来比100倍(*3)の検索性能を誇る、超高速データベースエンジン Hitachi Advanced Data Binderを搭載。 □可用性の高い日立のサーバと高速ストレージをセット化。 (*1) 世界のトップを目指した先端的研究を推進することで、産業、安全保障等の分野における我が国の中長期的な国際的競争力、底力の強化を図るとともに、研究開発成果の 国民および社会への確かな還元を図ることを目的として創設された国の研究開発プログラム。 (*2) 内閣府の最先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする戦略的社会サービスの実証・評 価」(中心研究者:喜連川 東大教授/国立情報学研究所所長)の成果を利用』。 (*3) 当社従来製品との比較。解析系データベースに関する標準的なベンチマークを元に作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高 速化率には差が見られるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果。 最先端研究開発支援プログラム(*1)において、国立大学法人東京大学が 推進している超高速データベースエンジンの研究開発(*2)の成果を利用して 日立が製品化したリレーショナルデータベースシステム。
  • 6. © Hitachi, Ltd. 2014. All rights reserved. 1.2 Hitachi Advanced Data Binderプラットフォーム 5 高速データアクセス基盤 Hitachi Advanced Data Binder プラットフォーム 超高速データベースエンジン Hitachi Advanced Data Binder (RDBMS) 日立サーバ 日立ストレージ BI ツール 業務 アプリケーション センサー 稼働ログ 売上 SNS 受発注 契約 データ ソース 収集/加工 多種データ 高速検索 価値を創造 大量データ DWH Hitachi Advanced Data Binder PFはDWHの中核を支えるDBサーバです □ 大量データのローディング処理を高速化 □ 多種多様なデータ結合処理(JOIN)を高速化 JDBC/ODBC/CLI (SQLインタフェース)
  • 7. © Hitachi, Ltd. 2014. All rights reserved. 1.2 Hitachi Advanced Data Binderの高速化技術 6 サーバ、ストレージの能力を最大限に使いきるソフトウェア技術。 内閣府の最先端研究開発支援プログラム「超巨大データベース時代に向けた最高速データベースエンジンの開発と当該エンジンを核とする 戦略的社会サービスの実証・評価」(中心研究者:国立大学法人 東京大学 喜連川教授)の成果を利用 DB検索(SQL)処理を並列実行単位(I/O単位)に自動分割し高多重で実行。 タスク割当 検索処理 I/O完了待ち ディスクI/O サーバ ストレージ 【従来方式】 :順序実行方式 【新方式】:非順序型実行原理(*2) 検索処理(μs) 同期I/O処理(ms) 【従来方式でのストレージアクセストレース】 【新方式でのストレージアクセストレース】 処理時間を大幅短縮 東京大学との超高速データベースエンジンの共同研究開発成果の製品化。 自社従来比約100倍(*1)のデータ検索性能。 (*1) 当社従来製品との比較。解析系データベースに関する標準的なベンチマークを元に作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高速化率には差が見ら れるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果。 (*2) 喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理 。 顧客情報 注文情報 明細履歴情報 検索処理(μs) 同期I/O処理(ms) サーバ ストレージ
  • 8. © Hitachi, Ltd. 2014. All rights reserved. 1.3 Hitachi Advanced Data Binderの高速化技術 7 非順序実行原理では、発行したI/Oを待たずに、次々にレコード処理を行うた め、並列度を高めやすい。レコード処理順序に依存しない集合演算や結合処 理が得意。 <順序実行> <非順序実行>
  • 9. © Hitachi, Ltd. 2014. All rights reserved. 1.4 TPC-H 100TBクラスで世界初登録 8 Hitachi Advanced Data Binderプラットフォーム、世界初の100TBクラス登録 日刊工業新聞社 第56回十大新製品賞「増田賞」 受賞 産学連携による研究開発の成果を基に、「非順序型実行原理*1」に基づく処理機構をもつ 純国産の超高速データベースエンジンを搭載し、非常に優れた処理性能を発揮できる 革新的な製品を実現し、2013年10月には、データベースシステムの業界標準ベンチ マーク(性能測定基準)である「TPC-H」の最大クラス(100TB)に世界で初めて登録 されたことなどが評価された。 TPC-H: TPC協会が定めるデータベースの業界 標準ベンチマークテストのひとつ。 データ規模で7つのクラス(100GB~ 100TB)があり、最大規模である100TB クラスに世界初登録した。 (*1) 喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理 。
  • 10. © Hitachi, Ltd. 2014. All rights reserved. 1. 超高速データベースエンジンとは 2. ビッグデータ分析への活用例:流通分析ソリューション 3. ビッグデータ適用時、こんなことがありました! Contents 9 4. おわりに
  • 11. © Hitachi, Ltd. 2014. All rights reserved. 2.1 ビッグデータ分析への活用例 流通分析ソリューション 10 小売業のビッグデータ利活用を支援する「流通分析ソリューション」の データ管理基盤に適用。 データウェアハウス 流通分析ソリューション 「流通分析ソリューション」は、売上や 在庫数だけでなく、時間や分類といった さまざまな切り口で、POSデータの分析 を容易に実現する「商品分析システム」、 RFM分析やデシル分析をはじめさまざ まな分析手法によって会員情報を分析 し、会員への必要なアプローチ施策の 決定を支援する「顧客分析システム」を 提供
  • 12. © Hitachi, Ltd. 2014. All rights reserved. 2.2 なぜ、Hitachi Advanced Data Binder PFを選んだか? 11 なぜ、HADB PFを選んだか聞いてみました (*1) 喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理 。 (*2) 当社従来製品との比較。解析系データベースに関する標準的なベンチマークを元に作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高速化率には差が見ら れるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果。
  • 13. © Hitachi, Ltd. 2014. All rights reserved. 2.2 なぜ、Hitachi Advanced Data Binder PFを選んだか? 12 なぜ、HADB PFを選んだか聞いてみました シンプルな構成での システム構築が可能 運用コスト・負担を低減 ベストプラクティスモデル により導入が容易 高速なデータアクセス 高性能・高信頼なデータ基盤 がすぐに利用可能 データマートレスの実現へ (*1) 喜連川 東大教授/国立情報学研究所所長・合田 東大特任准教授が考案した原理 。 (*2) 当社従来製品との比較。解析系データベースに関する標準的なベンチマークを元に作成した、各種のデータ解析要求の実行性能を計測。データ解析要求の種類によって高速化率には差が見ら れるが、データベースにおいて特定の条件を満たす一定量のデータを絞り込んで解析を行うデータ解析要求を対象とした結果。
  • 14. © Hitachi, Ltd. 2014. All rights reserved. 2.3 流通分析ソリューションとは 13 流通分析ソリューションの特長
  • 15. © Hitachi, Ltd. 2014. All rights reserved. 2.4 流通分析ソリューションの機能: 商品分析 14 商品分析によるPDCA さまざまな売り場改善のPDCAを多彩な分析メニューで支援
  • 16. © Hitachi, Ltd. 2014. All rights reserved. 2.5 流通分析ソリューションの機能: 商品分析 15 流通分析ソリューション:商品分析メニュー
  • 17. © Hitachi, Ltd. 2014. All rights reserved. 2.6 流通分析ソリューションの機能: 顧客分析 16 顧客分析によるPDCA 「個客対応」実現のPDCAを多彩な分析メニューで支援
  • 18. © Hitachi, Ltd. 2014. All rights reserved. 2.7 流通分析ソリューションの機能: 顧客分析 17 流通分析ソリューション:顧客分析メニュー
  • 19. © Hitachi, Ltd. 2014. All rights reserved. 1. 超高速データベースエンジンとは 2. ビッグデータ分析への活用例:流通分析ソリューション 3. ビッグデータ適用時、こんなことがありました! Contents 18 4. おわりに
  • 20. © Hitachi, Ltd. 2014. All rights reserved. 3.1 ビッグデータのデータメンテナンスってどうしよう? 19 ポイント1 数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? 一日当たりのデータ量も膨大。 どうやって運用しよう・・・
  • 21. © Hitachi, Ltd. 2014. All rights reserved. 3.1 ビッグデータのデータメンテナンスってどうしよう? 20 ポイント1 数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? <マルチチャンク表とバッググランドインポート機能の適用> マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する ような場合は、日付単位でチャンクを作成できます。 '14/4/1 インポート データ '14/4/2 インポート データ '14/4/3 インポート データ ・・・ '14/5/1 インポート データ '14/5/2 インポート データ チャンク1 チャンク2 チャンク3 チャンク31 チャンク32 POSテーブル インポートした単位で「チャンク」 というデータの塊として管理
  • 22. © Hitachi, Ltd. 2014. All rights reserved. 3.1 ビッグデータのデータメンテナンスってどうしよう? 21 ポイント1 数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? <マルチチャンク表とバッググランドインポート機能の適用> マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する ような場合は、日付単位でチャンクを作成できます。 ■ インポート対象外のチャンクはSQL操作可能 □ チャンク単位で削除が可能 ⇒ 保持期間が過ぎた日付のデータを一括削除 □ チャンク単位でエクスポートが可能 '14/4/1 インポート データ '14/4/2 インポート データ '14/4/3 インポート データ ・・・ '14/5/1 インポート データ '14/5/2 インポート データ チャンク1 チャンク2 チャンク3 チャンク31 チャンク32 POSテーブル '14/5/3 インポート データ チャンク33 今回インポートするデータ。 新しいチャンクを作成 これまでのデータは、 インポート中でもSQL操作可能
  • 23. © Hitachi, Ltd. 2014. All rights reserved. 3.1 ビッグデータのデータメンテナンスってどうしよう? 22 ポイント1 数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? <マルチチャンク表とバッググランドインポート機能の適用> マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する ような場合は、日付単位でチャンクを作成できます。 ■ インポート対象外のチャンクはSQL操作可能 □ チャンク単位で削除が可能 ⇒ 保持期間が過ぎた日付のデータを一括削除 □ チャンク単位でエクスポートが可能 '14/4/1 インポート データ '14/4/2 インポート データ '14/4/3 インポート データ ・・・ '14/5/1 インポート データ '14/5/2 インポート データ チャンク1 チャンク2 チャンク3 チャンク31 チャンク32 POSテーブル '14/5/3 インポート データ チャンク33 インポート完了後は自動的に SQL操作可能な状態へ
  • 24. © Hitachi, Ltd. 2014. All rights reserved. 3.1 ビッグデータのデータメンテナンスってどうしよう? 23 ポイント1 数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? <マルチチャンク表とバッググランドインポート機能の適用> マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する ような場合は、日付単位でチャンクを作成できます。 □ インポート対象外のチャンクはSQL操作可能 ■ チャンク単位で削除が可能 ⇒ 保持期間が過ぎた日付のデータを一括削除 □ チャンク単位でエクスポートが可能 '14/4/1 インポート データ '14/4/2 インポート データ '14/4/3 インポート データ ・・・ '14/5/1 インポート データ '14/5/2 インポート データ チャンク1 チャンク2 チャンク3 チャンク31 チャンク32 POSテーブル '14/5/3 インポート データ チャンク33 チャンク単位の一括削除
  • 25. © Hitachi, Ltd. 2014. All rights reserved. 3.1 ビッグデータのデータメンテナンスってどうしよう? 24 ポイント1 数十億件オーダのPOSデータ。日々のデータ追加や削除はどうしよう? <マルチチャンク表とバッググランドインポート機能の適用> マルチチャンク表では、バッググランドインポート1回分のデータにIDを割当て て、論理的なデータの塊(チャンク)で区別します。日次でデータを追加する ような場合は、日付単位でチャンクを作成できます。 □ インポート対象外のチャンクはSQL操作可能 □ チャンク単位で削除が可能 ⇒ 保持期間が過ぎた日付のデータを一括削除 ■ チャンク単位でエクスポートが可能 '14/4/1 インポート データ '14/4/2 インポート データ '14/4/3 インポート データ ・・・ '14/5/1 インポート データ '14/5/2 インポート データ チャンク1 チャンク2 チャンク3 チャンク31 チャンク32 POSテーブル '14/5/3 インポート データ チャンク33 チャンク単位のエクスポート
  • 26. © Hitachi, Ltd. 2014. All rights reserved. 3.2 無駄なデータにはアクセスしたくない! 25 ポイント2 集計期間を条件にするので、日付列はインデクスに入れておきたい。 でも、日付列は範囲条件になり、インデクス列の定義順序が難しい SELECT 店舗コード, sum(売上) FROM POSテーブル WHERE 日付 BETWEEN '14/4/2' AND '14/5/1' AND 店舗コード in ('aaa', 'bbb', 'ccc') GROUP BY 店舗コード CREATE INDEX IDX01 on POSテーブル ( 日付, 店舗コード) ・・・ ??? ( 店舗コード, 日付) ・・・ ??? B-treeインデクス定義
  • 27. © Hitachi, Ltd. 2014. All rights reserved. 3.2 無駄なデータにはアクセスしたくない! 26 ポイント2 集計期間を条件にするので、日付列はインデクスに入れておきたい。 でも、日付列は範囲条件になり、インデクス列の定義順序が難しい <レンジインデクスの適用> レンジインデクスは、チャンクの値域を管理するインデクスです。 検索時、レンジインデクス列に条件があると、対象外のチャンクにはアクセス しないため、無駄なデータアクセスを抑止できます。 '14/4/1 インポート データ '14/4/2 インポート データ '14/4/3 インポート データ ・・・ '14/5/1 インポート データ '14/5/2 インポート データ '14/5/3 インポート データ チャンク1 チャンク2 チャンク3 チャンク31 チャンク32 チャンク33 SELECT 店舗コード, SUM(売上) FROM POSテーブル WHERE 日付 BETWEEN '14/4/2' AND '14/5/1' AND 店舗コード in ('aaa', 'bbb', 'ccc') GROUP BY 店舗コード POSテーブル レンジインデクス レンジインデクス レンジインデクス ・・・ レンジインデクス レンジインデクス レンジインデクス CREATE INDEX IDX_RNG ON POSテーブル (日付) IN DBAREA1 INDEXTYPE RANGE 各チャンクの「日付」列の値域を管理
  • 28. © Hitachi, Ltd. 2014. All rights reserved. 3.2 無駄なデータにはアクセスしたくない! 27 ポイント2 集計期間を条件にするので、日付列はインデクスに入れておきたい。 でも、日付列は範囲条件になり、インデクス列の定義順序が難しい <レンジインデクスの適用> レンジインデクスは、チャンクの値域を管理するインデクスです。 検索時、レンジインデクス列に条件があると、対象外のチャンクにはアクセス しないため、無駄なデータアクセスを抑止できます。 ■ レンジインデクス列に条件があると自動的に利用します □ B-treeインデクスと併用可能で、両方のインデクスでデータを絞り込みます '14/4/1 インポート データ '14/4/2 インポート データ '14/4/3 インポート データ ・・・ '14/5/1 インポート データ '14/5/2 インポート データ '14/5/3 インポート データ チャンク1 チャンク2 チャンク3 チャンク31 チャンク32 チャンク33 該当するチャンクだけを 検索対象にする SELECT 店舗コード, SUM(売上) FROM POSテーブル WHERE 日付 BETWEEN '14/4/2' AND '14/5/1' AND 店舗コード in ('aaa', 'bbb', 'ccc') GROUP BY 店舗コード POSテーブル レンジインデクス レンジインデクス レンジインデクス ・・・ レンジインデクス レンジインデクス レンジインデクス
  • 29. © Hitachi, Ltd. 2014. All rights reserved. 3.2 無駄なデータにはアクセスしたくない! 28 ポイント2 集計期間を条件にするので、日付列はインデクスに入れておきたい。 でも、日付列は範囲条件になり、インデクス列の定義順序が難しい <レンジインデクスの適用> レンジインデクスは、チャンクの値域を管理するインデクスです。 検索時、レンジインデクス列に条件があると、対象外のチャンクにはアクセス しないため、無駄なデータアクセスを抑止できます。 □ レンジインデクス列に条件があると自動的に利用します ■ B-treeインデクスと併用可能で、両方のインデクスでデータを絞り込みます '14/4/1 インポート データ '14/4/2 インポート データ '14/4/3 インポート データ ・・・ '14/5/1 インポート データ '14/5/2 インポート データ '14/5/3 インポート データ チャンク1 チャンク2 チャンク3 チャンク31 チャンク32 チャンク33 該当するチャンクだけを対象に B-Treeインデクスを使って検索 SELECT 店舗コード, SUM(売上) FROM POSテーブル WHERE 日付 BETWEEN '14/4/2' AND '14/5/1' AND 店舗コード in ('aaa', 'bbb', 'ccc') GROUP BY 店舗コード POSテーブル レンジインデクス レンジインデクス レンジインデクス ・・・ レンジインデクス レンジインデクス レンジインデクス
  • 30. © Hitachi, Ltd. 2014. All rights reserved. 3.3 B-treeインデクスを使った方がいいはず・・・? 29 ポイント3 B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど なんとなく遅い気がする・・・ インデクスはちゃんと 使っているんだけどなあ?
  • 31. © Hitachi, Ltd. 2014. All rights reserved. 3.3 B-treeインデクスを使った方がいいはず・・・? 30 ポイント3 B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど なんとなく遅い気がする・・・ <テーブルスキャンの適用> ビッグデータの場合、B-treeインデクスを適切に使用して、条件も絞り込める (全体に対する比率として)場合でも、件数そのものが膨大なため、インデクス 経由のランダムI/Oよりも、テーブルスキャンが優位なケースがあります。 データ部 B-treeインデクス POSテーブル B-treeインデクス で絞り込み ランダムI/O SQL検索 データ部 POSテーブル SQL検索 <インデクス経由の検索> <テーブルスキャン>
  • 32. © Hitachi, Ltd. 2014. All rights reserved. 3.3 B-treeインデクスを使った方がいいはず・・・? 31 ポイント3 B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど なんとなく遅い気がする・・・ <テーブルスキャンの適用> ビッグデータの場合、B-treeインデクスを適切に使用して、条件も絞り込める (全体に対する比率として)場合でも、件数そのものが膨大なため、インデクス 経由のランダムI/Oよりも、テーブルスキャンが優位なケースがあります。 ■ ヒント句で明示的にテーブルスキャンすることを指定 □ セグメント単位I/Oかつテーブルスキャン専用バッファで高速アクセス □ テーブルスキャンでもレンジインデクスで対象データを絞り込み データ部 B-treeインデクス POSテーブル B-treeインデクス で絞り込み ランダムI/O SQL検索 データ部 POSテーブル SQL検索 ヒント句でテーブル スキャン指定
  • 33. © Hitachi, Ltd. 2014. All rights reserved. 3.3 B-treeインデクスを使った方がいいはず・・・? 32 ポイント3 B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど なんとなく遅い気がする・・・ <テーブルスキャンの適用> ビッグデータの場合、B-treeインデクスを適切に使用して、条件も絞り込める (全体に対する比率として)場合でも、件数そのものが膨大なため、インデクス 経由のランダムI/Oよりも、テーブルスキャンが優位なケースがあります。 □ ヒント句で明示的にテーブルスキャンすることを指定 ■ セグメント単位I/O (テーブルスキャン専用バッファ利用)で高速アクセス □ テーブルスキャンでもレンジインデクスで対象データを絞り込み データ部 B-treeインデクス POSテーブル B-treeインデクス で絞り込み ランダムI/O SQL検索 データ部 POSテーブル SQL検索 セグメント単位I/O (専用バッファ利用)
  • 34. © Hitachi, Ltd. 2014. All rights reserved. 3.3 B-treeインデクスを使った方がいいはず・・・? 33 ポイント3 B-Treeインデクスはちゃんと使っていて、絞り込みも期待できるはずだけど なんとなく遅い気がする・・・ <テーブルスキャンの適用> ビッグデータの場合、B-treeインデクスを適切に使用して、条件も絞り込める (全体に対する比率として)場合でも、件数そのものが膨大なため、インデクス 経由のランダムI/Oよりも、テーブルスキャンが優位なケースがあります。 □ ヒント句で明示的にテーブルスキャンすることを指定 □ セグメント単位I/O (テーブルスキャン専用バッファ利用)で高速アクセス ■ テーブルスキャンでもレンジインデクスで対象データを絞り込み データ部 B-treeインデクス POSテーブル B-treeインデクス で絞り込み ランダムI/O SQL検索 データ部 POSテーブル SQL検索 レンジインデクスで 対象データを絞り込み
  • 35. © Hitachi, Ltd. 2014. All rights reserved. 3.4 ジョイン方式によって検索性能は変わる? 34 ポイント4 インデクスを適切に使ったネストジョイン方式になってるのに、なんだか 遅い気がする・・・ 商品マスタ POSデータ001 POSデータ002 POSデータ003 POSデータ004 POSデータ005 ・・・ 商品001 商品002 商品003 商品004 商品005 ・・・ POSテーブル ジョインすると なんだか遅いなあ?
  • 36. © Hitachi, Ltd. 2014. All rights reserved. 3.4 ジョイン方式によって検索性能は変わる? 35 ポイント4 インデクスを適切に使ったネストジョイン方式になってるのに、なんだか 遅い気がする・・・ <ハッシュジョイン方式の適用> ビッグデータの場合、内側表・外側表の件数に応じて繰り返し処理回数が増え るネストジョイン方式よりも、両表を1回ずつスキャンするハッシュジョイン方式 が優位となる場合があります。 内側表・外側表の件数に 応じて結合回数が増加 <ネストジョイン方式> 商品マスタ POSデータ001 POSデータ002 POSデータ003 POSデータ004 POSデータ005 ・・・ 商品001 商品002 商品003 商品004 商品005 ・・・ POSテーブル <ハッシュジョイン方式> ハッシュテーブル 商品マスタを1回 スキャンしてハッシュ テーブルに登録 POSテーブルを1回スキャン してハッシュテーブルで突き 合わせ 商品マスタ POSデータ001 POSデータ002 POSデータ003 POSデータ004 POSデータ005 ・・・ 商品001 商品002 商品003 商品004 商品005 ・・・ POSテーブル
  • 37. © Hitachi, Ltd. 2014. All rights reserved. 3.4 ジョイン方式によって検索性能は変わる? 36 ポイント4 インデクスを適切に使ったネストジョイン方式になってるのに、なんだか 遅い気がする・・・ <ハッシュジョイン方式の適用> ビッグデータの場合、内側表・外側表の件数に応じて繰り返し処理回数が増え るネストジョイン方式よりも、両表を1回ずつスキャンするハッシュジョイン方式 が優位となる場合があります。 ■ コスト情報を取得することで、コストに応じてハッシュジョインを選択 ■ コスト情報がない場合でもヒント句でハッシュジョイン化することが可能 <ネストジョイン方式> 商品マスタ POSデータ001 POSデータ002 POSデータ003 POSデータ004 POSデータ005 ・・・ 商品001 商品002 商品003 商品004 商品005 ・・・ POSテーブル <ハッシュジョイン方式> ハッシュテーブル 商品マスタ POSデータ001 POSデータ002 POSデータ003 POSデータ004 POSデータ005 ・・・ 商品001 商品002 商品003 商品004 商品005 ・・・ POSテーブル 内側表・外側表の件数に 応じて結合回数が増加 商品マスタを1回 スキャンしてハッシュ テーブルに登録 POSテーブルを1回スキャン してハッシュテーブルで突き 合わせ
  • 38. © Hitachi, Ltd. 2014. All rights reserved. 3.5 クライアントとサーバ間のデータ転送も効率よく! 37 ポイント5 検索結果が多いけど、クライアント-サーバ間のデータ転送オーバヘッドは 大丈夫だろうか? 検索結果が多いけど 大丈夫かなあ?
  • 39. © Hitachi, Ltd. 2014. All rights reserved. 3.5 クライアントとサーバ間のデータ転送も効率よく! 38 <Fetch処理の一括送信機能の適用> クライアント-サーバ間で検索結果を1件ずつやりとりしていると、検索結果が 多い時のオーバヘッドが増加します。Fetch処理の一括送信機能で複数件を まとめて送受信することで、効率的に処理できます。 ポイント5 検索結果が多いけど、クライアント-サーバ間のデータ転送オーバヘッドは 大丈夫だろうか? データベース 転送回数が増大 HADBクライアント 超高速データベースエンジン Hitachi Advanced Data Binder (RDBMS) HADBサーバ UAP HADBクライアント I/F Fetch要求
  • 40. © Hitachi, Ltd. 2014. All rights reserved. 3.5 クライアントとサーバ間のデータ転送も効率よく! 39 <Fetch処理の一括送信機能の適用> クライアント-サーバ間で検索結果を1件ずつやりとりしていると、検索結果が 多い時のオーバヘッドが増加します。Fetch処理の一括送信機能で複数件を まとめて送受信することで、効率的に処理できます。 ■ システムの平均的な検索量に合わせて一括送信件数を指定します (デフォルトで一括送信件数:200件) ポイント5 検索結果が多いけど、クライアント-サーバ間のデータ転送オーバヘッドは 大丈夫だろうか? データベース 一括送信機能で 検索結果をまとめて送信 HADBクライアント 超高速データベースエンジン Hitachi Advanced Data Binder (RDBMS) HADBサーバ UAP HADBクライアント I/F Fetch要求
  • 41. © Hitachi, Ltd. 2014. All rights reserved. 3.6 ジョインするタイミングに気をつけよう! 40 ポイント6 売上集計するSQLで、名称を付加するためにマスタ表をジョインしているが、 アクセス回数が多い気がする・・・ 1対1ジョインのはずなのに ずいぶん時間がかかるなあ? select POS.商品コード , MST.商品名 , SUM(POS.売価) as 売上額 , COUNT(*) as 売上数 from POSテーブル POS left outer join 商品マスタ MST on POS.商品コード=MST.商品コード where 日付 between '14/9/1' and '14/9/30' group by POS.商品コード , MST.商品名;
  • 42. © Hitachi, Ltd. 2014. All rights reserved. 3.6 ジョインするタイミングに気をつけよう! 41 ポイント6 売上集計するSQLで、名称を付加するためにマスタ表をジョインしているが、 アクセス回数が多い気がする・・・ <集計処理(Group by)がある場合、ジョインするタイミングに注意> 集計処理をする前にジョインするか、後にジョインするかでジョイン回数が 大きく変わることがあります。ビッグデータでは特に顕著に現れます。
  • 43. © Hitachi, Ltd. 2014. All rights reserved. 3.6 ジョインするタイミングに気をつけよう! 42 ポイント6 売上集計するSQLで、名称を付加するためにマスタ表をジョインしているが、 アクセス回数が多い気がする・・・ select POS.商品コード , MST.商品名 , SUM(POS.売価) as 売上額 , count(*) as 売上数 from POSテーブル POS left outer join 商品マスタ MST on POS.商品コード=MST.商品コード where 日付 between '14/9/1' and '14/9/30' group by POS.商品コード , MST.商品名 select POS.商品コード , MST.商品名 , POS.売上額 , POS.売上数 from (select 商品コード , sum(売価) as 売上額 , count(*) as 売上数 from POSテーブル where 日付 between '14/9/1' and '14/9/30' group by 商品コード ) POS left outer join 商品マスタ MST on POS.商品コード=MST.商品コード 例)100商品が、1日当たりの平均で1店舗各10個売れるとし、全10店舗の1カ月の商品別売上金額を求める ジョインしてから集計(Group By) 集計してからジョイン <集計処理(Group by)がある場合、ジョインするタイミングに注意> 集計処理をする前にジョインするか、後にジョインするかでジョイン回数が 大きく変わることがあります。ビッグデータでは特に顕著に現れます。 ■ 集計処理の後でジョインするようにSQLを書き換えます
  • 44. © Hitachi, Ltd. 2014. All rights reserved. 3.6 ジョインするタイミングに気をつけよう! 43 ポイント6 売上集計するSQLで、名称を付加するためにマスタ表をジョインしているが、 アクセス回数が多い気がする・・・ <集計処理(Group by)がある場合、ジョインするタイミングに注意> 集計処理をする前にジョインするか、後にジョインするかでジョイン回数が 大きく変わることがあります。ビッグデータでは特に顕著に現れます。 ■ 集計処理の後でジョインするようにSQLを書き換えます 例)100商品が、1日当たりの平均で1店舗各10個売れるとし、全10店舗の1カ月の商品別売上金額を求める select POS.商品コード , MST.商品名 , SUM(POS.売価) as 売上額 , count(*) as 売上数 from POSテーブル POS left outer join 商品マスタ MST on POS.商品コード=MST.商品コード where 日付 between '14/9/1' and '14/9/30' group by POS.商品コード , MST.商品名 select POS.商品コード , MST.商品名 , POS.売上額 , POS.売上数 from (select 商品コード , sum(売価) as 売上額 , count(*) as 売上数 from POSテーブル where 日付 between '14/9/1' and '14/9/30' group by 商品コード ) POS left outer join 商品マスタ MST on POS.商品コード=MST.商品コード 先に集計して100件(商品)の 結果を求めてからジョインする ので、ジョイン回数は100回。 100商品×10個/日×10店舗×30日 ⇒ 300,000 回のジョインをして名称付加して から集計。検索結果は100件(商品)。 ⇒ 同じ商品コードで何度も商品名を付加。
  • 45. © Hitachi, Ltd. 2014. All rights reserved. 1. 超高速データベースエンジンとは 2. ビッグデータ分析への活用例:流通分析ソリューション 3. ビッグデータ適用時、こんなことがありました! Contents 44 4. おわりに
  • 46. © Hitachi, Ltd. 2014. All rights reserved. 4.おわりに 45 1.超高速データベースエンジンとは Hitachi Advanced Data Binderプラットフォーム 「自社従来比100倍」、「TPC-H 100TBクラス世界初登録」、「増田賞受賞」 ⇒ PRはすごいけど、現場で使われてる? 2.ビッグデータ分析への活用例:流通分析ソリューション 日立の小売業向け「流通分析ソリューション」に採用 ⇒商品分析、顧客分析のデータ基盤で使われています。 3.ビッグデータ適用時、こんなことがありました! 実際に分析業務に適用した際の経験をいくつかご紹介 ⇒ビッグデータを対象にすることで、気をつけないといけないことも。
  • 47. © Hitachi, Ltd. 2014. All rights reserved. 株式会社 日立製作所 情報・通信システム社 ITプラットフォーム事業本部 開発統括本部 ソフトウェア開発本部 DB設計部 超高速データベースエンジンの ビッグデータ分析活用事例 2014/11/13 山口 健一 END 46
  • 48. © Hitachi, Ltd. 2014. All rights reserved. 他社商品名、商標等の引用に関する表示 47 ・ 記載の会社名、製品名は、それぞれの会社の商標または登録商標です。 ・ 製品の内容・仕様は、改良のために予告なしに変更する場合があります。 ・ 製品写真は出荷時のものと異なる場合があります。