SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our User Agreement and Privacy Policy.
SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our Privacy Policy and User Agreement for details.
Successfully reported this slideshow.
Activate your 14 day free trial to unlock unlimited reading.
1.
国際会議参加報告
41st International Conference on Very Large Data Bases
VLDB 2015
東京大学生産技術研究所
特任研究員 早水悠登
2015/12/12 1
2015/12/12 @ 東京大学生産技術研究所
第24回先端的データベースとWeb技術動向講演会 (ACM SIGMOD 日本支部第61回支部大会) 講演資料
14.
講演前半
• VDLBの概要紹介・2015年度開催概要
• チューリング賞受賞記念講演
• VLDB 40周年記念パネル
• 10-year Best Paper Award
• Keynotes
2015/12/12 14
15.
“Congrats Mike!”
• Michael Stonebraker の
チューリング賞受賞
お祝いムード一色
• 4人目のデータベース分野受賞者
– Charles Bachman (1973)
• ナビゲーショナルデータベース
“The Programmer As Navigator”
– Edgar F. Codd (1981)
• リレーショナルデータベース
“Codd’s biggest overall achievement was to make
database management into a science. ” (Chris Date)
– Jim Gray (1998)
• トランザクション処理
2015/12/12 15
16.
2015/12/12 16By courtesy of MIT
近代的なデータベースシステムの礎を築いた
17.
VLDB2015 は Stonebraker三昧
• チューリング賞受賞記念講演
• VLDB 40周年記念パネル
• VLDB 10-year Best Paper Award 受賞講演
2015/12/12 17
18.
チューリング賞受賞記念講演
The Land Sharks are on the Squawk Box
(How Riding a Bicycle across America and
Building Postgres Have a Lot in Common)
Michael Stonebraker
2015/12/12 18
19.
The Land Sharks are on the Squawk Box
(How Riding a Bicycle across America and
Building Postgres Have a Lot in Common)
• Land Sharks
– 地上げ屋
– ここでは”親しみを込めて”投資家のこと
• Squawk Box
– ポリコム的なもの
2015/12/12 19
20.
The Land Sharks are on the Squawk Box
(How Riding a Bicycle across America and
Building Postgres Have a Lot in Common)
• 2つの回想録
– Postgresプロジェクト(Illustra創業)
– Stonebraker夫妻のアメリカ横断自転車旅行
• Stonebrakerの 語り が面白い
– 是非YouTubeで視聴しましょう :)
2015/12/12 20
21.
The Land Sharks are on the Squawk Box
(How Riding a Bicycle across America and
Building Postgres Have a Lot in Common)
• 2つの回想録
– Postgresプロジェクト(Illustra創業)
– Stonebraker夫妻のアメリカ横断自転車旅行
• Stonebrakerの 語り が面白い
– 是非YouTubeで視聴しましょう :)
2015/12/12 21
22.
山あり谷あり
2015/12/12 22
By courtesy of Michael Stonebraker
29.
2015/12/12 29
• “Large companies don’t innovate”
– 技術移転にはスタートアップがベスト
– Postgresの価値を市場に問う
• Illustraを創業
– 優秀なメンバーが集まる
“Mom”, “Short One”, “EMP1”, “Quiet One”,
“Triple Rock”, “Tall Shark”, “Voice of
Experience”, “Uptone”, “Smooth”
– 資金調達を済ませ最初の顧客を獲得
Postgresの商用化 (’91-’94)
By courtesy of Michael Stonebraker
30.
2015/12/12 30
• 顧客とADTプロバイダの板挟み
– 顧客は大企業の作ったADTを欲しがる
– 大企業は多数の顧客への販売チャネルを欲し
がる
• “down round”
– “a fate worse than death”
厳しい現実 (’94-’95)
By courtesy of Michael Stonebraker
31.
2015/12/12 31
• インターネット市場の勃興による
思いがけない幸運
• “The database for cyberspace” として売
り出し注目を集める
– ADTによる拡張性がWeb上の多様なデータと
フィット
セレンディピティ(’95)
By courtesy of Michael Stonebraker
32.
2015/12/12 32
厳しい現実(’95)
• インターネット企業との契約競争
– TPC-B (トランザクション処理)による競争
– 得意な画像や地理データ処理で戦えない
By courtesy of Michael Stonebraker
33.
2015/12/12 33
• 大企業によるIllustra買収
– ADTを巡る板挟みの解消
– トランザクション処理問題の解消
セレンディピティ(’96)
By courtesy of Michael Stonebraker
38.
キャリアを振り返って
• Make It Happen (PhD) – 5年間
• Make It Happen (tenure) – 5年間
• Make It Happen (アメリカ横断旅行) – 2ヶ
月
• “正気の人間がこんなことをやりたがるだ
ろうか?”
2015/12/12 38
39.
2015/12/12 39
Images by courtesy of Michael Stonebraker
41.
講演前半
• VDLBの概要紹介・2015年度開催概要
• チューリング賞受賞記念講演
• VLDB 40周年記念パネル
• 10-year Best Paper Award
• Keynotes
2015/12/12 41
42.
40周年記念パネル
VLDBとデータベース業界の40年を語る
パネリスト
• Don Chamberlin, retired IBM Fellow
– データベース業界の40年前を振り返る
• Phil Bernstein, Microsoft Research
– VLDBの40年前を振り返る
• Michael Brodie, MIT, retired Chief Scientist Verizon IT
– VLDBの歩み
• Alfons Kemper, Technical University Munich
– 40年間の流行り廃り
• Michael Stonebraker, MIT and serial entrepreneur
• データベース業界のセレンディピティと苦言
2015/12/12 42
59.
講演前半
• VDLBの概要紹介・2015年度開催概要
• チューリング賞受賞記念講演
• VLDB 40周年記念パネル
• 10-year Best Paper Award
• Keynotes
2015/12/12 59
60.
10-year Best Paper Award
2015/12/12 60
C-Store: Looking back and looking forward
Mike Stonebraker, Daniel J. Abadi, Adam Batkin, Xuedong Chen,
Mitch Cherniack, Miguel Ferreira, Edmond Lau, Amerson Lin, Sam
Madden, Elizabeth O’Neil, Pat O’Neil, Alex Rasin, Nga Tran, and
Stan Zdonik
受賞理由
• 従前のカラム指向データベースが抱えていた多くの問題
を解決して、高性能で実用的な設計と実装を示した
• 商業的にも成功を収めたVerticaの土台となった
61.
D. Abadi said ...
• カラム毎にデータを保存するというアイディア自体は70年代
からあった
– SybaseIQ
– MonetDB (CWI)
– PAX (Wisconsin)
– Data morphing (Michigan)
– Clotho (CMU)
• C-Storeの特徴
– Hybrid Storage
– 圧縮
– Late Materialization
2015/12/12 61
C-Storeの最大の貢献は、システム全体としての
実用的な設計を示したこと
62.
Hybrid Storage Architecture
• 書き込みに弱いという問題を克服
2015/12/12 62
Image by courtesy of D. Abadi and M. Stonebraker
63.
圧縮
• 行指向にはないデータの局所性を活用
• 「不必要なカラムを読まない」以上のI/Oフットプリント削減
2015/12/12 63
Image by courtesy of D. Abadi and M. Stonebraker
64.
圧縮したままクエリ処理
2015/12/12 64
Image by courtesy of D. Abadi and M. Stonebraker
65.
Late Materialization
• カラム指向のオーバヘッドであるタプル再構成のオーバ
ヘッドを大幅に削減
• I/Oフットプリント削減による主記憶DB適用領域の拡大
2015/12/12 65
Image by courtesy of D. Abadi and M. Stonebraker
66.
M. Stonebraker said ...
2015/12/12 66
データウェアハウス市場を行指向からカラム指向
に完全にひっくり返したことがこの論文の重要性
Image by courtesy of D. Abadi and M. Stonebraker
68.
講演前半
• VDLBの概要紹介・2015年度開催概要
• チューリング賞受賞記念講演
• VLDB 40周年記念パネル
• 10-year Best Paper Award
• Keynotes
2015/12/12 68
69.
Keynotes
Engineering Database Hardware and Software Together
Juan Loaiza (SVP of Systems Technology at Oracle)
Databases and Hardware: The Beginning and Sequel of a
Beautiful Friendship
Anastasia Ailamaki (Prof. at EPFL)
Big Plateaus of Big Data on the Big Island
Todd Walter (Chief Technologist for Teradata)
Big Data Research: Will Industry Solve all the Problems?
Magdalena Balazinska (Assoc. Prof. at the Univ. of Washington)
2015/12/12 69
Day 1
Day 2
共通テーマで Industry + Academic follow-up という構成
70.
Keynotes
Engineering Database Hardware and Software Together
Juan Loaiza (SVP of Systems Technology at Oracle)
Databases and Hardware: The Beginning and Sequel of a
Beautiful Friendship
Anastasia Ailamaki (Prof. at EPFL)
Big Plateaus of Big Data on the Big Island
Todd Walter (Chief Technologist for Teradata)
Big Data Research: Will Industry Solve all the Problems?
Magdalena Balazinska (Assoc. Prof. at the Univ. of Washington)
2015/12/12 70
Day 1
Day 2
共通テーマで Industry + Academic という構成
71.
Keynotes
Engineering Database Hardware and Software Together
Juan Loaiza (SVP of Systems Technology at Oracle)
Databases and Hardware: The Beginning and Sequel of a
Beautiful Friendship
Anastasia Ailamaki (Prof. at EPFL)
Big Plateaus of Big Data on the Big Island
Todd Walter (Chief Technologist for Teradata)
Big Data Research: Will Industry Solve all the Problems?
Magdalena Balazinska (Assoc. Prof. at the Univ. of Washington)
2015/12/12 71
Day 1
Day 2
テーマ:ハードウェアとソフトウェアの関係
共通テーマで Industry + Academic という構成
72.
Databases and Hardware:
The Beginning and Sequel of a Beautiful Friendship
• Aspirin or Vitamin?
– ハードウェアの進歩 = 頭痛の種
• pipelining, ILP, SMT, multi-core,
heterogeneous H/W, ...
• ハードウェアの変化に振り回される
– 頭痛になってから鎮痛剤を飲むような
技術を作っていてはダメ
– 今だけでなく将来より強力なシステムを作る
ための技術こそが重要
2015/12/12 72
Anastasia Ailamaki (Prof. at EPFL)
74.
Engineering Database Hardware and
Software Together
• 内容はExadataの宣伝
– 話半分に聞くくらいが丁度
• ポイント
– Oracle = データベースのソフトウェアの会社
• データベースマシンを作っている
– ソフトウェア(サービス)のためにハード
ウェアを作って売る時代に
2015/12/12 74
Juan Loaiza (SVP of Systems Technology at Oracle)
75.
2015/12/12 75
Image by courtesy of Michael Brodie
76.
データベースマシン
• 70年代後半∼80年代初頭に盛り上がり
– “Specialized hardware supporting basic data
base management functions”
– 多数の論文や Britton-Lee, CAFS(ICL) 等の商業化
2015/12/12 76
IEEE Special Issue on Database Machine [‘81]
[Hsiao, ’79]
77.
ブームの終焉
“Database Machines, An Idea whose time has
Passed?” [Boral- DeWitt, ‘83]
2015/12/12 77
All failed. Why?
• these don't help much with sort,
join, etc.
• special-purpose hardware is a
losing proposition
• prohibitively expensive (no
economy of scale)
• slow to evolve
Lecture Notes @ Berkeley graduate course
[Hellerstein- Stonebraker]
We conclude that unless mechanisms for
increasing the bandwidth of mass
storage devices are found, highly
parallel database machine architectures
are doomed to extinction.
“Stonebraker’s Warning”
The history of DBMS research is littered
with innumerable proposals to construct
hardware database machines to provide
high performance operations. In general
these have been proposed by hardware
types with a clever solution in searchof a
problem on which it might work.
Readings in Database Systems (second edition), edited
by Michael Stonebraker
アーキテクチャ的
試行錯誤の時代
85.
後半:研究動向紹介
• 投稿論文の傾向
• システム系論文の動向
• 論文紹介
– Constructing an Interactive Natural Language
Interface for Relational Databases
– Resource Bricolage for Parallel Database
Systems
– Coordination Avoidance in Database Systems
2015/12/12 85
best paper
best paper
次点
注目
86.
投稿論文の傾向
2015/12/12 86
By courtesy of Volker Markl
87.
投稿論文の傾向 (cont.)
2015/12/12 87
Day 1
Day 2
Day 2
“Graph” sessions
“作り出した問題を解いている
研究がほとんど”
“問題自体の面白さがない”
やや不健全さを感じる多さ
88.
領域ごとの割合
2015/12/12 88
By courtesy of Volker Markl
Text, Semi-structured data,
and Data Types
Database Engines
Applications
Novel DB
Architectures
Information
Integration
Experiments
and Analysis
89.
主要な領域
2015/12/12 89
By courtesy of Volker Markl
90.
主に参加していたセッション
• データベースコア、システム系セッション
– Big Data Systems Analysis
– Caching and Indexing
– [Industrial] Big Data Systems
– [Industrial] Real-time and Interactive Analytics
– Novel Hardware Architectures
– Innovative Systems
– Query Processing
– Transaction Processing
2015/12/12 90
91.
システム系論文の動向
• Industryセッションが極めて活況
– 大体が満席 or 立ち見
• Researchはガラガラの場合もちらほら
– Peter Bailis のように注目度の高い人の時だけ
超満員なことも
2015/12/12 91
92.
システム系論文の動向
• ビッグデータ(分析系)、特にリアルタイム分析が流行
– マーケットの過熱が牽引?
– インメモリデータベース、OLTPとOLAPの融合などをDBベンダが中心となって競い合っ
ている印象
• JetScope: Reliable and Interactive Analytics at Cloud Scale (Microsoft)
• Towards Scalable Real-time Analytics: An Architecture for Scale-out of OLxP Workloads (SAP)
• Real-Time Analytical Processing with SQL Server (Microsoft)
• Distributed Architecture of Oracle Database In-memory (Oracle)
• In-Memory Performance for Big Data (HP Labs)
• 一時の流行感は落ち着いた Flash / NVM系
– NVRAM-aware Logging in Transaction Systems (Georgia Tech)
– REWIND: Recovery Write-Ahead System for In-Memory Non-Volatile Data-Structures
(University of Edinburgh)
– Persistent B+-Trees in Non-Volatile Main Memory (Chinese Academy of Sciences)
• インデックスやオプティマイザのように堅実な研究も一定数
– Indexing Highly Dynamic Hierarchical Data (TU München)
– BF-Tree: Approximate Tree Indexing (EPFL)
– Resource Bricolage for Parallel Database Systems (Google)
– Multi-Objective Parametric Query Optimization (EPFL)
– Uncertainty Aware Query Execution Time Prediction (University of Wisconsin-Madison)
– Join Size Estimation Subject to Filter Conditions (Oracle Labs)
2015/12/12 92
93.
論文紹介
• Best paper:
– Constructing an Interactive Natural Language
Interface for Relational Databases
Fei Li (University of Michigan), H V Jagadish (University of Michigan)
• Best paper 次点:
– Resource Bricolage for Parallel Database Systems
Jiexing Li (Google Inc), Jeffrey Naughton (University of Wisconsin-Madison),
Rimma Nehme (Microsoft Jim Gray Systems Lab)
• 注目の論文:
– Coordination Avoidance in Database Systems
Peter Bailis (UC Berkeley), Alan Fekete (University of Sydney), Michael
Franklin (UC Berkeley), Ali Ghodsi (UC Berkeley), Joseph Hellerstein (UC
Berkeley), Ion Stoica (UC Berkeley)
2015/12/12 93
94.
論文紹介
• Best paper:
– Constructing an Interactive Natural Language
Interface for Relational Databases
Fei Li (University of Michigan), H V Jagadish (University of Michigan)
• Best paper 次点:
– Resource Bricolage for Parallel Database Systems
Jiexing Li (Google Inc), Jeffrey Naughton (University of Wisconsin-Madison),
Rimma Nehme (Microsoft Jim Gray Systems Lab)
• 注目の論文:
– Coordination Avoidance in Database Systems
Peter Bailis (UC Berkeley), Alan Fekete (University of Sydney), Michael
Franklin (UC Berkeley), Ali Ghodsi (UC Berkeley), Joseph Hellerstein (UC
Berkeley), Ion Stoica (UC Berkeley)
2015/12/12 94
95.
Constructing an Interactive Natural
Language Interface for Relational Databases
Fei Li (University of Michigan)
H. V. Jagadish (University of Michigan)
2015/12/12 95
best paper
• 初心者でも簡単に関係データベースの複雑なクエリを構築
できるよう、自然言語のインターフェースを提案
• データベースの使い勝手を向上させ、新たな研究や製品の起
点となることが期待される
推薦理由
100.
NaLIRの枠組み
問合せのデータ表現
• 自然言語のセマンティクス:Parse Tree
– Parse Tree の段階的な変形でクエリの曖昧性を排除
– 各段階で繰り返しユーザに提示することで正しい解釈を選択
• DBのセマンティクス:Query Tree
2015/12/12 100
自然言語のセマンティクス DBのセマンティクス
Image by courtesy of F. Li et.al.
101.
Parse Tree
• 構文解析器から初期ツ
リーを生成
• Parse Tree Node Mapper
– Candidate Mapping: 各単
語を対応するSQL要素の
ノードとして対応付け
• SELECT
• 演算子 ( = , <=, +, ...)
• 関数 ( sum, count, ...)
• 名前 ( リレーション, 属性 )
• 値 ( 数値, 文字列, ... )
• 量化子 ( ALL, ANY, ... )
• 論理演算 (AND, OR, NOT)
2015/12/12 101
• Parse Tree Structure
Adjustor
– Parse Tree Reformulation:
複数の解釈の候補生成によ
る曖昧性の解消
– Implicit Node Insertion: 省
略語を補った候補生成によ
る曖昧性の解消
各段階の詳細は論文参照
Image by courtesy of F. Li et.al.
102.
Parse Tree ⇨ Query Tree
基本ブロック(単一のSELECTノード)
• 名前ノードから対象リレーション, 選択する属性を生成
• 値ノードからWHERE句の述語を生成
• FK-PKで接続されたリレーションから結合グラフ作りFROM句を生成
• 集約関数の関数ノードがあればGROUP BY句を生成
サブクエリ(ネストしたSELECTノード)
• Inner most な基本ブロックから順に変換
2015/12/12 102
論文でも大雑把な説明のみ
103.
評価実験
• MySQLに実装
– 構文解析器にはStanford Natural Language Parser を使用
• MS Academic Search (MAS) のデータを利用
– 実験用クエリ
• MASの単一ページ表示で達成可能なクエリ196個
– ○ “Database領域のカンファレンス数”
– × “各領域のそれぞれのカンファレンス数” (24ページの表示が必要)
• easy/normal/hard = (63/68/65個) の3段階の難易度に分類
– 被験者 (計14名)
• 第一群:対話機能を除外したNaLIRを使用
• 第二群:NaLIRを使用
• 第三群:MASを使用
– クエリを28個のタスクセットに分割してランダムに割当て
• 1個のクエリの制限時間は3分
• 英語のクエリ記述によるバイアスを避けるため、中国語でクエリを記
述し英語で問い合わせさせる
2015/12/12 103
MS Academic Search Dataset
by courtesy of F. Li et.al.
104.
実験結果
• いずれの難易度においても
– NaLIR > NaLIR (w/o 対話機能) > MAS
• 自然言語、及び対話機能による問合せの容易性向
上を確認
2015/12/12 104
Effectiveness: 正答クエリ数 / クエリ数
by courtesy of F. Li et.al.
105.
問合せ失敗の要因
• 対話機能により
– 単語 ⇨ SQL要素へのマッピング失敗を抑制
• 曖昧性解消
– Reformulation (解釈候補の生成、省略語の挿入) におけ
る失敗の低減
• 提示された Parse Tree をユーザが理解できていることの裏付け
2015/12/12 105
誤答の原因となったコンポーネント
by courtesy of F. Li et.al.
107.
論文紹介
• Best paper:
– Constructing an Interactive Natural Language
Interface for Relational Databases
Fei Li (University of Michigan), H V Jagadish (University of Michigan)
• Best paper 次点:
– Resource Bricolage for Parallel Database Systems
Jiexing Li (Google Inc), Jeffrey Naughton (University of Wisconsin-Madison),
Rimma Nehme (Microsoft Jim Gray Systems Lab)
• 注目の論文:
– Coordination Avoidance in Database Systems
Peter Bailis (UC Berkeley), Alan Fekete (University of Sydney), Michael
Franklin (UC Berkeley), Ali Ghodsi (UC Berkeley), Joseph Hellerstein (UC
Berkeley), Ion Stoica (UC Berkeley)
2015/12/12 107
108.
Resource Bricolage for
Parallel Database Systems
Jiexing Li (Google Inc)
Jeffrey Naughton (University of Wisconsin-Madison)
Rimma Nehme (Microsoft Jim Gray Systems Lab)
2015/12/12 108
best paper 次点
• ヘテロなデータベースクラスタにおける資源効率の最適化と
いう実世界の問題を解決している
• 線形計画へ帰着させることによりシンプルかつ実用的な手法
を提案し、SQL Server 上の実装で有効性を示している
• 今後多くの発展的な研究が生まれることが期待される
推薦理由
109.
並列データベースシステムの問題
• ヘテロな環境は無視されてきたが...
– クラウドでは同じ種類のインスタンスでも性能に大きなば
らつき [INFOCOM10][VLDB10][SoCC12]
– 大規模になるほどヘテロ環境は不可避に
• パーティショニング方法により
クエリ処理性能に大きな差
• 良いパーティショニング方法の
決定は容易ではない
– マシンの“速さ” は処理特性依存
– 異なるワークロードの混合
2015/12/12 109
By courtesy of J. Li et.al.
112.
ワークロードの定式化 (cont.)
ワークロード全体でh個のステップ
クラスタ全体でnノード
2015/12/12 112
定義
前提
ノード Mi 単独でステップ Sj
を実行したときの実行時間
各ノード Mi に割り当てる
パーティションサイズ
ノードMi が割当てられたデータ処理に要する時間は
ステップの実行時間 = 最も遅いノードの実行時間
とりあえず予測できるものとしておく
By courtesy of J. Li et.al.
124.
論文紹介
• Best paper:
– Constructing an Interactive Natural Language
Interface for Relational Databases
Fei Li (University of Michigan), H V Jagadish (University of Michigan)
• Best paper 次点:
– Resource Bricolage for Parallel Database Systems
Jiexing Li (Google Inc), Jeffrey Naughton (University of Wisconsin-Madison),
Rimma Nehme (Microsoft Jim Gray Systems Lab)
• 注目の論文:
– Coordination Avoidance in Database Systems
Peter Bailis (UC Berkeley), Alan Fekete (University of Sydney), Michael
Franklin (UC Berkeley), Ali Ghodsi (UC Berkeley), Joseph Hellerstein (UC
Berkeley), Ion Stoica (UC Berkeley)
2015/12/12 124
125.
Coordination Avoidance in Database
Systems
Peter Bailis (UC Berkeley)
Alan Fekete (University of Sydney)
Michael Franklin (UC Berkeley)
Ali Ghodsi (UC Berkeley)
Joseph Hellerstein (UC Berkeley)
Ion Stoica (UC Berkeley)
2015/12/12 125
注目の論文