2002-11-05 ACM SIGMOD 日本支部第 24 回大会
VLDB2002VLDB2002
国際会議報告国際会議報告
国島丈生
岡山県立大学
kunishi@c.oka-pu.ac.jp
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
第 1 部
概要
基調講演
10 Years Award
パネル
一般講演(1)
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
VLDB2002
 第 28 回大規模データベースに関する国際会
議
 VLDB Endowment ( http://www.vldb.org)主催
 2002-08-20 ~ 23, 香港・ Kowloon Shangri-
la Hotel
 ホームページ
 http://www.cs.ust.hk/vldb2002/
 会議プログラムや全予稿がダウンロード可能
 参加者数 320 名
 アメリカ 98, 欧州 67, アジア 127 など
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
Kowloon Shangri-la Hotel
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
会議の概要
 基調講演:2、パネル:3
 セッション:21、 Industrial セッション:8
 チュートリアル:7、デモンストレーション:17
 併設ワークショップ
 第 1 回 XML ツール・技術の効率と有用性に関する VLDB
ワークショップ( EEXTT2002 )
 第 3 回 E- サービスのための技術に関する VLDB ワークシ
ョップ( TES’02 )
 第 2 回協調インターネットコンピューティングに関する国
際ワークショップ( CIC 2002 )
 第 1 回 Web ベースの学習に関する国際会議( ICWL
2002 )
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
採択論文数
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
地域別採択率
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
地域別投稿数の推移
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
基調講演
 Data Routing Rather than Databases: The Meaning
of the Next Wave of the Web Revolution to Data
Management
 A. Bosworth, BEA Systems, USA
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
基調講演
 Foundation Matters
 C. J. Date, Independent
Consultant, USA
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
Database Manifesto
 The object-oriented database manifesto (Malcom
Atkinson et. Al., 1989)
 “Essentially ignores the relational model”
 Third-Generation Database System Manifesto
(M. Stonebraker., ed., 1990)
 “Agrees that the relational model must not be
discarded… but fails to face up to the hopelessness of
continuing to build on SQL.”
 “The Third Manifesto” (C.J.Date, 2000)
 http://www.thirdmanifesto.com/
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
Back to the future
 SQL ≠ 関係モデル
 関係モデルがすべての基本
 オブジェクト指向の特徴も(拡張することなく)
関係モデルで説明できる
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
10-year Best Paper Award
 10 年前の VLDB 採択論文のうち、後の研究
にもっとも影響を与えたもの
 Querying in Highly Mobile Distributed
Environments
 T. Imielinski and B. R. Badrinath
 Performance Evaluation of an Adaptive and
Robust Load Control Method for the
Avoidance of Data Contention Thrashing
 A. Moenkeberg and G. Weikum
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
[Imielinski and Badrinath 92]
 移動体端末からのデータベース問合せ
 常に完全な位置情報を管理しようとするとネット
ワークトラフィックが増大→完全な位置情報は持
たない
 位置情報の更新
 Inter-zone (移動頻度小)と intra-zone (移動頻度
大)
 Inter-zone での移動のみ更新
 移動体の正確な位置は管理しない
 位置情報に関連する問合せ処理
 質問によって、どの程度正確な位置情報を取得するか
が変わる
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
[Imielinski and Nath 2002]
 移動体インターネット技術は夢物語から現実
へ
 現在の技術
 3G (GPRS) ネットワーク
 GPS
 データを蓄積できる携帯端末
 現在の技術を使ってどんなデータ管理ができ
るか?→ Dataspace [Imielinski etc. 2000]
 移動体端末による “ digitally enabled physical
space”
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
Dataspace
 現実世界から得られるセ
ンシングデータを移動体
技術を使って統合
 基盤技術
 ネットワーク層でのイン
デクシング
 shared multicast tree
 サービスの質に関する尺
度
 observability
 awareness
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
[Moenkeberg and Weikum 92]
 並行実行できるトランザクションの最大数( DMP)
 大きすぎると thrashing が発生し性能低下 (data contention)
 小さすぎると実行待ちが多く発生し性能低下
 敏感なパラメータ、チューンアップが難しい
 本論文の提案
 DMP を自動的かつ動的にチューンする手法
 トランザクションの性質(長さなど)に関する知識を必要
としない
 トランザクションの長さを予測することにより更なる性能
向上
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
[Moenkeberg and Weikum 92]
 Conflict ratio = (全トランザクションの持つロック総数 / 現
在アクティブなトランザクションの持つロック総数)
 Conflict ratio > 1.3 のとき data contention thrashing
 トランザクションの長さを予測することで conflict ratio を補正
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
後の研究に与えた影響
 自動チューニングの進歩
 データベースのパラメータが整理され、性能向上
に大きく影響するものだけがチューンできるよう
になった
 パラメータのデフォルト値の質の向上、自動調整
 自動チューニングの研究分野の確立
 Disk storage level, index selection などで成果
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
一般講演の傾向
 …採択論文 69 件
 XML…16 件
 VLDB2000 は 2 件、 VLDB2001 は 9 件
 専門セッションは 2 、あちこちのセッションに分
散
 Industrial Paper は 2 件+ α
 …データマイニング 11 件+ α ( 3 セッショ
ン)
 …ストリームデータ処理 8 件+ α
 Web …データ処理 7 件+ α
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML 関連講演の傾向
 XML データに関する質問最適化・高速化… 9
件
 XPath ・ XQuery …に関する処理の最適化 8 件
 VLDB2001 は 0 件(質問処理は 4 件)
 XML …データに対するインデックス 3 件
 …セキュリティ 2 件( VLDB2001 は 0 件)
 参考: W3C の動向
 XQuery の first working draft …発表 2001 年 6 月
 XML Encryption の first working draft …発表 2001
年 6 月
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML 質問処理
Optimizing View Queries in ROLEX to Support
Navigable Result Trees
P. Bohannon et. al. (Lucent Technologies)
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
従来の XML ミドルウェアシス
テム
 問合せの結果をいったんファイルに保存し、アプリ
ケーション側でパースしなければならない→コスト
高
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
ROLEX システム
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
本論文の提案
 ROLEX システムの概要
 ROLEX における質問実行機構、および質問
最適化機能
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
Schema Tree Query
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
AND-OR DAG: ROLEX の質問
最適化機能
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML インデックス
RE-Tree: An Efficient Index Structure for
Regular Expressions
C.-Y. Chan, M. Garofalakis, and R. Rastogi (Bell
Labs, Lucent Technologies)
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML における正則表現の重要
性
 正則表現(のサブセット・拡張)になってい
る規格が多い ( DTD, XPath, … )
 これまでの正則表現の使われ方
 シンボル列が与えられた正則表現に含まれるか?
 XML 文書の妥当性検証
 XPath による XML 文書検索応用
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
動機
 応用例
 XML フィルタリング
 プロファイルを XPath で記述し、該当する文書・要素の
みフィルタリング
 処理したい文書が与えられると、それにマッチするプロ
ファイルを検索し、処理を行いたい
 XML の分類
 文書スキーマの明示されていない文書に対し、既知の文書
スキーマデータベースからスキーマを検索
 シンボル列が与えられると、あらかじめ蓄積されて
いる正則表現集合から与えられた列を含むものを取
得したい(正則表現データベース?)
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
本論文の提案
 RE-tree
 与えられた入力文字列を含む正則表現集合を高速
に検索するためのインデックス構造
 R-tree などと類似したデータ構造
 RE-tree 処理のための概念・アルゴリズム
 正則表現の大小関係とその決定アルゴリズム
 木のノードの分割など
 いくつかは NP 困難→サンプルを用いた近似解法
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
RE-tree
 Dynamic, height-balanced hierarchical index structure
 葉: ( 正則表現の ID, 対応する非決定性有限オートマトン )
 内部ノード : ( 境界オートマトン M, ptr)
 M: 子のノードの FA を包含する状態数 α 以下の FA
 ptr: 次のレベルのノードへのポインタ
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
RE-tree に対する操作
 新しい RE を挿入するのに最適なノードを選
択 (ChooseBestFA)
 ノード N 中の FA Mi から |L(Mi) L(M)| - |L(Mi)|∪
が最小となるものを見つける
 最適なノード分割の計算 (SplitFA)
 M={M1, M2, …, Mk} の disjoint な部分集合 M1,
M2 で |M1| >= m, |M2| >= m, |L(M1)| + |L(M2)|
が最小
 最適な汎化オートマトンの計算
(GeneralizeFA)
 FA 集合 M に対し、 |M| <= α, L(M) L(M), |L(M)|⊆
が最小となる M を求める
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
正則表現に起因する問題
 L(M) は無限集合→ |L(M)| が計算できない
 同等の新たな尺度が必要
 準備
 Counting |Ln(M)|
 M によって受理される長さ n の文字列数
 DFA で O(n|M| min{|Σ|, |M|}), NFA で O(n^2 |M|^2
min{|Σ|, |M|}) で計算可能
 Sampling
 Ln(M) のランダムサンプルを効率的に作成するアルゴ
リズム
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
正則言語の大きさ |L(M)|
 L(Mi) が L(Mj) より大きい
 Exists N s.t. for all k >= N
Σ 1<=l<=k |Ll(Mi)| > Σ 1<=l<=k |Ll(Mj)|
 N をどうやって定めるか?
 Max-Count Measure
 Minimum Description Length (MDL) Based
Measure
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
汎化オートマトンの計算例
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
実験
 同種の研究がないので
通常のファイルによる
実装と比較
 ランダムで RE と質問
を生成
 ファイルによる実装よ
り数倍高速
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
VLDB2002VLDB2002
国際会議報告国際会議報告
国島丈生
岡山県立大学
kunishi@c.oka-pu.ac.jp
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
第 2 部
一般講演(2)
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML 質問処理最適化(1)
Efficient Algorithms for Processing XPath
Queries
G. Gottlob, C. Koch, and R. Pichler (Tech. Univ.
Wien)
 XPath プロセッサ (Apache Xalan, XT, MSXML
(IE6)) の性能評価
 問合せによっては指数時間かかってしまう
 効率的な XPath 評価アルゴリズムの提案
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XPath プロセッサの性能評価
 対象 XML 文書
 <a><b/>…<b/></a>
 XPath
 //a/b/parent::a/b/parent::a/b
 結果
 Xalan, XT では問合せのサ
イズに対して指数時間かか
る
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XPath プロセッサの性能評価
 対象 XML 文書
 <a><b/>…<b/></a>
 XPath 問合せ
 //a/b[count(parent::a/b)>1]
 //a/b[count(parent::a/b[cou
nt(parent::a/b)>1])>1]
 結果
 Xalan, XT, IE6(MSXML)
のいずれでも、問合せの
サイズに対して指数時間
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
提案手法
 XPath を(データサイズ、問合せサイズに
対して)多項式時間で評価する主記憶アルゴ
リズムの提案
 XPath のサブセット( Core XPath )を線形
時間で評価するアルゴリズムの提案
 Core XPath に対しても Xalan, XT は指数時間、
MSXML はデータサイズの 4 乗かかることがある
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML 質問処理最適化(2)
A Transducer-Based XML Query Processor
B. Ludascher, P. Mukhopadhyay, and
Y.Papakonstantinou (Univ. California San Diego)
XML ストリームに対する XQuery 適用の高速化手法
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML とストリーミング
 現在のところ、 XML の最も重要な用途のひ
とつはデータ交換
 さまざまなシステム間のデータ交換
 Web サービス (SOAP, etc.)
 もともと XML は物理的にはバイト列(テキ
ストストリーム)
 XML をストリームデータとして処理できれ
ば、処理の効率化が期待できる
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML の代表的 API
 SAX (Simple API for XML)
 イベントベース
 Start tag, end tag などが現れるたびにイベントを発
生
 ストリームデータに適する
 複雑な処理はしにくい
 DOM (Document Object Model)
 主記憶上に XML に対応する木を作成
 木の巡航により複雑な操作が可能
 文書をすべて読み込んでからしか使えない→スト
リームデータには適さない
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XPath, XQuery
 XML に対応する木をデータモデルとする
 XPath … 木の根からのパス集合を表現する
式
 意味論は木の根からの巡航により定義
 XQuery … XPath による木の節集合の定義と
それらに対する集合論的・手続き的操作
 いずれも、元々の意味論をそのまま実装した
のではストリームデータ処理には向かない
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
本論文の提案
 XML ストリームに対して XQuery を高速に適
用する手法の提案
 XSM (XML Stream Machine)
 ストリームデータに対する状態機械
 XQuery を XSM ネットワークにコンパイルした
後、最適化、プログラムコードに変換
 従来の XSLT プロセッサに比べて数倍 (Java)
ないし数十倍( C )の高速化
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XSM (XML Stream Machine)
 4 つ組 (Q, q0, B, T)
 Q: 状態集合、 q0:  初期状態、 B: バッファ集合、 T: 遷
…移集合   内部的には状態機械
 作業用バッファ(記憶)、 XSM 同士の通信用バッファ
(入力、出力)
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XQuery から XSM への変換
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XSM ネットワークの合成
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XSM の最適化
 Lockstep optimization
 不要な遷移枝・条件判定を削除
 Schema-based optimization
 XML 文書スキーマに基づき、起こりえない遷移
枝・条件判定を削除
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
実験結果
 Xeon 2.2GHz, 1GB RAM
 DBLP データベース (80MB) に対して適用
2002-11-05 ACM SIGMOD 日本支部第
24 回大会
XML 問合せに関するまとめ
 XPath, XQuery 中心になるだろう
 W3C のさまざまな仕様でも XPath が参照されている
 言語仕様→実装→最適化、高速化
 ただし
 XPath, XQuery の意味論は小規模テキスト文書・データ
ベースを想定(明記はしていないが)
 大規模データベースやストリームデータでの効率的処理に
は課題が多い
 更新処理?
 XML 文書スキーマとデータベース技術の融合?
 (文書スキーマと同様)独自仕様が現れる可能性もあるか
も

Vldb2002 report-200210231500

  • 1.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 VLDB2002VLDB2002 国際会議報告国際会議報告 国島丈生 岡山県立大学 kunishi@c.oka-pu.ac.jp
  • 2.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 第 1 部 概要 基調講演 10 Years Award パネル 一般講演(1)
  • 3.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 VLDB2002  第 28 回大規模データベースに関する国際会 議  VLDB Endowment ( http://www.vldb.org)主催  2002-08-20 ~ 23, 香港・ Kowloon Shangri- la Hotel  ホームページ  http://www.cs.ust.hk/vldb2002/  会議プログラムや全予稿がダウンロード可能  参加者数 320 名  アメリカ 98, 欧州 67, アジア 127 など
  • 4.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 Kowloon Shangri-la Hotel
  • 5.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 会議の概要  基調講演:2、パネル:3  セッション:21、 Industrial セッション:8  チュートリアル:7、デモンストレーション:17  併設ワークショップ  第 1 回 XML ツール・技術の効率と有用性に関する VLDB ワークショップ( EEXTT2002 )  第 3 回 E- サービスのための技術に関する VLDB ワークシ ョップ( TES’02 )  第 2 回協調インターネットコンピューティングに関する国 際ワークショップ( CIC 2002 )  第 1 回 Web ベースの学習に関する国際会議( ICWL 2002 )
  • 6.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 採択論文数
  • 7.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 地域別採択率
  • 8.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 地域別投稿数の推移
  • 9.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 基調講演  Data Routing Rather than Databases: The Meaning of the Next Wave of the Web Revolution to Data Management  A. Bosworth, BEA Systems, USA
  • 10.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 基調講演  Foundation Matters  C. J. Date, Independent Consultant, USA
  • 11.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 Database Manifesto  The object-oriented database manifesto (Malcom Atkinson et. Al., 1989)  “Essentially ignores the relational model”  Third-Generation Database System Manifesto (M. Stonebraker., ed., 1990)  “Agrees that the relational model must not be discarded… but fails to face up to the hopelessness of continuing to build on SQL.”  “The Third Manifesto” (C.J.Date, 2000)  http://www.thirdmanifesto.com/
  • 12.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 Back to the future  SQL ≠ 関係モデル  関係モデルがすべての基本  オブジェクト指向の特徴も(拡張することなく) 関係モデルで説明できる
  • 13.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 10-year Best Paper Award  10 年前の VLDB 採択論文のうち、後の研究 にもっとも影響を与えたもの  Querying in Highly Mobile Distributed Environments  T. Imielinski and B. R. Badrinath  Performance Evaluation of an Adaptive and Robust Load Control Method for the Avoidance of Data Contention Thrashing  A. Moenkeberg and G. Weikum
  • 14.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 [Imielinski and Badrinath 92]  移動体端末からのデータベース問合せ  常に完全な位置情報を管理しようとするとネット ワークトラフィックが増大→完全な位置情報は持 たない  位置情報の更新  Inter-zone (移動頻度小)と intra-zone (移動頻度 大)  Inter-zone での移動のみ更新  移動体の正確な位置は管理しない  位置情報に関連する問合せ処理  質問によって、どの程度正確な位置情報を取得するか が変わる
  • 15.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 [Imielinski and Nath 2002]  移動体インターネット技術は夢物語から現実 へ  現在の技術  3G (GPRS) ネットワーク  GPS  データを蓄積できる携帯端末  現在の技術を使ってどんなデータ管理ができ るか?→ Dataspace [Imielinski etc. 2000]  移動体端末による “ digitally enabled physical space”
  • 16.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 Dataspace  現実世界から得られるセ ンシングデータを移動体 技術を使って統合  基盤技術  ネットワーク層でのイン デクシング  shared multicast tree  サービスの質に関する尺 度  observability  awareness
  • 17.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 [Moenkeberg and Weikum 92]  並行実行できるトランザクションの最大数( DMP)  大きすぎると thrashing が発生し性能低下 (data contention)  小さすぎると実行待ちが多く発生し性能低下  敏感なパラメータ、チューンアップが難しい  本論文の提案  DMP を自動的かつ動的にチューンする手法  トランザクションの性質(長さなど)に関する知識を必要 としない  トランザクションの長さを予測することにより更なる性能 向上
  • 18.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 [Moenkeberg and Weikum 92]  Conflict ratio = (全トランザクションの持つロック総数 / 現 在アクティブなトランザクションの持つロック総数)  Conflict ratio > 1.3 のとき data contention thrashing  トランザクションの長さを予測することで conflict ratio を補正
  • 19.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 後の研究に与えた影響  自動チューニングの進歩  データベースのパラメータが整理され、性能向上 に大きく影響するものだけがチューンできるよう になった  パラメータのデフォルト値の質の向上、自動調整  自動チューニングの研究分野の確立  Disk storage level, index selection などで成果
  • 20.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 一般講演の傾向  …採択論文 69 件  XML…16 件  VLDB2000 は 2 件、 VLDB2001 は 9 件  専門セッションは 2 、あちこちのセッションに分 散  Industrial Paper は 2 件+ α  …データマイニング 11 件+ α ( 3 セッショ ン)  …ストリームデータ処理 8 件+ α  Web …データ処理 7 件+ α
  • 21.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML 関連講演の傾向  XML データに関する質問最適化・高速化… 9 件  XPath ・ XQuery …に関する処理の最適化 8 件  VLDB2001 は 0 件(質問処理は 4 件)  XML …データに対するインデックス 3 件  …セキュリティ 2 件( VLDB2001 は 0 件)  参考: W3C の動向  XQuery の first working draft …発表 2001 年 6 月  XML Encryption の first working draft …発表 2001 年 6 月
  • 22.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML 質問処理 Optimizing View Queries in ROLEX to Support Navigable Result Trees P. Bohannon et. al. (Lucent Technologies)
  • 23.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 従来の XML ミドルウェアシス テム  問合せの結果をいったんファイルに保存し、アプリ ケーション側でパースしなければならない→コスト 高
  • 24.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 ROLEX システム
  • 25.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 本論文の提案  ROLEX システムの概要  ROLEX における質問実行機構、および質問 最適化機能
  • 26.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 Schema Tree Query
  • 27.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 AND-OR DAG: ROLEX の質問 最適化機能
  • 28.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML インデックス RE-Tree: An Efficient Index Structure for Regular Expressions C.-Y. Chan, M. Garofalakis, and R. Rastogi (Bell Labs, Lucent Technologies)
  • 29.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML における正則表現の重要 性  正則表現(のサブセット・拡張)になってい る規格が多い ( DTD, XPath, … )  これまでの正則表現の使われ方  シンボル列が与えられた正則表現に含まれるか?  XML 文書の妥当性検証  XPath による XML 文書検索応用
  • 30.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 動機  応用例  XML フィルタリング  プロファイルを XPath で記述し、該当する文書・要素の みフィルタリング  処理したい文書が与えられると、それにマッチするプロ ファイルを検索し、処理を行いたい  XML の分類  文書スキーマの明示されていない文書に対し、既知の文書 スキーマデータベースからスキーマを検索  シンボル列が与えられると、あらかじめ蓄積されて いる正則表現集合から与えられた列を含むものを取 得したい(正則表現データベース?)
  • 31.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 本論文の提案  RE-tree  与えられた入力文字列を含む正則表現集合を高速 に検索するためのインデックス構造  R-tree などと類似したデータ構造  RE-tree 処理のための概念・アルゴリズム  正則表現の大小関係とその決定アルゴリズム  木のノードの分割など  いくつかは NP 困難→サンプルを用いた近似解法
  • 32.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 RE-tree  Dynamic, height-balanced hierarchical index structure  葉: ( 正則表現の ID, 対応する非決定性有限オートマトン )  内部ノード : ( 境界オートマトン M, ptr)  M: 子のノードの FA を包含する状態数 α 以下の FA  ptr: 次のレベルのノードへのポインタ
  • 33.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 RE-tree に対する操作  新しい RE を挿入するのに最適なノードを選 択 (ChooseBestFA)  ノード N 中の FA Mi から |L(Mi) L(M)| - |L(Mi)|∪ が最小となるものを見つける  最適なノード分割の計算 (SplitFA)  M={M1, M2, …, Mk} の disjoint な部分集合 M1, M2 で |M1| >= m, |M2| >= m, |L(M1)| + |L(M2)| が最小  最適な汎化オートマトンの計算 (GeneralizeFA)  FA 集合 M に対し、 |M| <= α, L(M) L(M), |L(M)|⊆ が最小となる M を求める
  • 34.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 正則表現に起因する問題  L(M) は無限集合→ |L(M)| が計算できない  同等の新たな尺度が必要  準備  Counting |Ln(M)|  M によって受理される長さ n の文字列数  DFA で O(n|M| min{|Σ|, |M|}), NFA で O(n^2 |M|^2 min{|Σ|, |M|}) で計算可能  Sampling  Ln(M) のランダムサンプルを効率的に作成するアルゴ リズム
  • 35.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 正則言語の大きさ |L(M)|  L(Mi) が L(Mj) より大きい  Exists N s.t. for all k >= N Σ 1<=l<=k |Ll(Mi)| > Σ 1<=l<=k |Ll(Mj)|  N をどうやって定めるか?  Max-Count Measure  Minimum Description Length (MDL) Based Measure
  • 36.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 汎化オートマトンの計算例
  • 37.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 実験  同種の研究がないので 通常のファイルによる 実装と比較  ランダムで RE と質問 を生成  ファイルによる実装よ り数倍高速
  • 38.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 VLDB2002VLDB2002 国際会議報告国際会議報告 国島丈生 岡山県立大学 kunishi@c.oka-pu.ac.jp
  • 39.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 第 2 部 一般講演(2)
  • 40.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML 質問処理最適化(1) Efficient Algorithms for Processing XPath Queries G. Gottlob, C. Koch, and R. Pichler (Tech. Univ. Wien)  XPath プロセッサ (Apache Xalan, XT, MSXML (IE6)) の性能評価  問合せによっては指数時間かかってしまう  効率的な XPath 評価アルゴリズムの提案
  • 41.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XPath プロセッサの性能評価  対象 XML 文書  <a><b/>…<b/></a>  XPath  //a/b/parent::a/b/parent::a/b  結果  Xalan, XT では問合せのサ イズに対して指数時間かか る
  • 42.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XPath プロセッサの性能評価  対象 XML 文書  <a><b/>…<b/></a>  XPath 問合せ  //a/b[count(parent::a/b)>1]  //a/b[count(parent::a/b[cou nt(parent::a/b)>1])>1]  結果  Xalan, XT, IE6(MSXML) のいずれでも、問合せの サイズに対して指数時間
  • 43.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 提案手法  XPath を(データサイズ、問合せサイズに 対して)多項式時間で評価する主記憶アルゴ リズムの提案  XPath のサブセット( Core XPath )を線形 時間で評価するアルゴリズムの提案  Core XPath に対しても Xalan, XT は指数時間、 MSXML はデータサイズの 4 乗かかることがある
  • 44.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML 質問処理最適化(2) A Transducer-Based XML Query Processor B. Ludascher, P. Mukhopadhyay, and Y.Papakonstantinou (Univ. California San Diego) XML ストリームに対する XQuery 適用の高速化手法
  • 45.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML とストリーミング  現在のところ、 XML の最も重要な用途のひ とつはデータ交換  さまざまなシステム間のデータ交換  Web サービス (SOAP, etc.)  もともと XML は物理的にはバイト列(テキ ストストリーム)  XML をストリームデータとして処理できれ ば、処理の効率化が期待できる
  • 46.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML の代表的 API  SAX (Simple API for XML)  イベントベース  Start tag, end tag などが現れるたびにイベントを発 生  ストリームデータに適する  複雑な処理はしにくい  DOM (Document Object Model)  主記憶上に XML に対応する木を作成  木の巡航により複雑な操作が可能  文書をすべて読み込んでからしか使えない→スト リームデータには適さない
  • 47.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XPath, XQuery  XML に対応する木をデータモデルとする  XPath … 木の根からのパス集合を表現する 式  意味論は木の根からの巡航により定義  XQuery … XPath による木の節集合の定義と それらに対する集合論的・手続き的操作  いずれも、元々の意味論をそのまま実装した のではストリームデータ処理には向かない
  • 48.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 本論文の提案  XML ストリームに対して XQuery を高速に適 用する手法の提案  XSM (XML Stream Machine)  ストリームデータに対する状態機械  XQuery を XSM ネットワークにコンパイルした 後、最適化、プログラムコードに変換  従来の XSLT プロセッサに比べて数倍 (Java) ないし数十倍( C )の高速化
  • 49.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XSM (XML Stream Machine)  4 つ組 (Q, q0, B, T)  Q: 状態集合、 q0:  初期状態、 B: バッファ集合、 T: 遷 …移集合   内部的には状態機械  作業用バッファ(記憶)、 XSM 同士の通信用バッファ (入力、出力)
  • 50.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XQuery から XSM への変換
  • 51.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XSM ネットワークの合成
  • 52.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XSM の最適化  Lockstep optimization  不要な遷移枝・条件判定を削除  Schema-based optimization  XML 文書スキーマに基づき、起こりえない遷移 枝・条件判定を削除
  • 53.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 実験結果  Xeon 2.2GHz, 1GB RAM  DBLP データベース (80MB) に対して適用
  • 54.
    2002-11-05 ACM SIGMOD日本支部第 24 回大会 XML 問合せに関するまとめ  XPath, XQuery 中心になるだろう  W3C のさまざまな仕様でも XPath が参照されている  言語仕様→実装→最適化、高速化  ただし  XPath, XQuery の意味論は小規模テキスト文書・データ ベースを想定(明記はしていないが)  大規模データベースやストリームデータでの効率的処理に は課題が多い  更新処理?  XML 文書スキーマとデータベース技術の融合?  (文書スキーマと同様)独自仕様が現れる可能性もあるか も