Your SlideShare is downloading. ×
PARIS at SWIM seminar
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

PARIS at SWIM seminar

406
views

Published on

A paper introduction of "Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart: PARIS: Probabilistic Alignment of Relations, Instances, and Schema. PVLDB 5(3): 157-168 (2011)" at SWIM seminar.

A paper introduction of "Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart: PARIS: Probabilistic Alignment of Relations, Instances, and Schema. PVLDB 5(3): 157-168 (2011)" at SWIM seminar.

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
406
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. PARIS: Probabilistic Alignment of Relations, Instances, and Schema Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart. PVLDB Vol. 5, No. 3, 2011. SWIM Seminar 10th/Sept. 2013. Hiroyuki Inoue
  • 2.  概要  背景  関連研究  前提知識(Preliminary)  提案手法  評価実験,評価  まとめ Outline
  • 3.  PARIS を提案  “Probabilistic Alignment of Relations, Instances, and Schema”  既存の手法は下記のどちらか一方に集中  インスタンス マッチング  スキーマ(クラス,プロパティ)アライメント  PARIS は上記二つを同時に行うアルゴリズム  確率モデルを採用  インスタンスマッチング,アライメントの情報を相互に利用  パラメータチューニング,トレーニングデータを必要としない  実世界の巨大なオントロジに適用して,90%前後の再現率を得た 概要(1/2)
  • 4.  ゴール: オントロジの統合  2つのオントロジがあるとき,以下を識別(特定)する  等価なインスタンス(sameAs)  等価な,もしくは包含するクラス (subClassOf)  等価な,もしくは包含する関係(subPropertyOf) 概要(2/2) オントロジA KDEpedia(オントロジB) a:HiroyukiInoue Kde:inohiro sameAs 人間 学生 type type クラス インスタンス subClassOf “1989-02-20” 生年月日 “1989” 生まれた年 subPropertyOf リテラル イベント係 係 Twitter @inohiro “井上 寛之” “井上 寛之” rdf:label rdf:label
  • 5.  独立したオントロジとそれに基づくデータの増加  Wikipedia をベースとした,多目的のオントロジ  DBpedia, YAGO, KnowItAll, WikiTaxonomy  freebase.com, trueknowledge.com, walframalpha.com (商用)  個々の領域におけるオントロジ  音楽,映画,地理,出版,医学,生物学,政府(公共機関)  基本的には他のオントロジを考慮せずに構築される  オントロジの統合と相互利用  オントロジ間の接続によって,全般的に利用可能な知識を構築  セマンティック ウェブの一つのゴール  データの相互利用(Linked Data)へつながる 背景(1/2)
  • 6.  数多くの研究が行われている  エンティティ レゾリューション[1, 4, 12, 17, 18, 25, 27, 28, 31]  スキーマ アライメント [3, 14, 20, 21, 34]  しかし,近年オントロジはダイナミックに変化している  リッチなスキーマ構造,膨大な数のインスタンス・属性  スキーマとインスタンスの双方を豊かにする手法が必要  本研究では,どちらか一方ではなく,双方の情報を相互に利用  大規模な複数のオントロジ間において,一致するエンティティの発 見と接続(リンク)を自動で行い,対象オントロジの補完を目指す 背景(2/2)
  • 7.  1)PARISを提案  確率論的アルゴリズム  異なるオントロジ間のインスタンス,クラス,関係を 一斉にアライメント  2)アルゴリズムがどれだけ効率的に,チューニング 無しで実現するのかを示す  3)現実のオントロジを用いて評価を行った 本論文での貢献
  • 8.  概要  オントロジマッチングは,本質的には重複したエンティティの発見  Identifying duplicate entities, Record linkage,  Duplicate detection, Co-reference resolution  DBやNLPの領域で研究されているが[7,9],オントロジには適用不可  1)オントロジの持つセマンティクスを考慮しない  タキソノミが持つ階層構造(rdfs:subClassOfなどで記述される)など  2)インスタンスのみに着目(スキーマ等は考慮していない)  オントロジにおける record linking に関する研究  全般的な問題の概要,same-As リンクに関する問題 [15]  same-As リンクに関する分析 [8]  セマンティックウェブにおける co-reference の管理 [13] 関連研究(1/3)
  • 9.  スキーマ アライメント (クラス間のマッチング) [14,12,3]  sense clustering[14], lexical and structural characteristics[12], composite approach[3]  一方,PARIS はインスタンス間のマッチングも考慮する  インスタンスの類似度から,クラス間の類似度を推定する [20,34]  PARIS に最も類似した手法  クラスに着目するが,subClass や property について取り扱わない  インスタンス マッチング [25, 27, 1, 4, 28]  本手法で用いる functionality の概念を提案 [17]  マッチングルールを明示する手法 [33], トレーニングデータからマッチングを学習する ObjectCoref [18]  PARIS はマッチングルール,トレーニングデータを必要としない  クラス間の類似度計算にインスタンスを用いる (実験なし) [16] 関連研究(2/3)
  • 10.  全体観的な(Holistic)アプローチ  スキーマとインスタンスのアライメントを同時に行う手法  二つ存在するが両方とも小さいオントロジでしかテストされていない  RiMOM [22]  クラス間のアライメントを行う(subClass の関係は見つけられない)  ヒューリスティクスもしくは,戦略的な手法から選択して実行する  一方,PARISはモノリシック(一貫した設計)  ILIADS [32]  プロパティが十分にあるオントロジでテストされていない  一方,PARISは100万インスタンスレベルの実世界オントロジで 良い性能を示した 関連研究(3/3)
  • 11.  オントロジ  RDFS(RDF Schema)で記述されるオントロジを想定  O : Ontology, オントロジ  R : Resource, 実世界におけるモノ  L : Literal, リテラル値(文字列,数字,時刻,…)  P : Property (Relation)  resource-resource,resource-literal 間の関係を述べる(二値,binary)  関係 r(relation)  „x‟, „y‟ は関係 r の引数(argument),ペア  逆関係 r-1 (inverse)  クラス c (class)  クラスとインスタンス  クラスとインスタンスの関係 前提知識(1/5)
  • 12.  オントロジ  サブクラス subClass  クラス間の主従関係  推移する(transitive)  例: „学生‟は‟人間‟のサブクラス  サブプロパティ subProperty  プロパティの精密化,継承  推移する(transitive)  例: „生まれた年‟は‟生年月日‟のサブプロパティ 前提知識(2/5)
  • 13.  等価  異なるリソースが,同一の実世界のモノを指し示すとき, それらのリソースは等価と言える  インスタンスだけでなく,クラス,プロパティも扱う  それぞれのオントロジにおいて等価なリソースは存在しないと仮定 前提知識(3/5)
  • 14.  Function, Functionality  関係 r(x,y) において,与えられた第一引数(x)について,ただ一つの 第二引数(y)が存在するとき,r は function である  例: 関係 „wasBornIn‟(出生地)は function である  ある人間において,出生地は必ず一つに定まる  関係 r が function であるとき,r(x,y) がオントロジAで存在し, かつ r(x,y‟) がオントロジBで存在するとき,y と y‟ は等価である  逆関係 r-1 も考える  (例が難しい…) 前提知識(4/5)
  • 15.  Function, Functionality の性質  1)関係 r について,一つでも間違い(inconsistency)が存在す るならば,r は function ではない  実世界のオントロジは間違いが記述されている可能性を考慮する  2)関係 r が function でなくても,2つのエンティティが等価で あることを示す材料になる  関係 „livesIn‟ は function でない(各々の人が,各々の場所に住む)  人々の大多数は一箇所に住むので,‟つくば‟に住んでいる人は, „つくば市‟にも住む.これは,‟つくば‟と‟つくば市‟の強い関係を示唆する 前提知識(5/5) Local functionality Global functionality
  • 16.  概要 確率モデル Hiroyuki Inoue inohiro 人間 学生 type type “1989-02-20” 生年月日 “1989” 生まれた年 イベント係 係 確率: クラス c1 が c2 のサブクラスである 確率: インスタンス x, y が等価である 確率: プロパティ p1 が p2 のサブプロパティである ? ? ?
  • 17.  リテラル値の等価性を前もって調べる リテラル Hiroyuki Inoue inohiro 人間 学生 type type “1989-02-20” ^^xsd:date 生年月日 “1989” ^^xsd:gYear 生まれた年 イベント係 係 文字列: 編集距離に反比例 数値: 数的距離に比例 他の型: 適切な距離関数(checksumなどを使うことも検討) (デフォルトでは,二つの異なるリテラルの等価確率は0) “1989-02-20”(date型)と ”1989”(year型)は同値とする ? “井上 寛之” “井上 寛之” 名前 名前
  • 18.  それぞれのインスタンスの関係を調べる  数少ないリソースが “井上 寛之” と呼ばれる  多くのリソースが “1989年” に生まれる インスタンスの等価性(1/2) a:HiroyukiInoue Kde:inohiro 人間 学生 type type “1989” ^^xsd:gYear 生まれた年 “1989” ^^xsd:gYear 生まれた年 イベント係 係 ? “井上 寛之” “井上 寛之” 名前 名前 あるリソースへの入次数は inverse function で計算
  • 19.  インスタンス x, x‟ は次のとき等価であるとする インスタンスの等価性(2/2) a:HiroyukiInoue Kde:inohiro 人間 学生 type type “1989” ^^xsd:gYear 生まれた年 “1989” ^^xsd:gYear 生まれた年 イベント係 係 ? “井上 寛之” “井上 寛之” 名前 名前多くの人は別々の 名前を持つ 1989年生まれの人は 数多く存在する 述語論理を確率推定へ リテラル: 計算済み その他: 再帰的に計算
  • 20.  „rdf:type‟ でリンクするリソースに注目  あるクラス c のすべてのインスタンスが,他のクラス d の インスタンスならば,c は d のサブクラスである  すべてのインスタンスが一致するならば,等価なクラス クラスの等価性 井上 学生 rdf:type Aさん Cさん 井上 人間 rdf:type Cさん Bさん Dさん Aさん subClassOf
  • 21.  ある関係 r のそれぞれのペアが,他の関係 r‟ の一つのペア であるなら,r は r‟ のサブプロパティである  すべてのペアが一致するならば,等価なプロパティ 関係の等価性 井上 Aさん Dさん 井上 Aさん Bさん Cさん Dさん isAfriendOf knows isAfriendOf knows subPropertyOf
  • 22.  関係の等価性は,インスタンスの等価性に再帰的に依存  例)すべての市民が二つの国に住んでいる時,関係 ‟livesIn‟ の は functionalityは ½ になるが,インスタンスをすべて列挙 せずに行うと,1になる場合がある  イタレーション  2)リテラル値の修正  3)インスタンスの等価性の確率計算  1)関係の等価性の確率計算  終)クラスの等価性の確率計算 アルゴリズムの流れ 収束まで繰り返す (リテラル値の置換えが なくなるまで?)
  • 23.  ベンチマーク  他の手法と比較するためのベンチマーク  Ontology Alignment Evaluation Initiative(OAEI)提供  Personデータ,Restaurantデータと,アライメントの基準が含まれる  Personデータ: 2回のイタレーション,2分で終了  Restaurantデータ: 3回のイタレーション,6秒で終了  それぞれ,ベースライン(ObjCoref)と比較 評価実験(1/5)
  • 24.  実世界のオントロジに対して実行  YAGO(Wikipediaなどから作成されたオントロジ,データ)  DBpedia(Wikipediaから作成されたオントロジ,データ)  IMDb(映画作品にかんするオントロジ,データ)  YAGO vs. IMDb は省略  各オントロジの統計 評価実験(2/5)
  • 25.  YAGO vs. DBpedia  4回のイタレーション  2つのオントロジは140万エンティティのみ共有していた  再現率を計算するために共有エンティティの数を数えた  適合率: 90%, 再現率: 73%  10個以上のプロパティを持つエンティティに限った場合: 97%, 85%  19の高階層クラスを得た  3つのエラー  1)いくつかクラスの分類を失敗,2)オントロジ自身の矛盾, 3)オントロジが記述するインスタンスに偏りがあった 評価実験(3/5)
  • 26.  YAGO vs. DBpedia  等価と判定するしきい値を 変化させたときの,適合率の変化  DBpedia内に一つでもアサイン されたYAGOのクラス数の変化 評価実験(4/5)
  • 27.  YAGO vs. DBpedia  実際に得られた関係のアライメントの結果 評価実験(4/5)
  • 28.  PARIS を提案  自動的にRDFSで記述されたオントロジのアライメントを行う  他の多くの手法と異なり,インスタンス間のマッチングだけでなく, クラス間,関係(プロパティ)間のアライメントも行う  トレーニングデータ,パラメータチューニングを必要としない  オントロジアライメントのために,スキーマアライメント, インスタンスマッチングの情報を相互に利用する  実験において,非常に高い精度を示した  今後の課題  異種混合なオントロジは扱うことができない まとめ Aさん result wonAward event Aさんwinner Best~ award