SlideShare a Scribd company logo
1 of 28
PARIS: Probabilistic Alignment of
Relations, Instances, and Schema
Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart.
PVLDB Vol. 5, No. 3, 2011.
SWIM Seminar 10th/Sept. 2013.
Hiroyuki Inoue
 概要
 背景
 関連研究
 前提知識(Preliminary)
 提案手法
 評価実験,評価
 まとめ
Outline
 PARIS を提案
 “Probabilistic Alignment of Relations, Instances, and Schema”
 既存の手法は下記のどちらか一方に集中
 インスタンス マッチング
 スキーマ(クラス,プロパティ)アライメント
 PARIS は上記二つを同時に行うアルゴリズム
 確率モデルを採用
 インスタンスマッチング,アライメントの情報を相互に利用
 パラメータチューニング,トレーニングデータを必要としない
 実世界の巨大なオントロジに適用して,90%前後の再現率を得た
概要(1/2)
 ゴール: オントロジの統合
 2つのオントロジがあるとき,以下を識別(特定)する
 等価なインスタンス(sameAs)
 等価な,もしくは包含するクラス (subClassOf)
 等価な,もしくは包含する関係(subPropertyOf)
概要(2/2)
オントロジA KDEpedia(オントロジB)
a:HiroyukiInoue Kde:inohiro
sameAs
人間 学生
type type
クラス
インスタンス
subClassOf
“1989-02-20”
生年月日
“1989”
生まれた年
subPropertyOf
リテラル
イベント係
係
Twitter
@inohiro
“井上 寛之”
“井上 寛之”
rdf:label
rdf:label
 独立したオントロジとそれに基づくデータの増加
 Wikipedia をベースとした,多目的のオントロジ
 DBpedia, YAGO, KnowItAll, WikiTaxonomy
 freebase.com, trueknowledge.com, walframalpha.com (商用)
 個々の領域におけるオントロジ
 音楽,映画,地理,出版,医学,生物学,政府(公共機関)
 基本的には他のオントロジを考慮せずに構築される
 オントロジの統合と相互利用
 オントロジ間の接続によって,全般的に利用可能な知識を構築
 セマンティック ウェブの一つのゴール
 データの相互利用(Linked Data)へつながる
背景(1/2)
 数多くの研究が行われている
 エンティティ レゾリューション[1, 4, 12, 17, 18, 25, 27, 28, 31]
 スキーマ アライメント [3, 14, 20, 21, 34]
 しかし,近年オントロジはダイナミックに変化している
 リッチなスキーマ構造,膨大な数のインスタンス・属性
 スキーマとインスタンスの双方を豊かにする手法が必要
 本研究では,どちらか一方ではなく,双方の情報を相互に利用
 大規模な複数のオントロジ間において,一致するエンティティの発
見と接続(リンク)を自動で行い,対象オントロジの補完を目指す
背景(2/2)
 1)PARISを提案
 確率論的アルゴリズム
 異なるオントロジ間のインスタンス,クラス,関係を
一斉にアライメント
 2)アルゴリズムがどれだけ効率的に,チューニング
無しで実現するのかを示す
 3)現実のオントロジを用いて評価を行った
本論文での貢献
 概要
 オントロジマッチングは,本質的には重複したエンティティの発見
 Identifying duplicate entities, Record linkage,
 Duplicate detection, Co-reference resolution
 DBやNLPの領域で研究されているが[7,9],オントロジには適用不可
 1)オントロジの持つセマンティクスを考慮しない
 タキソノミが持つ階層構造(rdfs:subClassOfなどで記述される)など
 2)インスタンスのみに着目(スキーマ等は考慮していない)
 オントロジにおける record linking に関する研究
 全般的な問題の概要,same-As リンクに関する問題 [15]
 same-As リンクに関する分析 [8]
 セマンティックウェブにおける co-reference の管理 [13]
関連研究(1/3)
 スキーマ アライメント (クラス間のマッチング) [14,12,3]
 sense clustering[14], lexical and structural characteristics[12],
composite approach[3]
 一方,PARIS はインスタンス間のマッチングも考慮する
 インスタンスの類似度から,クラス間の類似度を推定する [20,34]
 PARIS に最も類似した手法
 クラスに着目するが,subClass や property について取り扱わない
 インスタンス マッチング [25, 27, 1, 4, 28]
 本手法で用いる functionality の概念を提案 [17]
 マッチングルールを明示する手法 [33],
トレーニングデータからマッチングを学習する ObjectCoref [18]
 PARIS はマッチングルール,トレーニングデータを必要としない
 クラス間の類似度計算にインスタンスを用いる (実験なし) [16]
関連研究(2/3)
 全体観的な(Holistic)アプローチ
 スキーマとインスタンスのアライメントを同時に行う手法
 二つ存在するが両方とも小さいオントロジでしかテストされていない
 RiMOM [22]
 クラス間のアライメントを行う(subClass の関係は見つけられない)
 ヒューリスティクスもしくは,戦略的な手法から選択して実行する
 一方,PARISはモノリシック(一貫した設計)
 ILIADS [32]
 プロパティが十分にあるオントロジでテストされていない
 一方,PARISは100万インスタンスレベルの実世界オントロジで
良い性能を示した
関連研究(3/3)
 オントロジ
 RDFS(RDF Schema)で記述されるオントロジを想定
 O : Ontology, オントロジ
 R : Resource, 実世界におけるモノ
 L : Literal, リテラル値(文字列,数字,時刻,…)
 P : Property (Relation)
 resource-resource,resource-literal 間の関係を述べる(二値,binary)
 関係 r(relation)
 „x‟, „y‟ は関係 r の引数(argument),ペア
 逆関係 r-1 (inverse)
 クラス c (class)
 クラスとインスタンス
 クラスとインスタンスの関係
前提知識(1/5)
 オントロジ
 サブクラス subClass
 クラス間の主従関係
 推移する(transitive)
 例: „学生‟は‟人間‟のサブクラス
 サブプロパティ subProperty
 プロパティの精密化,継承
 推移する(transitive)
 例: „生まれた年‟は‟生年月日‟のサブプロパティ
前提知識(2/5)
 等価
 異なるリソースが,同一の実世界のモノを指し示すとき,
それらのリソースは等価と言える
 インスタンスだけでなく,クラス,プロパティも扱う
 それぞれのオントロジにおいて等価なリソースは存在しないと仮定
前提知識(3/5)
 Function, Functionality
 関係 r(x,y) において,与えられた第一引数(x)について,ただ一つの
第二引数(y)が存在するとき,r は function である
 例: 関係 „wasBornIn‟(出生地)は function である
 ある人間において,出生地は必ず一つに定まる
 関係 r が function であるとき,r(x,y) がオントロジAで存在し,
かつ r(x,y‟) がオントロジBで存在するとき,y と y‟ は等価である
 逆関係 r-1 も考える
 (例が難しい…)
前提知識(4/5)
 Function, Functionality の性質
 1)関係 r について,一つでも間違い(inconsistency)が存在す
るならば,r は function ではない
 実世界のオントロジは間違いが記述されている可能性を考慮する
 2)関係 r が function でなくても,2つのエンティティが等価で
あることを示す材料になる
 関係 „livesIn‟ は function でない(各々の人が,各々の場所に住む)
 人々の大多数は一箇所に住むので,‟つくば‟に住んでいる人は,
„つくば市‟にも住む.これは,‟つくば‟と‟つくば市‟の強い関係を示唆する
前提知識(5/5)
Local functionality Global functionality
 概要
確率モデル
Hiroyuki Inoue inohiro
人間 学生
type type
“1989-02-20”
生年月日
“1989”
生まれた年
イベント係
係
確率: クラス c1 が c2 のサブクラスである
確率: インスタンス x, y が等価である
確率: プロパティ p1 が
p2 のサブプロパティである ?
?
?
 リテラル値の等価性を前もって調べる
リテラル
Hiroyuki Inoue inohiro
人間 学生
type type
“1989-02-20”
^^xsd:date
生年月日
“1989”
^^xsd:gYear
生まれた年
イベント係
係
文字列: 編集距離に反比例
数値: 数的距離に比例
他の型: 適切な距離関数(checksumなどを使うことも検討)
(デフォルトでは,二つの異なるリテラルの等価確率は0)
“1989-02-20”(date型)と
”1989”(year型)は同値とする ?
“井上 寛之”
“井上 寛之”
名前
名前
 それぞれのインスタンスの関係を調べる
 数少ないリソースが “井上 寛之” と呼ばれる
 多くのリソースが “1989年” に生まれる
インスタンスの等価性(1/2)
a:HiroyukiInoue Kde:inohiro
人間 学生
type type
“1989”
^^xsd:gYear
生まれた年
“1989”
^^xsd:gYear
生まれた年
イベント係
係
?
“井上 寛之”
“井上 寛之”
名前
名前
あるリソースへの入次数は
inverse function で計算
 インスタンス x, x‟ は次のとき等価であるとする
インスタンスの等価性(2/2)
a:HiroyukiInoue Kde:inohiro
人間 学生
type type
“1989”
^^xsd:gYear
生まれた年
“1989”
^^xsd:gYear
生まれた年
イベント係
係
?
“井上 寛之”
“井上 寛之”
名前
名前多くの人は別々の
名前を持つ
1989年生まれの人は
数多く存在する
述語論理を確率推定へ
リテラル: 計算済み
その他: 再帰的に計算
 „rdf:type‟ でリンクするリソースに注目
 あるクラス c のすべてのインスタンスが,他のクラス d の
インスタンスならば,c は d のサブクラスである
 すべてのインスタンスが一致するならば,等価なクラス
クラスの等価性
井上
学生
rdf:type
Aさん Cさん 井上
人間
rdf:type
Cさん
Bさん Dさん
Aさん
subClassOf
 ある関係 r のそれぞれのペアが,他の関係 r‟ の一つのペア
であるなら,r は r‟ のサブプロパティである
 すべてのペアが一致するならば,等価なプロパティ
関係の等価性
井上 Aさん
Dさん
井上
Aさん
Bさん
Cさん
Dさん
isAfriendOf knows
isAfriendOf knows
subPropertyOf
 関係の等価性は,インスタンスの等価性に再帰的に依存
 例)すべての市民が二つの国に住んでいる時,関係 ‟livesIn‟ の
は functionalityは ½ になるが,インスタンスをすべて列挙
せずに行うと,1になる場合がある
 イタレーション
 2)リテラル値の修正
 3)インスタンスの等価性の確率計算
 1)関係の等価性の確率計算
 終)クラスの等価性の確率計算
アルゴリズムの流れ
収束まで繰り返す
(リテラル値の置換えが
なくなるまで?)
 ベンチマーク
 他の手法と比較するためのベンチマーク
 Ontology Alignment Evaluation Initiative(OAEI)提供
 Personデータ,Restaurantデータと,アライメントの基準が含まれる
 Personデータ: 2回のイタレーション,2分で終了
 Restaurantデータ: 3回のイタレーション,6秒で終了
 それぞれ,ベースライン(ObjCoref)と比較
評価実験(1/5)
 実世界のオントロジに対して実行
 YAGO(Wikipediaなどから作成されたオントロジ,データ)
 DBpedia(Wikipediaから作成されたオントロジ,データ)
 IMDb(映画作品にかんするオントロジ,データ)
 YAGO vs. IMDb は省略
 各オントロジの統計
評価実験(2/5)
 YAGO vs. DBpedia
 4回のイタレーション
 2つのオントロジは140万エンティティのみ共有していた
 再現率を計算するために共有エンティティの数を数えた
 適合率: 90%, 再現率: 73%
 10個以上のプロパティを持つエンティティに限った場合: 97%, 85%
 19の高階層クラスを得た
 3つのエラー
 1)いくつかクラスの分類を失敗,2)オントロジ自身の矛盾,
3)オントロジが記述するインスタンスに偏りがあった
評価実験(3/5)
 YAGO vs. DBpedia
 等価と判定するしきい値を
変化させたときの,適合率の変化
 DBpedia内に一つでもアサイン
されたYAGOのクラス数の変化
評価実験(4/5)
 YAGO vs. DBpedia
 実際に得られた関係のアライメントの結果
評価実験(4/5)
 PARIS を提案
 自動的にRDFSで記述されたオントロジのアライメントを行う
 他の多くの手法と異なり,インスタンス間のマッチングだけでなく,
クラス間,関係(プロパティ)間のアライメントも行う
 トレーニングデータ,パラメータチューニングを必要としない
 オントロジアライメントのために,スキーマアライメント,
インスタンスマッチングの情報を相互に利用する
 実験において,非常に高い精度を示した
 今後の課題
 異種混合なオントロジは扱うことができない
まとめ
Aさん result
wonAward
event
Aさんwinner
Best~
award

More Related Content

Viewers also liked

Randomized Trial of a Clinical Decision Support System
Randomized Trial of a Clinical Decision Support SystemRandomized Trial of a Clinical Decision Support System
Randomized Trial of a Clinical Decision Support Systemflyskyg
 
Goto aarhus: Mobile Browser as a platform
Goto aarhus: Mobile Browser as a platformGoto aarhus: Mobile Browser as a platform
Goto aarhus: Mobile Browser as a platformMaximiliano Firtman
 
Botanicgardensslides
BotanicgardensslidesBotanicgardensslides
Botanicgardensslideslhansen99
 
Hot High Paying Keywords Of All Time
Hot High Paying Keywords Of All TimeHot High Paying Keywords Of All Time
Hot High Paying Keywords Of All Timejaxky
 
Presentation Domian Names Eqypt (Final)
Presentation Domian Names Eqypt (Final)Presentation Domian Names Eqypt (Final)
Presentation Domian Names Eqypt (Final)guestb0dfbbf
 
淺談心理學知識或方法在網站企劃上的應用 蔡方之
淺談心理學知識或方法在網站企劃上的應用 蔡方之淺談心理學知識或方法在網站企劃上的應用 蔡方之
淺談心理學知識或方法在網站企劃上的應用 蔡方之悠識學院
 
Legal Aspects of Outsourcing for Drug, Biologics and Device Companies
Legal Aspects of Outsourcing for Drug, Biologics and Device CompaniesLegal Aspects of Outsourcing for Drug, Biologics and Device Companies
Legal Aspects of Outsourcing for Drug, Biologics and Device CompaniesMichael Swit
 
Work Life Home Care
Work Life Home CareWork Life Home Care
Work Life Home Carensachs
 
LODのOLAP分析を可能にするETLフレームワークの提案
LODのOLAP分析を可能にするETLフレームワークの提案LODのOLAP分析を可能にするETLフレームワークの提案
LODのOLAP分析を可能にするETLフレームワークの提案Hiroyuki Inoue
 
Polo 444 Design Story
Polo 444 Design StoryPolo 444 Design Story
Polo 444 Design Storybrookbanham
 

Viewers also liked (16)

Randomized Trial of a Clinical Decision Support System
Randomized Trial of a Clinical Decision Support SystemRandomized Trial of a Clinical Decision Support System
Randomized Trial of a Clinical Decision Support System
 
Goto aarhus: Mobile Browser as a platform
Goto aarhus: Mobile Browser as a platformGoto aarhus: Mobile Browser as a platform
Goto aarhus: Mobile Browser as a platform
 
Botanicgardensslides
BotanicgardensslidesBotanicgardensslides
Botanicgardensslides
 
Hot High Paying Keywords Of All Time
Hot High Paying Keywords Of All TimeHot High Paying Keywords Of All Time
Hot High Paying Keywords Of All Time
 
Presentation Domian Names Eqypt (Final)
Presentation Domian Names Eqypt (Final)Presentation Domian Names Eqypt (Final)
Presentation Domian Names Eqypt (Final)
 
淺談心理學知識或方法在網站企劃上的應用 蔡方之
淺談心理學知識或方法在網站企劃上的應用 蔡方之淺談心理學知識或方法在網站企劃上的應用 蔡方之
淺談心理學知識或方法在網站企劃上的應用 蔡方之
 
Legal Aspects of Outsourcing for Drug, Biologics and Device Companies
Legal Aspects of Outsourcing for Drug, Biologics and Device CompaniesLegal Aspects of Outsourcing for Drug, Biologics and Device Companies
Legal Aspects of Outsourcing for Drug, Biologics and Device Companies
 
Si Presentation
Si PresentationSi Presentation
Si Presentation
 
Praveen Khanna
Praveen KhannaPraveen Khanna
Praveen Khanna
 
Koeien2009
Koeien2009Koeien2009
Koeien2009
 
Rama 2
Rama 2Rama 2
Rama 2
 
Work Life Home Care
Work Life Home CareWork Life Home Care
Work Life Home Care
 
Paradise Bay Grand
Paradise Bay GrandParadise Bay Grand
Paradise Bay Grand
 
LODのOLAP分析を可能にするETLフレームワークの提案
LODのOLAP分析を可能にするETLフレームワークの提案LODのOLAP分析を可能にするETLフレームワークの提案
LODのOLAP分析を可能にするETLフレームワークの提案
 
Slides for mit
Slides for mitSlides for mit
Slides for mit
 
Polo 444 Design Story
Polo 444 Design StoryPolo 444 Design Story
Polo 444 Design Story
 

More from Hiroyuki Inoue

クックパッドの開発プロセス
クックパッドの開発プロセスクックパッドの開発プロセス
クックパッドの開発プロセスHiroyuki Inoue
 
リアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャ
リアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャリアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャ
リアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャHiroyuki Inoue
 
OLAPを利用したLinked Dataの分析処理
OLAPを利用したLinked Dataの分析処理OLAPを利用したLinked Dataの分析処理
OLAPを利用したLinked Dataの分析処理Hiroyuki Inoue
 
Analytical processing for Linked Data using OLAP
Analytical processing for Linked Data using OLAPAnalytical processing for Linked Data using OLAP
Analytical processing for Linked Data using OLAPHiroyuki Inoue
 
RDBを中核としたXMLDBの開発
RDBを中核としたXMLDBの開発RDBを中核としたXMLDBの開発
RDBを中核としたXMLDBの開発Hiroyuki Inoue
 

More from Hiroyuki Inoue (6)

クックパッドの開発プロセス
クックパッドの開発プロセスクックパッドの開発プロセス
クックパッドの開発プロセス
 
リアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャ
リアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャリアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャ
リアルタイム分析サービス『たべみる』を支える高可用性アーキテクチャ
 
Swim_2013_02_19_jpn
Swim_2013_02_19_jpnSwim_2013_02_19_jpn
Swim_2013_02_19_jpn
 
OLAPを利用したLinked Dataの分析処理
OLAPを利用したLinked Dataの分析処理OLAPを利用したLinked Dataの分析処理
OLAPを利用したLinked Dataの分析処理
 
Analytical processing for Linked Data using OLAP
Analytical processing for Linked Data using OLAPAnalytical processing for Linked Data using OLAP
Analytical processing for Linked Data using OLAP
 
RDBを中核としたXMLDBの開発
RDBを中核としたXMLDBの開発RDBを中核としたXMLDBの開発
RDBを中核としたXMLDBの開発
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

PARIS at SWIM seminar

  • 1. PARIS: Probabilistic Alignment of Relations, Instances, and Schema Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart. PVLDB Vol. 5, No. 3, 2011. SWIM Seminar 10th/Sept. 2013. Hiroyuki Inoue
  • 2.  概要  背景  関連研究  前提知識(Preliminary)  提案手法  評価実験,評価  まとめ Outline
  • 3.  PARIS を提案  “Probabilistic Alignment of Relations, Instances, and Schema”  既存の手法は下記のどちらか一方に集中  インスタンス マッチング  スキーマ(クラス,プロパティ)アライメント  PARIS は上記二つを同時に行うアルゴリズム  確率モデルを採用  インスタンスマッチング,アライメントの情報を相互に利用  パラメータチューニング,トレーニングデータを必要としない  実世界の巨大なオントロジに適用して,90%前後の再現率を得た 概要(1/2)
  • 4.  ゴール: オントロジの統合  2つのオントロジがあるとき,以下を識別(特定)する  等価なインスタンス(sameAs)  等価な,もしくは包含するクラス (subClassOf)  等価な,もしくは包含する関係(subPropertyOf) 概要(2/2) オントロジA KDEpedia(オントロジB) a:HiroyukiInoue Kde:inohiro sameAs 人間 学生 type type クラス インスタンス subClassOf “1989-02-20” 生年月日 “1989” 生まれた年 subPropertyOf リテラル イベント係 係 Twitter @inohiro “井上 寛之” “井上 寛之” rdf:label rdf:label
  • 5.  独立したオントロジとそれに基づくデータの増加  Wikipedia をベースとした,多目的のオントロジ  DBpedia, YAGO, KnowItAll, WikiTaxonomy  freebase.com, trueknowledge.com, walframalpha.com (商用)  個々の領域におけるオントロジ  音楽,映画,地理,出版,医学,生物学,政府(公共機関)  基本的には他のオントロジを考慮せずに構築される  オントロジの統合と相互利用  オントロジ間の接続によって,全般的に利用可能な知識を構築  セマンティック ウェブの一つのゴール  データの相互利用(Linked Data)へつながる 背景(1/2)
  • 6.  数多くの研究が行われている  エンティティ レゾリューション[1, 4, 12, 17, 18, 25, 27, 28, 31]  スキーマ アライメント [3, 14, 20, 21, 34]  しかし,近年オントロジはダイナミックに変化している  リッチなスキーマ構造,膨大な数のインスタンス・属性  スキーマとインスタンスの双方を豊かにする手法が必要  本研究では,どちらか一方ではなく,双方の情報を相互に利用  大規模な複数のオントロジ間において,一致するエンティティの発 見と接続(リンク)を自動で行い,対象オントロジの補完を目指す 背景(2/2)
  • 7.  1)PARISを提案  確率論的アルゴリズム  異なるオントロジ間のインスタンス,クラス,関係を 一斉にアライメント  2)アルゴリズムがどれだけ効率的に,チューニング 無しで実現するのかを示す  3)現実のオントロジを用いて評価を行った 本論文での貢献
  • 8.  概要  オントロジマッチングは,本質的には重複したエンティティの発見  Identifying duplicate entities, Record linkage,  Duplicate detection, Co-reference resolution  DBやNLPの領域で研究されているが[7,9],オントロジには適用不可  1)オントロジの持つセマンティクスを考慮しない  タキソノミが持つ階層構造(rdfs:subClassOfなどで記述される)など  2)インスタンスのみに着目(スキーマ等は考慮していない)  オントロジにおける record linking に関する研究  全般的な問題の概要,same-As リンクに関する問題 [15]  same-As リンクに関する分析 [8]  セマンティックウェブにおける co-reference の管理 [13] 関連研究(1/3)
  • 9.  スキーマ アライメント (クラス間のマッチング) [14,12,3]  sense clustering[14], lexical and structural characteristics[12], composite approach[3]  一方,PARIS はインスタンス間のマッチングも考慮する  インスタンスの類似度から,クラス間の類似度を推定する [20,34]  PARIS に最も類似した手法  クラスに着目するが,subClass や property について取り扱わない  インスタンス マッチング [25, 27, 1, 4, 28]  本手法で用いる functionality の概念を提案 [17]  マッチングルールを明示する手法 [33], トレーニングデータからマッチングを学習する ObjectCoref [18]  PARIS はマッチングルール,トレーニングデータを必要としない  クラス間の類似度計算にインスタンスを用いる (実験なし) [16] 関連研究(2/3)
  • 10.  全体観的な(Holistic)アプローチ  スキーマとインスタンスのアライメントを同時に行う手法  二つ存在するが両方とも小さいオントロジでしかテストされていない  RiMOM [22]  クラス間のアライメントを行う(subClass の関係は見つけられない)  ヒューリスティクスもしくは,戦略的な手法から選択して実行する  一方,PARISはモノリシック(一貫した設計)  ILIADS [32]  プロパティが十分にあるオントロジでテストされていない  一方,PARISは100万インスタンスレベルの実世界オントロジで 良い性能を示した 関連研究(3/3)
  • 11.  オントロジ  RDFS(RDF Schema)で記述されるオントロジを想定  O : Ontology, オントロジ  R : Resource, 実世界におけるモノ  L : Literal, リテラル値(文字列,数字,時刻,…)  P : Property (Relation)  resource-resource,resource-literal 間の関係を述べる(二値,binary)  関係 r(relation)  „x‟, „y‟ は関係 r の引数(argument),ペア  逆関係 r-1 (inverse)  クラス c (class)  クラスとインスタンス  クラスとインスタンスの関係 前提知識(1/5)
  • 12.  オントロジ  サブクラス subClass  クラス間の主従関係  推移する(transitive)  例: „学生‟は‟人間‟のサブクラス  サブプロパティ subProperty  プロパティの精密化,継承  推移する(transitive)  例: „生まれた年‟は‟生年月日‟のサブプロパティ 前提知識(2/5)
  • 13.  等価  異なるリソースが,同一の実世界のモノを指し示すとき, それらのリソースは等価と言える  インスタンスだけでなく,クラス,プロパティも扱う  それぞれのオントロジにおいて等価なリソースは存在しないと仮定 前提知識(3/5)
  • 14.  Function, Functionality  関係 r(x,y) において,与えられた第一引数(x)について,ただ一つの 第二引数(y)が存在するとき,r は function である  例: 関係 „wasBornIn‟(出生地)は function である  ある人間において,出生地は必ず一つに定まる  関係 r が function であるとき,r(x,y) がオントロジAで存在し, かつ r(x,y‟) がオントロジBで存在するとき,y と y‟ は等価である  逆関係 r-1 も考える  (例が難しい…) 前提知識(4/5)
  • 15.  Function, Functionality の性質  1)関係 r について,一つでも間違い(inconsistency)が存在す るならば,r は function ではない  実世界のオントロジは間違いが記述されている可能性を考慮する  2)関係 r が function でなくても,2つのエンティティが等価で あることを示す材料になる  関係 „livesIn‟ は function でない(各々の人が,各々の場所に住む)  人々の大多数は一箇所に住むので,‟つくば‟に住んでいる人は, „つくば市‟にも住む.これは,‟つくば‟と‟つくば市‟の強い関係を示唆する 前提知識(5/5) Local functionality Global functionality
  • 16.  概要 確率モデル Hiroyuki Inoue inohiro 人間 学生 type type “1989-02-20” 生年月日 “1989” 生まれた年 イベント係 係 確率: クラス c1 が c2 のサブクラスである 確率: インスタンス x, y が等価である 確率: プロパティ p1 が p2 のサブプロパティである ? ? ?
  • 17.  リテラル値の等価性を前もって調べる リテラル Hiroyuki Inoue inohiro 人間 学生 type type “1989-02-20” ^^xsd:date 生年月日 “1989” ^^xsd:gYear 生まれた年 イベント係 係 文字列: 編集距離に反比例 数値: 数的距離に比例 他の型: 適切な距離関数(checksumなどを使うことも検討) (デフォルトでは,二つの異なるリテラルの等価確率は0) “1989-02-20”(date型)と ”1989”(year型)は同値とする ? “井上 寛之” “井上 寛之” 名前 名前
  • 18.  それぞれのインスタンスの関係を調べる  数少ないリソースが “井上 寛之” と呼ばれる  多くのリソースが “1989年” に生まれる インスタンスの等価性(1/2) a:HiroyukiInoue Kde:inohiro 人間 学生 type type “1989” ^^xsd:gYear 生まれた年 “1989” ^^xsd:gYear 生まれた年 イベント係 係 ? “井上 寛之” “井上 寛之” 名前 名前 あるリソースへの入次数は inverse function で計算
  • 19.  インスタンス x, x‟ は次のとき等価であるとする インスタンスの等価性(2/2) a:HiroyukiInoue Kde:inohiro 人間 学生 type type “1989” ^^xsd:gYear 生まれた年 “1989” ^^xsd:gYear 生まれた年 イベント係 係 ? “井上 寛之” “井上 寛之” 名前 名前多くの人は別々の 名前を持つ 1989年生まれの人は 数多く存在する 述語論理を確率推定へ リテラル: 計算済み その他: 再帰的に計算
  • 20.  „rdf:type‟ でリンクするリソースに注目  あるクラス c のすべてのインスタンスが,他のクラス d の インスタンスならば,c は d のサブクラスである  すべてのインスタンスが一致するならば,等価なクラス クラスの等価性 井上 学生 rdf:type Aさん Cさん 井上 人間 rdf:type Cさん Bさん Dさん Aさん subClassOf
  • 21.  ある関係 r のそれぞれのペアが,他の関係 r‟ の一つのペア であるなら,r は r‟ のサブプロパティである  すべてのペアが一致するならば,等価なプロパティ 関係の等価性 井上 Aさん Dさん 井上 Aさん Bさん Cさん Dさん isAfriendOf knows isAfriendOf knows subPropertyOf
  • 22.  関係の等価性は,インスタンスの等価性に再帰的に依存  例)すべての市民が二つの国に住んでいる時,関係 ‟livesIn‟ の は functionalityは ½ になるが,インスタンスをすべて列挙 せずに行うと,1になる場合がある  イタレーション  2)リテラル値の修正  3)インスタンスの等価性の確率計算  1)関係の等価性の確率計算  終)クラスの等価性の確率計算 アルゴリズムの流れ 収束まで繰り返す (リテラル値の置換えが なくなるまで?)
  • 23.  ベンチマーク  他の手法と比較するためのベンチマーク  Ontology Alignment Evaluation Initiative(OAEI)提供  Personデータ,Restaurantデータと,アライメントの基準が含まれる  Personデータ: 2回のイタレーション,2分で終了  Restaurantデータ: 3回のイタレーション,6秒で終了  それぞれ,ベースライン(ObjCoref)と比較 評価実験(1/5)
  • 24.  実世界のオントロジに対して実行  YAGO(Wikipediaなどから作成されたオントロジ,データ)  DBpedia(Wikipediaから作成されたオントロジ,データ)  IMDb(映画作品にかんするオントロジ,データ)  YAGO vs. IMDb は省略  各オントロジの統計 評価実験(2/5)
  • 25.  YAGO vs. DBpedia  4回のイタレーション  2つのオントロジは140万エンティティのみ共有していた  再現率を計算するために共有エンティティの数を数えた  適合率: 90%, 再現率: 73%  10個以上のプロパティを持つエンティティに限った場合: 97%, 85%  19の高階層クラスを得た  3つのエラー  1)いくつかクラスの分類を失敗,2)オントロジ自身の矛盾, 3)オントロジが記述するインスタンスに偏りがあった 評価実験(3/5)
  • 26.  YAGO vs. DBpedia  等価と判定するしきい値を 変化させたときの,適合率の変化  DBpedia内に一つでもアサイン されたYAGOのクラス数の変化 評価実験(4/5)
  • 27.  YAGO vs. DBpedia  実際に得られた関係のアライメントの結果 評価実験(4/5)
  • 28.  PARIS を提案  自動的にRDFSで記述されたオントロジのアライメントを行う  他の多くの手法と異なり,インスタンス間のマッチングだけでなく, クラス間,関係(プロパティ)間のアライメントも行う  トレーニングデータ,パラメータチューニングを必要としない  オントロジアライメントのために,スキーマアライメント, インスタンスマッチングの情報を相互に利用する  実験において,非常に高い精度を示した  今後の課題  異種混合なオントロジは扱うことができない まとめ Aさん result wonAward event Aさんwinner Best~ award