筑波大学附属図書館研究開発室 令和2年度研究成果報告

距離学習を用いたHuman-in-the-loop
エンティティマッチングフレームワークの提案
大沢直史 𝟏) 伊藤寛祥 𝟐) 福島幸宏 𝟑) 原田隆史 4) 森嶋厚行 𝟐)
附属図書館研究開発室成果報告 第3プロジェクト
図書館への応用可能性を探るクラウドソーシング実証実験
1)知識情報・図書館学類 2)図書館情報メディア系 3)東京大学 情報学環・学際情報学府 4)同志社大学大学院 総合政策科学研究科
エンティティマッチングとは,データベース中において同一の実体を参照し
ているレコードの集合を識別する問題である.エンティティマッチングは,
データのクリーニングや複数のデータベースの統合において非常に重要である
が,エンティティ作成時の入力の揺れや欠損がしばしば生じ,完全にルール
ベースな手法ではすべてのエンティティに対して完全なマッチングを行うこと
はできないという問題がある.加えて,データベースがもつレコード数が大き
い場合,すべてのレコードの組み合わせを参照し,それらが同じエンティティ
を参照しているか否かを判定する同定作業を行うためには膨大な計算時間がか
かり,さらに同定にはその対象に合わせた正規化処理や同定キーの作成が必要
になるといった問題がある.
1.背景
3.提案手法
1. データベースSが持つ書誌データを距離空間上に埋め込む.
距離空間への埋め込みは4.実験で述べる距離学習モデルを用いて行われる.
2. 埋め込まれたデータをそれぞれノードとし,距離が最も近い上位K件のノー
ドを接続するK近傍グラフを構築する.
3. 各ノードに対しScoreを計算.
𝑵 𝒗𝒊 はノード𝒗𝒊に対するエッジ集合である.基本的なアイデアは,K近傍
グラフにおいて2つのノードにおいて共有する隣接ノード数が多いほど,
その2つのデータが統合されたときに縮約されるエッジ数が大きくなり,
結果として比較が必要になるデータのペア数が少なくなるというもの.
4. Scoreの高いノード同士を候補ペアとして二値分類モデルとクラウドソー
シングによる同定を行う.ノード間がマッチした場合はノードが統合され
ることでグラフの縮約が行われ,一致しなかった場合はそのノード間の
エッジを切断する.
以上の操作を全てのノードが独立するまで繰り返す.
機械学習モデルとクラウドソーシングにおけるタスクの割り当ては,二値分
類モデルの確率的な出力𝜶を閾値として行う.二値分類モデルの出力が𝜶を下
回った場合にその書誌データのペアをクラウドソーシングのタスクとする.
提案手法の優位性
◼ 全ての組み合わせを比較する必要がなくなるため,比較回数の削減が可能
◼ 人間が同定プロセスに介入することによって品質向上に期待
4.実験とその結果
本研究ではHuman-in-the-loopに基づくアプローチに距離学習モデルと二
値分類モデルを用いた手法を提案する.距離学習とは,データ間の関係を考慮
し,同一のクラスに属するデータ同士は空間中で近い位置に埋め込み,異なる
クラスに属するデータ同士は遠い位置に埋め込むようなマッピング関数を学習
する手法である.適切な距離学習が行えれば,同一レコードの可能性がある候
補のペア選択およびルールベースでは判定が難しいペアの選択について,アド
ホックでないアプローチを提供することが期待できる.
2.目的
Same
or
Not
𝑀θ(7), 𝑀θ(8)
𝑀θ(7)
𝑀θ(8)
Scoreの計算 ノードペアの同定
判定結果による
グラフの更新
𝑀θ(𝑜)
𝑀θ(2)
𝑀θ(3)
𝑀θ(4)
距離空間
Database 𝑺
𝒊𝒅𝒐
…
𝒊𝒅𝟏
𝒊𝒅𝒏
距離学習されたデータを
空間に埋め込む
K近傍グラフの構築
データベースの定義
𝑀θ(7), 𝑀θ(8)
𝑀θ(3)
𝑀θ(0)
𝑀θ(5)
𝑀θ(4), 𝑀θ(𝑛)
エッジ数が0になるまで繰り返す
𝒊𝒅𝟕 , 𝒊𝒅𝟖
…
𝒊𝒅𝟒 , 𝒊𝒅𝒏
𝒊𝒅𝟎
𝒊𝒅𝟓
𝒊𝒅𝟑
ノード集合の獲得
図1.提案手法の手続き
本研究では国立国会図書館の総合目録によって作成された,表1に書誌デー
タベースS内の書誌データマッチング問題を考える.実験は(1)二値分類モデル
の構築(2)距離学習によるデータの表現(3)評価実験について行った.
(1)二値分類モデルの構築
書誌データの一致/不一致を判定する二値分類モデルの構築を行う.二値
分類モデルは,表1に示すような書誌データがもつ各カラムの文字列から類
似度を複数算出し,その類似度を学習する.
学習の結果,別な書誌の組み合わせを判定する書誌割れに関して大きい貢
献するモデルを構築することが出来たが,反対に書誌誤同定に対しては改善
の余地が見られた.
タイトル 巻号 著者 出版社 ISBN page cm
若おかみは小学生! 亜沙美,令丈ヒロ子 講談社 4061486136 215p 18cm
若おかみは小学生! :
花の湯温泉ストーリー 1
[PART1] 亜沙美,令丈ヒロ子 講談社 4061486136 215p 18cm
(2)距離学習によるデータの表現
本実験では書誌データ間で発生する関係性を距離空間上に表現すること
を目的とする.これは図1における𝑴𝜽にあたる.距離空間上において,類
似するデータは近く,非類似するデータは遠くなるように学習を行う.
提案手法の有効性を確認するための評価実験について述べる.実験は(1)提
案手法の比較回数の変化(2)提案手法によって獲得されるノード集合の再現率
(3)フレームワークの同定能力とタスク数についてそれぞれ確認を行う.同定
能力の評価の指標は再現率と適合率の調和平均であるF1値を用いる.比較対
象は書誌データが持つノードを書誌idの順に従って同定を行うナイーブな手法
である.本実験では,クラウドソーシングは正しい判定をすることを仮定して
行う.
表1.書誌データペアの例
(3)評価実験
(3-1)提案手法の比較回数,エッジ数の変化
図1.比較回数の変化 図2.エッジ数の変化
図1ではScoreの高いノードからグラフを縮約することで,ランダムに選
択したナイーブ手法と比較して比較回数を削減したことを示す.図2では
近傍探索数Kを大きくした場合,累計の比較回数に有意差が生じた.
(3-2)ノード集合の再現率
(3-3)フレームワークの性能とタスク数
本研究ではK近傍グラフのエッジに対
して同定の判定を行う.より高精度に同
定を行うためには,マッチングすべきレ
コードのペアがK近傍グラフのエッジに
もれなく含んでいることが必要になる.
図3はK近傍グラフ構築時におけるマッ
チングペアの再現率である.
図3. K近傍グラフ構築時の
同定ペアの再現率
クラウドソーシングによる同定シミュ
レーションの結果, 機械学習モデルの閾
値𝜶を大きくした場合に提案手法のF1値
が向上した.これより 𝜶を大きくした場
合にタスク数が増加し,フレームワーク
の性能を向上させることができる.一方
で一般にタスク数が増えるほど金銭的な
コストが大きくなる. 図4. 𝜶を変化させた場合のF1値と
ワーカに割り当てたタスクの数
5.まとめ
𝑺𝒄𝒐𝒓𝒆 𝒗𝒊, 𝒗𝒋 = ȁ𝑵 𝒗𝒊 ∩ ห
𝑵 𝒗𝒋
共通のスキーマを持つ複数のデータベースを対象としたエンティティマッチ
ング手法として,距離学習を用いたHuman-in-the-loopエンティティマッチ
ングフレームワークの提案を行った.提案手法の有効性を検討するため,国立
国会図書館の総合目録を利用したいくつかの実験を行った.
実験の結果,二値分類モデルの学習においては70¥%の精度が得られ,距離
学習を用いたブロッキングにおいては,K=10のK近傍グラフを構築すること
で,約90%の再現率で同定候補をあげることができることを示した.また,
本フレームワークにおいて二値分類モデルの確信度の閾値を上げて,積極的に
クラウドワーカーをタスクに取り入れることにより,二値分類モデルのみを用
いた場合よりも精度が向上することを示した.さらに,共有ノード数に基づく
スコアリングを行うことで,ランダムにエッジを選択して統合する場合と比較
して比較回数が減少することを示した.

Recommended

ChatGPT and the Future of Work - Clark Boyd by
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
28.7K views69 slides
Getting into the tech field. what next by
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
6.7K views22 slides
Google's Just Not That Into You: Understanding Core Updates & Search Intent by
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
7K views99 slides
How to have difficult conversations by
How to have difficult conversations How to have difficult conversations
How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC
5.7K views19 slides
Introduction to Data Science by
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data ScienceChristy Abraham Joy
82.6K views51 slides
Time Management & Productivity - Best Practices by
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
169.8K views42 slides

More Related Content

Recently uploaded

"Node.js Development in 2024: trends and tools", Nikita Galkin by
"Node.js Development in 2024: trends and tools", Nikita Galkin "Node.js Development in 2024: trends and tools", Nikita Galkin
"Node.js Development in 2024: trends and tools", Nikita Galkin Fwdays
33 views38 slides
Future of Indian ConsumerTech by
Future of Indian ConsumerTechFuture of Indian ConsumerTech
Future of Indian ConsumerTechKapil Khandelwal (KK)
36 views68 slides
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlue by
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlueCloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlue
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlueShapeBlue
139 views15 slides
"Package management in monorepos", Zoltan Kochan by
"Package management in monorepos", Zoltan Kochan"Package management in monorepos", Zoltan Kochan
"Package management in monorepos", Zoltan KochanFwdays
34 views18 slides
Transcript: Redefining the book supply chain: A glimpse into the future - Tec... by
Transcript: Redefining the book supply chain: A glimpse into the future - Tec...Transcript: Redefining the book supply chain: A glimpse into the future - Tec...
Transcript: Redefining the book supply chain: A glimpse into the future - Tec...BookNet Canada
41 views16 slides
MVP and prioritization.pdf by
MVP and prioritization.pdfMVP and prioritization.pdf
MVP and prioritization.pdfrahuldharwal141
39 views8 slides

Recently uploaded(20)

"Node.js Development in 2024: trends and tools", Nikita Galkin by Fwdays
"Node.js Development in 2024: trends and tools", Nikita Galkin "Node.js Development in 2024: trends and tools", Nikita Galkin
"Node.js Development in 2024: trends and tools", Nikita Galkin
Fwdays33 views
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlue by ShapeBlue
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlueCloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlue
CloudStack Object Storage - An Introduction - Vladimir Petrov - ShapeBlue
ShapeBlue139 views
"Package management in monorepos", Zoltan Kochan by Fwdays
"Package management in monorepos", Zoltan Kochan"Package management in monorepos", Zoltan Kochan
"Package management in monorepos", Zoltan Kochan
Fwdays34 views
Transcript: Redefining the book supply chain: A glimpse into the future - Tec... by BookNet Canada
Transcript: Redefining the book supply chain: A glimpse into the future - Tec...Transcript: Redefining the book supply chain: A glimpse into the future - Tec...
Transcript: Redefining the book supply chain: A glimpse into the future - Tec...
BookNet Canada41 views
State of the Union - Rohit Yadav - Apache CloudStack by ShapeBlue
State of the Union - Rohit Yadav - Apache CloudStackState of the Union - Rohit Yadav - Apache CloudStack
State of the Union - Rohit Yadav - Apache CloudStack
ShapeBlue303 views
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha... by ShapeBlue
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...
Mitigating Common CloudStack Instance Deployment Failures - Jithin Raju - Sha...
ShapeBlue183 views
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda... by ShapeBlue
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...
Hypervisor Agnostic DRS in CloudStack - Brief overview & demo - Vishesh Jinda...
ShapeBlue164 views
How to Re-use Old Hardware with CloudStack. Saving Money and the Environment ... by ShapeBlue
How to Re-use Old Hardware with CloudStack. Saving Money and the Environment ...How to Re-use Old Hardware with CloudStack. Saving Money and the Environment ...
How to Re-use Old Hardware with CloudStack. Saving Money and the Environment ...
ShapeBlue171 views
DRaaS using Snapshot copy and destination selection (DRaaS) - Alexandre Matti... by ShapeBlue
DRaaS using Snapshot copy and destination selection (DRaaS) - Alexandre Matti...DRaaS using Snapshot copy and destination selection (DRaaS) - Alexandre Matti...
DRaaS using Snapshot copy and destination selection (DRaaS) - Alexandre Matti...
ShapeBlue141 views
LLMs in Production: Tooling, Process, and Team Structure by Aggregage
LLMs in Production: Tooling, Process, and Team StructureLLMs in Production: Tooling, Process, and Team Structure
LLMs in Production: Tooling, Process, and Team Structure
Aggregage57 views
Live Demo Showcase: Unveiling Dell PowerFlex’s IaaS Capabilities with Apache ... by ShapeBlue
Live Demo Showcase: Unveiling Dell PowerFlex’s IaaS Capabilities with Apache ...Live Demo Showcase: Unveiling Dell PowerFlex’s IaaS Capabilities with Apache ...
Live Demo Showcase: Unveiling Dell PowerFlex’s IaaS Capabilities with Apache ...
ShapeBlue129 views
The Power of Generative AI in Accelerating No Code Adoption.pdf by Saeed Al Dhaheri
The Power of Generative AI in Accelerating No Code Adoption.pdfThe Power of Generative AI in Accelerating No Code Adoption.pdf
The Power of Generative AI in Accelerating No Code Adoption.pdf
Saeed Al Dhaheri39 views
The Power of Heat Decarbonisation Plans in the Built Environment by IES VE
The Power of Heat Decarbonisation Plans in the Built EnvironmentThe Power of Heat Decarbonisation Plans in the Built Environment
The Power of Heat Decarbonisation Plans in the Built Environment
IES VE84 views
Transitioning from VMware vCloud to Apache CloudStack: A Path to Profitabilit... by ShapeBlue
Transitioning from VMware vCloud to Apache CloudStack: A Path to Profitabilit...Transitioning from VMware vCloud to Apache CloudStack: A Path to Profitabilit...
Transitioning from VMware vCloud to Apache CloudStack: A Path to Profitabilit...
ShapeBlue162 views
Redefining the book supply chain: A glimpse into the future - Tech Forum 2023 by BookNet Canada
Redefining the book supply chain: A glimpse into the future - Tech Forum 2023Redefining the book supply chain: A glimpse into the future - Tech Forum 2023
Redefining the book supply chain: A glimpse into the future - Tech Forum 2023
BookNet Canada44 views

Featured

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present... by
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
55.5K views138 slides
12 Ways to Increase Your Influence at Work by
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
401.7K views64 slides
ChatGPT webinar slides by
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slidesAlireza Esmikhani
30.5K views36 slides
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G... by
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
3.6K views12 slides
Barbie - Brand Strategy Presentation by
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
25.1K views46 slides

Featured(20)

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present... by Applitools
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools55.5K views
12 Ways to Increase Your Influence at Work by GetSmarter
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter401.7K views
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G... by DevGAMM Conference
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference3.6K views
Barbie - Brand Strategy Presentation by Erica Santiago
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago25.1K views
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well by Saba Software
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software25.3K views
Introduction to C Programming Language by Simplilearn
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
Simplilearn8.5K views
The Pixar Way: 37 Quotes on Developing and Maintaining a Creative Company (fr... by Palo Alto Software
The Pixar Way: 37 Quotes on Developing and Maintaining a Creative Company (fr...The Pixar Way: 37 Quotes on Developing and Maintaining a Creative Company (fr...
The Pixar Way: 37 Quotes on Developing and Maintaining a Creative Company (fr...
Palo Alto Software88.4K views
9 Tips for a Work-free Vacation by Weekdone.com
9 Tips for a Work-free Vacation9 Tips for a Work-free Vacation
9 Tips for a Work-free Vacation
Weekdone.com7.2K views
How to Map Your Future by SlideShop.com
How to Map Your FutureHow to Map Your Future
How to Map Your Future
SlideShop.com275.1K views
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -... by AccuraCast
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...
AccuraCast3.4K views
Exploring ChatGPT for Effective Teaching and Learning.pptx by Stan Skrabut, Ed.D.
Exploring ChatGPT for Effective Teaching and Learning.pptxExploring ChatGPT for Effective Teaching and Learning.pptx
Exploring ChatGPT for Effective Teaching and Learning.pptx
Stan Skrabut, Ed.D.57.7K views
How to train your robot (with Deep Reinforcement Learning) by Lucas García, PhD
How to train your robot (with Deep Reinforcement Learning)How to train your robot (with Deep Reinforcement Learning)
How to train your robot (with Deep Reinforcement Learning)
Lucas García, PhD42.5K views
4 Strategies to Renew Your Career Passion by Daniel Goleman
4 Strategies to Renew Your Career Passion4 Strategies to Renew Your Career Passion
4 Strategies to Renew Your Career Passion
Daniel Goleman122K views
The Student's Guide to LinkedIn by LinkedIn
The Student's Guide to LinkedInThe Student's Guide to LinkedIn
The Student's Guide to LinkedIn
LinkedIn88.1K views
Different Roles in Machine Learning Career by Intellipaat
Different Roles in Machine Learning CareerDifferent Roles in Machine Learning Career
Different Roles in Machine Learning Career
Intellipaat12.4K views
Defining a Tech Project Vision in Eight Quick Steps pdf by TechSoup
Defining a Tech Project Vision in Eight Quick Steps pdfDefining a Tech Project Vision in Eight Quick Steps pdf
Defining a Tech Project Vision in Eight Quick Steps pdf
TechSoup 9.7K views

筑波大学附属図書館研究開発室 令和2年度研究成果報告

  • 1. 距離学習を用いたHuman-in-the-loop エンティティマッチングフレームワークの提案 大沢直史 𝟏) 伊藤寛祥 𝟐) 福島幸宏 𝟑) 原田隆史 4) 森嶋厚行 𝟐) 附属図書館研究開発室成果報告 第3プロジェクト 図書館への応用可能性を探るクラウドソーシング実証実験 1)知識情報・図書館学類 2)図書館情報メディア系 3)東京大学 情報学環・学際情報学府 4)同志社大学大学院 総合政策科学研究科 エンティティマッチングとは,データベース中において同一の実体を参照し ているレコードの集合を識別する問題である.エンティティマッチングは, データのクリーニングや複数のデータベースの統合において非常に重要である が,エンティティ作成時の入力の揺れや欠損がしばしば生じ,完全にルール ベースな手法ではすべてのエンティティに対して完全なマッチングを行うこと はできないという問題がある.加えて,データベースがもつレコード数が大き い場合,すべてのレコードの組み合わせを参照し,それらが同じエンティティ を参照しているか否かを判定する同定作業を行うためには膨大な計算時間がか かり,さらに同定にはその対象に合わせた正規化処理や同定キーの作成が必要 になるといった問題がある. 1.背景 3.提案手法 1. データベースSが持つ書誌データを距離空間上に埋め込む. 距離空間への埋め込みは4.実験で述べる距離学習モデルを用いて行われる. 2. 埋め込まれたデータをそれぞれノードとし,距離が最も近い上位K件のノー ドを接続するK近傍グラフを構築する. 3. 各ノードに対しScoreを計算. 𝑵 𝒗𝒊 はノード𝒗𝒊に対するエッジ集合である.基本的なアイデアは,K近傍 グラフにおいて2つのノードにおいて共有する隣接ノード数が多いほど, その2つのデータが統合されたときに縮約されるエッジ数が大きくなり, 結果として比較が必要になるデータのペア数が少なくなるというもの. 4. Scoreの高いノード同士を候補ペアとして二値分類モデルとクラウドソー シングによる同定を行う.ノード間がマッチした場合はノードが統合され ることでグラフの縮約が行われ,一致しなかった場合はそのノード間の エッジを切断する. 以上の操作を全てのノードが独立するまで繰り返す. 機械学習モデルとクラウドソーシングにおけるタスクの割り当ては,二値分 類モデルの確率的な出力𝜶を閾値として行う.二値分類モデルの出力が𝜶を下 回った場合にその書誌データのペアをクラウドソーシングのタスクとする. 提案手法の優位性 ◼ 全ての組み合わせを比較する必要がなくなるため,比較回数の削減が可能 ◼ 人間が同定プロセスに介入することによって品質向上に期待 4.実験とその結果 本研究ではHuman-in-the-loopに基づくアプローチに距離学習モデルと二 値分類モデルを用いた手法を提案する.距離学習とは,データ間の関係を考慮 し,同一のクラスに属するデータ同士は空間中で近い位置に埋め込み,異なる クラスに属するデータ同士は遠い位置に埋め込むようなマッピング関数を学習 する手法である.適切な距離学習が行えれば,同一レコードの可能性がある候 補のペア選択およびルールベースでは判定が難しいペアの選択について,アド ホックでないアプローチを提供することが期待できる. 2.目的 Same or Not 𝑀θ(7), 𝑀θ(8) 𝑀θ(7) 𝑀θ(8) Scoreの計算 ノードペアの同定 判定結果による グラフの更新 𝑀θ(𝑜) 𝑀θ(2) 𝑀θ(3) 𝑀θ(4) 距離空間 Database 𝑺 𝒊𝒅𝒐 … 𝒊𝒅𝟏 𝒊𝒅𝒏 距離学習されたデータを 空間に埋め込む K近傍グラフの構築 データベースの定義 𝑀θ(7), 𝑀θ(8) 𝑀θ(3) 𝑀θ(0) 𝑀θ(5) 𝑀θ(4), 𝑀θ(𝑛) エッジ数が0になるまで繰り返す 𝒊𝒅𝟕 , 𝒊𝒅𝟖 … 𝒊𝒅𝟒 , 𝒊𝒅𝒏 𝒊𝒅𝟎 𝒊𝒅𝟓 𝒊𝒅𝟑 ノード集合の獲得 図1.提案手法の手続き 本研究では国立国会図書館の総合目録によって作成された,表1に書誌デー タベースS内の書誌データマッチング問題を考える.実験は(1)二値分類モデル の構築(2)距離学習によるデータの表現(3)評価実験について行った. (1)二値分類モデルの構築 書誌データの一致/不一致を判定する二値分類モデルの構築を行う.二値 分類モデルは,表1に示すような書誌データがもつ各カラムの文字列から類 似度を複数算出し,その類似度を学習する. 学習の結果,別な書誌の組み合わせを判定する書誌割れに関して大きい貢 献するモデルを構築することが出来たが,反対に書誌誤同定に対しては改善 の余地が見られた. タイトル 巻号 著者 出版社 ISBN page cm 若おかみは小学生! 亜沙美,令丈ヒロ子 講談社 4061486136 215p 18cm 若おかみは小学生! : 花の湯温泉ストーリー 1 [PART1] 亜沙美,令丈ヒロ子 講談社 4061486136 215p 18cm (2)距離学習によるデータの表現 本実験では書誌データ間で発生する関係性を距離空間上に表現すること を目的とする.これは図1における𝑴𝜽にあたる.距離空間上において,類 似するデータは近く,非類似するデータは遠くなるように学習を行う. 提案手法の有効性を確認するための評価実験について述べる.実験は(1)提 案手法の比較回数の変化(2)提案手法によって獲得されるノード集合の再現率 (3)フレームワークの同定能力とタスク数についてそれぞれ確認を行う.同定 能力の評価の指標は再現率と適合率の調和平均であるF1値を用いる.比較対 象は書誌データが持つノードを書誌idの順に従って同定を行うナイーブな手法 である.本実験では,クラウドソーシングは正しい判定をすることを仮定して 行う. 表1.書誌データペアの例 (3)評価実験 (3-1)提案手法の比較回数,エッジ数の変化 図1.比較回数の変化 図2.エッジ数の変化 図1ではScoreの高いノードからグラフを縮約することで,ランダムに選 択したナイーブ手法と比較して比較回数を削減したことを示す.図2では 近傍探索数Kを大きくした場合,累計の比較回数に有意差が生じた. (3-2)ノード集合の再現率 (3-3)フレームワークの性能とタスク数 本研究ではK近傍グラフのエッジに対 して同定の判定を行う.より高精度に同 定を行うためには,マッチングすべきレ コードのペアがK近傍グラフのエッジに もれなく含んでいることが必要になる. 図3はK近傍グラフ構築時におけるマッ チングペアの再現率である. 図3. K近傍グラフ構築時の 同定ペアの再現率 クラウドソーシングによる同定シミュ レーションの結果, 機械学習モデルの閾 値𝜶を大きくした場合に提案手法のF1値 が向上した.これより 𝜶を大きくした場 合にタスク数が増加し,フレームワーク の性能を向上させることができる.一方 で一般にタスク数が増えるほど金銭的な コストが大きくなる. 図4. 𝜶を変化させた場合のF1値と ワーカに割り当てたタスクの数 5.まとめ 𝑺𝒄𝒐𝒓𝒆 𝒗𝒊, 𝒗𝒋 = ȁ𝑵 𝒗𝒊 ∩ ห 𝑵 𝒗𝒋 共通のスキーマを持つ複数のデータベースを対象としたエンティティマッチ ング手法として,距離学習を用いたHuman-in-the-loopエンティティマッチ ングフレームワークの提案を行った.提案手法の有効性を検討するため,国立 国会図書館の総合目録を利用したいくつかの実験を行った. 実験の結果,二値分類モデルの学習においては70¥%の精度が得られ,距離 学習を用いたブロッキングにおいては,K=10のK近傍グラフを構築すること で,約90%の再現率で同定候補をあげることができることを示した.また, 本フレームワークにおいて二値分類モデルの確信度の閾値を上げて,積極的に クラウドワーカーをタスクに取り入れることにより,二値分類モデルのみを用 いた場合よりも精度が向上することを示した.さらに,共有ノード数に基づく スコアリングを行うことで,ランダムにエッジを選択して統合する場合と比較 して比較回数が減少することを示した.