Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック

445 views

Published on

2014/5/13人工知能学会全国大会資料

Published in: Technology
  • Be the first to comment

  • Be the first to like this

20140513大規模異分野データ横断検索における時空間情報を用いた擬似適合性フィードバック

  1. 1. 大規模異分野データ横断検索における 時空間情報を用いた擬似適合性フィードバック 情報通信研究機構(NICT) ユニバーサルコミュニケーション研究所 竹内伸一, 赤星祐平, Bun Theang Ong, ○杉浦孔明, 是津耕司
  2. 2. 背景:本研究のターゲットはオープンサイエンスデータの 検索である • なぜ科学データ検索が必要か – 政府系ファンドの要請で研究成果 のオープンアクセス化が進みつつ ある – オープン化しても検索できなけれ ば意味がない 10件中、正しい 結果は1件のみ • 既存システム – ポータル型: WDS Portal, Pangaea Portal, … – 検索エンジン型:Google Fusion Tables, …
  3. 3. 既存システムの例 • Google Fusion Tables – https://research.google.com/tables?source=fthm • Pangaea – http://www.pangaea.de/
  4. 4. オープンサイエンスデータ検索の難しさ • ウェブページ検索に比べ、利用できるテキスト情報が少ない – 例:Pangaea内でアブストラクトを持つデータセットは1.7% 情報 データセット数 割合 [%] Pangaea 全体 405456 - アブストラクト有り 7028 1.7 時間情報有り 297478 73.3 空間情報有り 404145 99.6 時空間情報有り 297037 73.2 本研究でのデータセットの定義:メタデータが与えられたデータ集合 cf: NICTで収集中の科学データセットの総数 ≒80万
  5. 5. 代表的な既存研究 • 擬似適合性フィードバック=Pseudo (Blind) Relevance Feedback: PRF 分野 代表 科学データ検索 • 時空間メタデータの生成 [Pallickara+ 2010] • 時空間をテキスト化しKVS型DBで操作[Fox+ 2013] PRF原型 TRECタスクで有効であることを確認 [Buckley+ 1995] PRF応用 マイクロブログ検索、時間表現抽出など[Lioma+ 2008, Lv+ 2010, Chen+ 2013] 本研究の新規性 • Space-Time-Text(STT)情報を用いた擬似適合性フィードバック • データセット間距離に時空間分布のBhattacharyya距離を導入
  6. 6. 標準的なデータ構造:以降、データセットは本形式を指す ものとする 引用情報 (著者など) データ本体 (続く) 何を観測したか 時空間情報 データ セット
  7. 7. 本研究におけるSpace-Time-Text情報 • 特徴量 – 時間: 点 or 範囲 – 空間: 点 or 範囲 or 範囲+中央値 – テキスト: メタデータ中の全テキスト Median Latitude: -77.323945 * Median Longitude: 162.036590 * South-bound Latitude:-77.351530 * West-bound Longitude: 159.870430 * North-bound Latitude: -77.266670 * East-bound Longitude: 163.250000 例
  8. 8. システム概略:システムはキーワードクエリからSpace- Time-Text (STT)クエリを生成する ブラウザ 時間スコア 計算部 入力画面 検索用 インデックス 出力画面 システム キーワードクエリ DS (仮適合)DS 時間クエリ DB検索部 クラスタリング部 DS DSクラスタ キーワードクエリ DS STTクエリ 空間クエリ STTクエリ 空間スコア 計算部 キーワード スコア計算部 スコア統合部 キーワード クエリ構築部 空間クエリ 構築部 検索結果取得部 検索結果取得部 STTクエリ 構築部 時間クエリ 構築部
  9. 9. 提案手法:時空間範囲を正規分布で近似し、分布間距離を 定義する 検索対象のSTTスコアを以下で定義 𝜙𝜙 𝑦𝑦 = 𝑤𝑤𝑠𝑠 𝜙𝜙𝑠𝑠 𝑦𝑦 + 𝑤𝑤𝑡𝑡 𝜙𝜙𝑡𝑡 𝑦𝑦 + 𝜙𝜙𝑘𝑘(𝑦𝑦) 𝜙𝜙𝑠𝑠(𝑦𝑦) = exp(−( min 𝑦𝑦′∈𝑌𝑌𝐿𝐿 𝑑𝑑𝑠𝑠 𝑦𝑦, 𝑦𝑦′ )2) 距離 d の尺度としてBhattacharyya距離を用いる 𝑑𝑑 𝑦𝑦𝑖𝑖, 𝑦𝑦𝑗𝑗 = 1 8 𝝁𝝁𝑖𝑖 − 𝝁𝝁𝑗𝑗 ′ Σ𝑖𝑖 + Σ𝑗𝑗 2 −1 𝝁𝝁𝑖𝑖 − 𝝁𝝁𝑗𝑗 + 1 2 ln det Σ𝑖𝑖 + Σ𝑗𝑗 2 det Σ𝑖𝑖 det(Σ𝑗𝑗) テキスト時間空間 *時間スコアは空間スコアと同様 *テキストスコアはコサイン距離
  10. 10. 実験:評価のために科学分野のテストセットを構築した • 現状では、オープンサイエンスデータ検索の標準的なデータセッ トは存在しない • 著者らが構築したテストセット – クエリ: 科学用語 – 検索対象: データセット – 被験者3名による正解ラベリング サイズ 収集元 テスト用クエリ (科学用語) 20 Cross-DB, Google Trends, Microsoft Academic Search, SWEET Ontology 検索対象 (データセット) 120/クエリ Pangaea Portalでの検索結果 上位120位
  11. 11. 定性的結果:クエリ「sediment」 緑:正解(関連度高) 赤:不正解(関連度低) ベースライン提案手法
  12. 12. 実験条件:定量比較 • 被験者による正解ラベリング – 被験者: 修士号(自然科学)以上を持つ3名 – 関連度: 0(全く関連しない)~3(非常に関連する) • 評価尺度 – nDCG@k, Precision@k, Recall@k, Average Precision P@𝑘𝑘 = tp@𝑘𝑘 tp@𝑘𝑘 + fp@𝑘𝑘 R@𝑘𝑘 = tp@𝑘𝑘 tp@𝑘𝑘 + fn@ALL AP = 1 𝑁𝑁 � 𝑘𝑘=1 𝑁𝑁 rel 𝑘𝑘 P@𝑘𝑘 比較対象 テキストPRF 時空間PRF ベースライン なし なし Text-PRF あり なし STT-PRF あり あり
  13. 13. 定量的結果1:Text-PRFおよびSTT-PRFにより、Average Precisionを向上できた 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 1 2 5 10 20 50 100 Baseline Text-PRF STT-PRF AP abstract含有率[%] 科学データ検索で標準的な設定 において、STT-PRFが優れる
  14. 14. 定量的結果2:Recall, AP, 検索ヒット数においてSTT-PRFが 優れる nDCG@30 P@30 R@30 AP #Hit Baseline 0.748 0.417 0.120 0.119 14.5 ST-PRF 0.689 0.402 0.245 0.215 31.2 Text-PRF 0.753 0.341 0.253 0.362 96.9 STT-PRF 0.741 0.340 0.278 0.367 97.4 Abstract含有率=2%(Pangaeaと同等条件)
  15. 15. 今後の方向性:異分野データへの適用 75種類・125万データセット・2.5PB規模のデータを収集済 分類 種類 物理センサーデータ 地震情報、地滑り危険地域情報、感染症情報、花粉情報、環境放射線水準情報、降雨量情報、積雪 量情報、気温情報、風速風向情報、台風情報(国内・国外)、犯罪情報、河川水位・雨量情報、潮位情 報、インフルエンザ情報、世界災害情報、大気質情報など49種類 [1.7GB/日増加] 社会センサーデータ Twitterアーカイブ、ジオタグ付Twitterデータ、トレンドキーワードで集約したTwitterデータ、RSSニュース、 Googleニュース [20GB/日増加] WISDOM 2013データ (含Webアーカイブ) 全文データ、言語解析済みデータファイル、発信者データ、評判データ、係り受けデータ 科学データ World Data Systemメタデータ(Pangaea, ICPSR, DRYAD, ESDS, ADAなど25種類40分野) オープンガバメントデータ Data.govなど世界全17機関で公開されている電子政府オープンデータのメタデータ 地理データ ランドマーク、避難所データ 言語データ EDR概念辞書、日本語WordNet、WordNet 情報分析ツール 意見評価、一休サービス、文・フレーズ間の意味的関係DB等 翻訳ツール VoiceTraテキスト翻訳、JServer テキスト解析ツール 固有名詞抽出、形態素解析器、係り受け解析器 地理情報ツール Google Geocoding、Yahoo Contents Geocoder、ランドマーク名抽出、郵便番号検索、GeoNLP 音声ツール VoiceTra音声サービス(認識、合成)、Rospeexクラウド型音声コミュニケーションサービス (2014年1月時点)
  16. 16. まとめ • 手法の新規性 – Space-Time-Text(STT)情報を用いた擬似適合性フィードバック • 結果 – 応用を想定した条件でRecall, AP, 検索ヒット数を向上できた • どんな応用があるか – Twitter等の時空間タグ付きテキストデータの類似検索

×