Cross search and_semantic_web_mbsj2013
Upcoming SlideShare
Loading in...5
×
 

Cross search and_semantic_web_mbsj2013

on

  • 527 views

第36回日本分子生物学会年会のワークショップ"データベースを使い倒した新しい研究スタイルによる分子生物学"での発表資料を公開します。

第36回日本分子生物学会年会のワークショップ"データベースを使い倒した新しい研究スタイルによる分子生物学"での発表資料を公開します。

Statistics

Views

Total Views
527
Views on SlideShare
501
Embed Views
26

Actions

Likes
4
Downloads
0
Comments
0

2 Embeds 26

https://twitter.com 25
http://s.deeeki.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Cross search and_semantic_web_mbsj2013 Cross search and_semantic_web_mbsj2013 Presentation Transcript

  • 生命科学分野の横断検索 サービスとセマンティック・ウェブ 医薬基盤研究所 伊藤真和吏 1
  • インターネット上での情報収集 2
  • Sagace 創薬・疾患研究のための生命科学分野のデータベースの横断検索サービス http://sagace.nibio.go.jp/ 3
  • h"p://integbio.jp/ja/ 4
  • 横断検索エンジンの仕組み 1.  CRAWLING 2.  INDEXING 3.  QUERY PROCESSING 4.  SCORING 5
  • CRAWLING データベース クローラー 6
  • INDEXING •  データを便利なサイズに分割し,サーバー上 へ保存 Indexing Data サーバー 7
  • QUERY PROCESSING AND SCORING 8
  • SEARCH SYSTEM NIBIO NBDC  /  DBCLS AgriTogo   MEDALS Collaborate by using P2P architecture JCGGDB   9
  • 横断検索サービス にとって 重要な事は何か
  • 速さと正確さ 11
  • 生命科学分野の 横断検索サービス にとって 重要な事は何か
  • 速さと正確さ 13
  • 1日700名程度の利用 ログ解析を実施 14
  • どんなデータベースの 需要があるのか (Sagaceの場合) •  ログを解析した結果,上位のデータベースは大体同じだった。 •  神8 –  特許   –  ゲノムネット医薬品データベース   –  医学・薬学予稿集全文データベース   –  お薬110番(ハイパー薬辞典)   –  「健康食品」の素材情報データベース   –  メルクマニュアル   –  医療情報サービスMINDS   –  ここカラダ お薬辞典   15
  • ログの解析による データベース間の比較 •  人気のあるデータベースは医薬に関す る“文字情報の多い”データベース •  上位のデータベースに人気は集中 •  半分以上のデータベースはサービス開 始時(2012年3月)からクリックされてい なかった。 16
  • Sagaceの取り組み •  ログのデータを検索結果のランキングに 反映 •  一度も検索されていないデータベースは 検索対象から排除(272DB → 122DB) 速さと正確さが向上 17
  • しかし 18
  • 生命科学分野の データベースは 文字情報が 少ないことも多い 19
  • どうするか? 20
  • セマンティックウェブ! 21
  • セマンティックウェブ? 22
  • セマンティックウェブとは コンピュータが理解できる 意味付けされた データのウェブ 23
  • 文書のウェブからデータのウェブへ 24 h"p://cellbank.nibio.go.jp/~cellbank/cgi-­‐bin/search_res_det.cgi?ID=3267
  • 横断検索の検索結果 25
  • 文書のウェブからデータのウェブへ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ 26 h"p://cellbank.nibio.go.jp/~cellbank/cgi-­‐bin/search_res_det.cgi?ID=3267
  • データのウェブ ウェブページB ウェブページA 細胞名 疾患名 細胞名 疾患名 エントリーID 生物種 論文 エントリーID 論文 生物種 27
  • データのウェブ ウェブページB ウェブページA 細胞名 疾患名 生物種 エントリー ID ウェブページC 細胞名 ウェブページD 疾患名 疾患名 疾患名 生物種 データベース名 論文 論文 論文 論文 論文 所属 研究者名 データベース名 エントリーID タンパク質名 28
  • Q. の疾患の掲載されている ウェブページは? ウェブページB ウェブページA 細胞名 疾患名 生物種 エントリー ID ウェブページC 細胞名 ウェブページD 疾患名 疾患名 疾患名 生物種 データベース名 論文 論文 論文 論文 論文 所属 研究者名 データベース名 エントリーID タンパク質名 A.ウェブページA,B,C,D 29
  • Q. の論文が掲載されているウェブ ページ数とそのデータベース名は? ウェブページB ウェブページA 細胞名 疾患名 生物種 エントリー ID ウェブページC 細胞名 ウェブページD 疾患名 疾患名 疾患名 生物種 データベース名 論文 論文 論文 データベース名 論文 論文 研究者名 データベース名 エントリーID タンパク質名 A.2つ(ウェブページC,D), 30
  • どう書くのか? 31
  • A(の1つ).メタデータによる マークアップ 32
  • メタデータとは? •  データの情報を示したデータ。 疾患:アルツハイマー病 生物種:ヒト 最終更新日:2012-10-24 文献:PubMed ID 23110816 関連するエントリ:OMIM 134400 33
  • 検索結果への反映 •  文字情報が少なくても,何に関するデータなのかが 推測できる。 34
  • どうメタデータを入れるのか? •  HTMLタグにメタデータを追記するだけ サンプルページ 2012-10-24 http://schema.org/BiologicalDatabaseEntry/dateModified 35
  • 反映方法 •  クローラーはメタデータの目印を発見して •  インデックスに導入し •  検索結果に反映させることが出来ます 36
  • 幸せ > 面倒  •  データベース開発者 –  検索結果により多くの情報を掲載できるように   –  データベースはそのままでメタデータが追記できる   •  ユーザー –  より有用な情報を簡単に得られるように   –  基礎研究と応用例を同時に比較しやすくなる   •  クローラー –  メタデータの検出のプログラムは1つで済む   37
  • 幸せ > 面倒  •  データベース開発者 –  メタデータを埋め込むのが面倒   •  ユーザー –  わざわざSagaceなんか使わなくとも良いデータ ベースを知っている。   •  クローラー –  幸せにしかなりません。すみません。   –  (DB開発者の皆さんに負担を強いるのが心苦しい)   38
  • Sagaceだけの話? •  いいえ。 •  Sagaceでサポートしているメタデータのマークアップ方式は Microdata(とRDFa Lite) •  MicrodataはBing, Google, Yahoo!など大手検索サービ ス提供企業が検索エンジンに利用をすることを協定している マークアップ方式です。 •  例えSagaceが無くなっても •  頑張り次第で,大手の検索エンジンの検索結果にも先ほど のようなデータが表示されます。 39
  • 頑張り次第? schema.org 検索表示対象 イマココ schema.orgへの 追加候補 40
  • schema.orgとは •  “schema.orgは、検索エンジン大手の Google、 Microsoft、Yahoo! がウェブの改善を目的として共 同で進めている、構造化データマークアップの共通 仕様を策定する取り組み。”(https://support.google.com/ webmasters/answer/1211158?hl=ja) •  生命科学のメタデータが大手の検索エンジンの検 索対象となるためには,ここに登録されることが必 要条件。 41
  • 現状 •  生命科学用のプロパティを策定しました。 –  entryID,  isEntryOf,  taxon,  seeAlso,  reference   •  http://www.w3.org/wiki/WebSchemas/BioDatabases •  以下のプロパティも利用できます – image,disease,dateModified   •  Sagaceの検索結果には反映できるようにしています。 •  マークアップ方法は •  h"p://sagace.nibio.go.jp/press/metadata/markup/ •  をご参照ください。 42
  • 8つのDBが採用 •  DoBISCUIT(Database Of BIoSynthesis clusters CUrated and InTegrated) •  JCRB細胞バンク •  Functional Glycomics with KO mice database •  Glyco-Disease Genes Database •  JCGGDB Report •  MEDALS •  Integbio データベースカタログ •  LSDBアーカイブ 43
  • 検索結果例 44
  • 検索結果例 45
  • 希望 schema.org 大手検索エンジン 検索表示対象 まずはここに行きたい schema.orgへの 追加候補 46
  • Schema.orgに正式に採用さ れるために •  “NEED MORE PEOPLE WHO THINK IT IS A GOOD IDEA.” (BY ORGANIZERS @ SCHEMA.ORG) –  PUBLIC-­‐VOCABS@W3.ORG  (<-­‐  ML  LET’S  JOIN  !)   • より多くのデータベース のご協力が必要です。 47
  • microdata and RDFa Lite •  microdata •  大手の検索エンジンへの採用をプッシュしたい。 •  とりあえず,メタデータを入れてみたい。 •  RDFa Lite •  既にRDFを多く利用している。 •  今後,RDFを積極的に作る予定がある。 Sagaceはどちらもサポートします。 48
  • Future Perspective •  創薬疾患関連のデータベースを検索対象に追加 •  メタデータに文献データの追加 •  検索結果へのRDFa Liteの活用 49
  • 謝辞 •  医薬基盤研究所 –  –  –  –  –  –  –  –  –  水口 賢司 森田 瑞樹 五十嵐 芳暢 坂手 龍一 長尾 知生子 陳 怡安 深川 明子 増井 徹   Johan  Nystrom-­‐Persson   •  •  •  •  バイオサイエンスデータベース センター (NBDC) 農業生物資源研究所 (NIAS) 産業技術総合研究所 創薬分 子プロファイリング研究セン ター (molprof) 産業技術総合研究所 糖鎖医 工学研究センター (JCGGDB) •  本プロジェクトはNBDCとの共同研究「医薬基盤研究所データベースの 統合化と外部連携」における支援を受けています。 50