Your SlideShare is downloading. ×
0
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Cross search and_semantic_web_mbsj2013
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Cross search and_semantic_web_mbsj2013

599

Published on

第36回日本分子生物学会年会のワークショップ"データベースを使い倒した新しい研究スタイルによる分子生物学"での発表資料を公開します。

第36回日本分子生物学会年会のワークショップ"データベースを使い倒した新しい研究スタイルによる分子生物学"での発表資料を公開します。

Published in: Health & Medicine
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
599
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
1
Comments
0
Likes
4
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 生命科学分野の横断検索 サービスとセマンティック・ウェブ 医薬基盤研究所 伊藤真和吏 1
  • 2. インターネット上での情報収集 2
  • 3. Sagace 創薬・疾患研究のための生命科学分野のデータベースの横断検索サービス http://sagace.nibio.go.jp/ 3
  • 4. h"p://integbio.jp/ja/ 4
  • 5. 横断検索エンジンの仕組み 1.  CRAWLING 2.  INDEXING 3.  QUERY PROCESSING 4.  SCORING 5
  • 6. CRAWLING データベース クローラー 6
  • 7. INDEXING •  データを便利なサイズに分割し,サーバー上 へ保存 Indexing Data サーバー 7
  • 8. QUERY PROCESSING AND SCORING 8
  • 9. SEARCH SYSTEM NIBIO NBDC  /  DBCLS AgriTogo   MEDALS Collaborate by using P2P architecture JCGGDB   9
  • 10. 横断検索サービス にとって 重要な事は何か
  • 11. 速さと正確さ 11
  • 12. 生命科学分野の 横断検索サービス にとって 重要な事は何か
  • 13. 速さと正確さ 13
  • 14. 1日700名程度の利用 ログ解析を実施 14
  • 15. どんなデータベースの 需要があるのか (Sagaceの場合) •  ログを解析した結果,上位のデータベースは大体同じだった。 •  神8 –  特許   –  ゲノムネット医薬品データベース   –  医学・薬学予稿集全文データベース   –  お薬110番(ハイパー薬辞典)   –  「健康食品」の素材情報データベース   –  メルクマニュアル   –  医療情報サービスMINDS   –  ここカラダ お薬辞典   15
  • 16. ログの解析による データベース間の比較 •  人気のあるデータベースは医薬に関す る“文字情報の多い”データベース •  上位のデータベースに人気は集中 •  半分以上のデータベースはサービス開 始時(2012年3月)からクリックされてい なかった。 16
  • 17. Sagaceの取り組み •  ログのデータを検索結果のランキングに 反映 •  一度も検索されていないデータベースは 検索対象から排除(272DB → 122DB) 速さと正確さが向上 17
  • 18. しかし 18
  • 19. 生命科学分野の データベースは 文字情報が 少ないことも多い 19
  • 20. どうするか? 20
  • 21. セマンティックウェブ! 21
  • 22. セマンティックウェブ? 22
  • 23. セマンティックウェブとは コンピュータが理解できる 意味付けされた データのウェブ 23
  • 24. 文書のウェブからデータのウェブへ 24 h"p://cellbank.nibio.go.jp/~cellbank/cgi-­‐bin/search_res_det.cgi?ID=3267
  • 25. 横断検索の検索結果 25
  • 26. 文書のウェブからデータのウェブへ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ データ 26 h"p://cellbank.nibio.go.jp/~cellbank/cgi-­‐bin/search_res_det.cgi?ID=3267
  • 27. データのウェブ ウェブページB ウェブページA 細胞名 疾患名 細胞名 疾患名 エントリーID 生物種 論文 エントリーID 論文 生物種 27
  • 28. データのウェブ ウェブページB ウェブページA 細胞名 疾患名 生物種 エントリー ID ウェブページC 細胞名 ウェブページD 疾患名 疾患名 疾患名 生物種 データベース名 論文 論文 論文 論文 論文 所属 研究者名 データベース名 エントリーID タンパク質名 28
  • 29. Q. の疾患の掲載されている ウェブページは? ウェブページB ウェブページA 細胞名 疾患名 生物種 エントリー ID ウェブページC 細胞名 ウェブページD 疾患名 疾患名 疾患名 生物種 データベース名 論文 論文 論文 論文 論文 所属 研究者名 データベース名 エントリーID タンパク質名 A.ウェブページA,B,C,D 29
  • 30. Q. の論文が掲載されているウェブ ページ数とそのデータベース名は? ウェブページB ウェブページA 細胞名 疾患名 生物種 エントリー ID ウェブページC 細胞名 ウェブページD 疾患名 疾患名 疾患名 生物種 データベース名 論文 論文 論文 データベース名 論文 論文 研究者名 データベース名 エントリーID タンパク質名 A.2つ(ウェブページC,D), 30
  • 31. どう書くのか? 31
  • 32. A(の1つ).メタデータによる マークアップ 32
  • 33. メタデータとは? •  データの情報を示したデータ。 疾患:アルツハイマー病 生物種:ヒト 最終更新日:2012-10-24 文献:PubMed ID 23110816 関連するエントリ:OMIM 134400 33
  • 34. 検索結果への反映 •  文字情報が少なくても,何に関するデータなのかが 推測できる。 34
  • 35. どうメタデータを入れるのか? •  HTMLタグにメタデータを追記するだけ サンプルページ 2012-10-24 http://schema.org/BiologicalDatabaseEntry/dateModified 35
  • 36. 反映方法 •  クローラーはメタデータの目印を発見して •  インデックスに導入し •  検索結果に反映させることが出来ます 36
  • 37. 幸せ > 面倒  •  データベース開発者 –  検索結果により多くの情報を掲載できるように   –  データベースはそのままでメタデータが追記できる   •  ユーザー –  より有用な情報を簡単に得られるように   –  基礎研究と応用例を同時に比較しやすくなる   •  クローラー –  メタデータの検出のプログラムは1つで済む   37
  • 38. 幸せ > 面倒  •  データベース開発者 –  メタデータを埋め込むのが面倒   •  ユーザー –  わざわざSagaceなんか使わなくとも良いデータ ベースを知っている。   •  クローラー –  幸せにしかなりません。すみません。   –  (DB開発者の皆さんに負担を強いるのが心苦しい)   38
  • 39. Sagaceだけの話? •  いいえ。 •  Sagaceでサポートしているメタデータのマークアップ方式は Microdata(とRDFa Lite) •  MicrodataはBing, Google, Yahoo!など大手検索サービ ス提供企業が検索エンジンに利用をすることを協定している マークアップ方式です。 •  例えSagaceが無くなっても •  頑張り次第で,大手の検索エンジンの検索結果にも先ほど のようなデータが表示されます。 39
  • 40. 頑張り次第? schema.org 検索表示対象 イマココ schema.orgへの 追加候補 40
  • 41. schema.orgとは •  “schema.orgは、検索エンジン大手の Google、 Microsoft、Yahoo! がウェブの改善を目的として共 同で進めている、構造化データマークアップの共通 仕様を策定する取り組み。”(https://support.google.com/ webmasters/answer/1211158?hl=ja) •  生命科学のメタデータが大手の検索エンジンの検 索対象となるためには,ここに登録されることが必 要条件。 41
  • 42. 現状 •  生命科学用のプロパティを策定しました。 –  entryID,  isEntryOf,  taxon,  seeAlso,  reference   •  http://www.w3.org/wiki/WebSchemas/BioDatabases •  以下のプロパティも利用できます – image,disease,dateModified   •  Sagaceの検索結果には反映できるようにしています。 •  マークアップ方法は •  h"p://sagace.nibio.go.jp/press/metadata/markup/ •  をご参照ください。 42
  • 43. 8つのDBが採用 •  DoBISCUIT(Database Of BIoSynthesis clusters CUrated and InTegrated) •  JCRB細胞バンク •  Functional Glycomics with KO mice database •  Glyco-Disease Genes Database •  JCGGDB Report •  MEDALS •  Integbio データベースカタログ •  LSDBアーカイブ 43
  • 44. 検索結果例 44
  • 45. 検索結果例 45
  • 46. 希望 schema.org 大手検索エンジン 検索表示対象 まずはここに行きたい schema.orgへの 追加候補 46
  • 47. Schema.orgに正式に採用さ れるために •  “NEED MORE PEOPLE WHO THINK IT IS A GOOD IDEA.” (BY ORGANIZERS @ SCHEMA.ORG) –  PUBLIC-­‐VOCABS@W3.ORG  (<-­‐  ML  LET’S  JOIN  !)   • より多くのデータベース のご協力が必要です。 47
  • 48. microdata and RDFa Lite •  microdata •  大手の検索エンジンへの採用をプッシュしたい。 •  とりあえず,メタデータを入れてみたい。 •  RDFa Lite •  既にRDFを多く利用している。 •  今後,RDFを積極的に作る予定がある。 Sagaceはどちらもサポートします。 48
  • 49. Future Perspective •  創薬疾患関連のデータベースを検索対象に追加 •  メタデータに文献データの追加 •  検索結果へのRDFa Liteの活用 49
  • 50. 謝辞 •  医薬基盤研究所 –  –  –  –  –  –  –  –  –  水口 賢司 森田 瑞樹 五十嵐 芳暢 坂手 龍一 長尾 知生子 陳 怡安 深川 明子 増井 徹   Johan  Nystrom-­‐Persson   •  •  •  •  バイオサイエンスデータベース センター (NBDC) 農業生物資源研究所 (NIAS) 産業技術総合研究所 創薬分 子プロファイリング研究セン ター (molprof) 産業技術総合研究所 糖鎖医 工学研究センター (JCGGDB) •  本プロジェクトはNBDCとの共同研究「医薬基盤研究所データベースの 統合化と外部連携」における支援を受けています。 50

×