SlideShare a Scribd company logo
1 of 50
Download to read offline
生命科学分野の横断検索
サービスとセマンティック・ウェブ	
医薬基盤研究所 伊藤真和吏	

1
インターネット上での情報収集	

2
Sagace	
創薬・疾患研究のための生命科学分野のデータベースの横断検索サービス

http://sagace.nibio.go.jp/	

3
h"p://integbio.jp/ja/	
4
横断検索エンジンの仕組み	
1.  CRAWLING
2.  INDEXING
3.  QUERY PROCESSING	
4.  SCORING

5
CRAWLING	

データベース	

クローラー	
6
INDEXING	
•  データを便利なサイズに分割し,サーバー上
へ保存	
Indexing Data	

サーバー	
7
QUERY PROCESSING AND
SCORING 	

8
SEARCH SYSTEM	
NIBIO	

NBDC	
  /	
  DBCLS	

AgriTogo	
  

MEDALS	

Collaborate by
using P2P
architecture	

JCGGDB	
  

9
横断検索サービス
にとって
重要な事は何か
速さと正確さ	
11
生命科学分野の
横断検索サービス
にとって
重要な事は何か
速さと正確さ	
13
1日700名程度の利用	

ログ解析を実施	
14
どんなデータベースの
需要があるのか (Sagaceの場合)	
•  ログを解析した結果,上位のデータベースは大体同じだった。
•  神8
–  特許	
  
–  ゲノムネット医薬品データベース	
  
–  医学・薬学予稿集全文データベース	
  
–  お薬110番(ハイパー薬辞典) 	
  
–  「健康食品」の素材情報データベース	
  
–  メルクマニュアル	
  
–  医療情報サービスMINDS	
  
–  ここカラダ お薬辞典 	
  
15
ログの解析による
データベース間の比較	
•  人気のあるデータベースは医薬に関す
る“文字情報の多い”データベース
•  上位のデータベースに人気は集中
•  半分以上のデータベースはサービス開
始時(2012年3月)からクリックされてい
なかった。	

16
Sagaceの取り組み	
•  ログのデータを検索結果のランキングに
反映
•  一度も検索されていないデータベースは
検索対象から排除(272DB → 122DB)	

速さと正確さが向上	

17
しかし	
18
生命科学分野の
データベースは
文字情報が
少ないことも多い	
19
どうするか?	
20
セマンティックウェブ!	

21
セマンティックウェブ?	

22
セマンティックウェブとは	

コンピュータが理解できる
意味付けされた
データのウェブ	
23
文書のウェブからデータのウェブへ	

24	
h"p://cellbank.nibio.go.jp/~cellbank/cgi-­‐bin/search_res_det.cgi?ID=3267
横断検索の検索結果	

25
文書のウェブからデータのウェブへ	
データ	

データ	
データ	

データ	
データ	
データ	
データ	
データ	
データ	
データ	
データ	
データ	

データ	
データ	
データ	
データ	
データ	
データ	
データ	
データ	

データ	

26	
h"p://cellbank.nibio.go.jp/~cellbank/cgi-­‐bin/search_res_det.cgi?ID=3267
データのウェブ	
ウェブページB	

ウェブページA 	
細胞名	
疾患名	

細胞名	
疾患名	

エントリーID	

生物種	
論文	
エントリーID	

論文	
生物種	

27
データのウェブ	
ウェブページB	

ウェブページA 	
細胞名	
疾患名	
生物種	
エントリー
ID	

ウェブページC	

細胞名	

ウェブページD	
疾患名	
疾患名	
疾患名	

生物種	

データベース名	

論文	

論文	
論文	

論文	

論文	

所属	

研究者名	
データベース名	

エントリーID	

タンパク質名	

28
Q. の疾患の掲載されている
ウェブページは?	
ウェブページB	

ウェブページA 	
細胞名	
疾患名	
生物種	
エントリー
ID	

ウェブページC	

細胞名	

ウェブページD	
疾患名	
疾患名	
疾患名	

生物種	

データベース名	

論文	

論文	
論文	

論文	

論文	

所属	

研究者名	
データベース名	

エントリーID	

タンパク質名	

A.ウェブページA,B,C,D	
29
Q. の論文が掲載されているウェブ
ページ数とそのデータベース名は?	
ウェブページB	

ウェブページA 	
細胞名	
疾患名	
生物種	
エントリー
ID	

ウェブページC	

細胞名	

ウェブページD	
疾患名	
疾患名	
疾患名	

生物種	

データベース名	

論文	

論文	
論文	

データベース名	
論文	

論文	
研究者名	

データベース名	

エントリーID	

タンパク質名	

A.2つ(ウェブページC,D),	
30
どう書くのか?	

31
A(の1つ).メタデータによる
マークアップ	

32
メタデータとは?	
•  データの情報を示したデータ。	

疾患:アルツハイマー病	
生物種:ヒト
最終更新日:2012-10-24
文献:PubMed ID 23110816
関連するエントリ:OMIM 134400	

33
検索結果への反映	
•  文字情報が少なくても,何に関するデータなのかが
推測できる。	

34
どうメタデータを入れるのか?	
•  HTMLタグにメタデータを追記するだけ	

サンプルページ	

2012-10-24	

http://schema.org/BiologicalDatabaseEntry/dateModified	

35
反映方法	
•  クローラーはメタデータの目印を発見して

•  インデックスに導入し

•  検索結果に反映させることが出来ます

36
幸せ > 面倒 	
•  データベース開発者
–  検索結果により多くの情報を掲載できるように	
  
–  データベースはそのままでメタデータが追記できる	
  
•  ユーザー
–  より有用な情報を簡単に得られるように	
  
–  基礎研究と応用例を同時に比較しやすくなる	
  
•  クローラー
–  メタデータの検出のプログラムは1つで済む	
  
37
幸せ > 面倒 	
•  データベース開発者
–  メタデータを埋め込むのが面倒	
  
•  ユーザー
–  わざわざSagaceなんか使わなくとも良いデータ
ベースを知っている。	
  
•  クローラー
–  幸せにしかなりません。すみません。	
  
–  (DB開発者の皆さんに負担を強いるのが心苦しい)	
  

38
Sagaceだけの話?	
•  いいえ。
•  Sagaceでサポートしているメタデータのマークアップ方式は
Microdata(とRDFa Lite)
•  MicrodataはBing, Google, Yahoo!など大手検索サービ
ス提供企業が検索エンジンに利用をすることを協定している
マークアップ方式です。
•  例えSagaceが無くなっても
•  頑張り次第で,大手の検索エンジンの検索結果にも先ほど
のようなデータが表示されます。

39
頑張り次第?	
schema.org
検索表示対象

イマココ	

schema.orgへの
追加候補
40
schema.orgとは	
•  “schema.orgは、検索エンジン大手の Google、
Microsoft、Yahoo! がウェブの改善を目的として共
同で進めている、構造化データマークアップの共通
仕様を策定する取り組み。”(https://support.google.com/
webmasters/answer/1211158?hl=ja)

•  生命科学のメタデータが大手の検索エンジンの検
索対象となるためには,ここに登録されることが必
要条件。	

41
現状	
•  生命科学用のプロパティを策定しました。

–  entryID,	
  isEntryOf,	
  taxon,	
  seeAlso,	
  reference	
  
•  http://www.w3.org/wiki/WebSchemas/BioDatabases
•  以下のプロパティも利用できます

– image,disease,dateModified	
  
•  Sagaceの検索結果には反映できるようにしています。
•  マークアップ方法は

•  h"p://sagace.nibio.go.jp/press/metadata/markup/	
•  をご参照ください。	

42
8つのDBが採用	
•  DoBISCUIT(Database Of BIoSynthesis clusters
CUrated and InTegrated)
•  JCRB細胞バンク
•  Functional Glycomics with KO mice database
•  Glyco-Disease Genes Database
•  JCGGDB Report
•  MEDALS
•  Integbio データベースカタログ
•  LSDBアーカイブ	

43
検索結果例	

44
検索結果例	

45
希望	
schema.org
大手検索エンジン
検索表示対象

まずはここに行きたい	

schema.orgへの
追加候補
46
Schema.orgに正式に採用さ
れるために	
•  “NEED MORE PEOPLE WHO THINK IT IS A GOOD IDEA.” (BY
ORGANIZERS @ SCHEMA.ORG)

–  PUBLIC-­‐VOCABS@W3.ORG	
  (<-­‐	
  ML	
  LET’S	
  JOIN	
  !)	
  

• より多くのデータベース
のご協力が必要です。
47
microdata and RDFa Lite	
•  microdata
•  大手の検索エンジンへの採用をプッシュしたい。
•  とりあえず,メタデータを入れてみたい。

•  RDFa Lite
•  既にRDFを多く利用している。
•  今後,RDFを積極的に作る予定がある。

Sagaceはどちらもサポートします。

48
Future Perspective	
•  創薬疾患関連のデータベースを検索対象に追加
•  メタデータに文献データの追加
•  検索結果へのRDFa Liteの活用

49
謝辞	
•  医薬基盤研究所
– 
– 
– 
– 
– 
– 
– 
– 
– 

水口 賢司	
森田 瑞樹	
五十嵐 芳暢	
坂手 龍一	
長尾 知生子	
陳 怡安	
深川 明子	
増井 徹	
  
Johan	
  Nystrom-­‐Persson	
  	

• 
• 
• 

• 

バイオサイエンスデータベース
センター (NBDC)
農業生物資源研究所 (NIAS)
産業技術総合研究所 創薬分
子プロファイリング研究セン
ター (molprof)
産業技術総合研究所 糖鎖医
工学研究センター (JCGGDB)

•  本プロジェクトはNBDCとの共同研究「医薬基盤研究所データベースの
統合化と外部連携」における支援を受けています。	

50

More Related Content

Similar to Cross search and_semantic_web_mbsj2013

第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
Hidemasa Bono
 
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
Eli Kaminuma
 
Lk with io drive solution 20130508
Lk with io drive solution 20130508Lk with io drive solution 20130508
Lk with io drive solution 20130508
tdaitoku
 
Backlog APIで現在(いま)必要なデータを集める-ドゥウェル株式会社 三浦恒樹
Backlog APIで現在(いま)必要なデータを集める-ドゥウェル株式会社 三浦恒樹Backlog APIで現在(いま)必要なデータを集める-ドゥウェル株式会社 三浦恒樹
Backlog APIで現在(いま)必要なデータを集める-ドゥウェル株式会社 三浦恒樹
koukimiurah
 

Similar to Cross search and_semantic_web_mbsj2013 (20)

介護医療業界におけるマイクロソフトテクノロジー動向
介護医療業界におけるマイクロソフトテクノロジー動向介護医療業界におけるマイクロソフトテクノロジー動向
介護医療業界におけるマイクロソフトテクノロジー動向
 
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
CBI学会2013チュートリアル NGSデータ解析入門(実験条件編) 配布資料
 
20140612 ddbjing_minowa_NBDChumanDB&JGA
20140612 ddbjing_minowa_NBDChumanDB&JGA20140612 ddbjing_minowa_NBDChumanDB&JGA
20140612 ddbjing_minowa_NBDChumanDB&JGA
 
DDBJing on 20140612 by Hidemasa Bono
DDBJing on 20140612 by Hidemasa BonoDDBJing on 20140612 by Hidemasa Bono
DDBJing on 20140612 by Hidemasa Bono
 
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」
 
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
 
[DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in...
[DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in...[DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in...
[DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in...
 
DDBJ Nucleotide Sequence Submission System の紹介
DDBJ Nucleotide Sequence Submission System の紹介DDBJ Nucleotide Sequence Submission System の紹介
DDBJ Nucleotide Sequence Submission System の紹介
 
大規模医療データベースを活用した治療効果研究の計画と報告:DB研究の手続き
大規模医療データベースを活用した治療効果研究の計画と報告:DB研究の手続き大規模医療データベースを活用した治療効果研究の計画と報告:DB研究の手続き
大規模医療データベースを活用した治療効果研究の計画と報告:DB研究の手続き
 
Data Visualization Japan Meetup 2018: 長く変化に対応する
Data Visualization Japan Meetup 2018: 長く変化に対応するData Visualization Japan Meetup 2018: 長く変化に対応する
Data Visualization Japan Meetup 2018: 長く変化に対応する
 
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaCytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
 
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
 
NBDCヒトデータベースのルールと仕組み
NBDCヒトデータベースのルールと仕組みNBDCヒトデータベースのルールと仕組み
NBDCヒトデータベースのルールと仕組み
 
36th mtg in NIBIO
 36th mtg in NIBIO 36th mtg in NIBIO
36th mtg in NIBIO
 
Lk with io drive solution 20130508
Lk with io drive solution 20130508Lk with io drive solution 20130508
Lk with io drive solution 20130508
 
オープンデータとマイクロソフト技術による地理空間情報の活用
オープンデータとマイクロソフト技術による地理空間情報の活用オープンデータとマイクロソフト技術による地理空間情報の活用
オープンデータとマイクロソフト技術による地理空間情報の活用
 
研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向について研究データ利活用に関する国内活動及び国際動向について
研究データ利活用に関する国内活動及び国際動向について
 
Backlog APIで現在(いま)必要なデータを集める-ドゥウェル株式会社 三浦恒樹
Backlog APIで現在(いま)必要なデータを集める-ドゥウェル株式会社 三浦恒樹Backlog APIで現在(いま)必要なデータを集める-ドゥウェル株式会社 三浦恒樹
Backlog APIで現在(いま)必要なデータを集める-ドゥウェル株式会社 三浦恒樹
 
[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法[All-in-one2015] 文献情報関連サービス活用法
[All-in-one2015] 文献情報関連サービス活用法
 
28th mtg
28th mtg28th mtg
28th mtg
 

More from Maori Ito

Presentation forpd bj_1
Presentation forpd bj_1Presentation forpd bj_1
Presentation forpd bj_1
Maori Ito
 

More from Maori Ito (20)

40th MTG in NIBIO
40th MTG in NIBIO40th MTG in NIBIO
40th MTG in NIBIO
 
39th MTG in NIBIO
39th MTG in NIBIO39th MTG in NIBIO
39th MTG in NIBIO
 
Test slide for the lab - Target prioritization
Test slide for the lab - Target prioritization Test slide for the lab - Target prioritization
Test slide for the lab - Target prioritization
 
Test for lab_j Psiver j
Test for lab_j Psiver jTest for lab_j Psiver j
Test for lab_j Psiver j
 
Psiver j
Psiver jPsiver j
Psiver j
 
38th MTG in NIBIO
38th MTG in NIBIO38th MTG in NIBIO
38th MTG in NIBIO
 
37th mtg in NIBIO
37th mtg in NIBIO37th mtg in NIBIO
37th mtg in NIBIO
 
35th mtg in NIBIO
35th mtg in NIBIO35th mtg in NIBIO
35th mtg in NIBIO
 
34th mtg in NIBIO
34th mtg in NIBIO34th mtg in NIBIO
34th mtg in NIBIO
 
33rd MTG In NIBIO
33rd MTG In NIBIO33rd MTG In NIBIO
33rd MTG In NIBIO
 
32nd MTG in NIBIO
32nd MTG in NIBIO32nd MTG in NIBIO
32nd MTG in NIBIO
 
31st Integrated DB MTG in NIBIO
31st Integrated DB MTG in NIBIO31st Integrated DB MTG in NIBIO
31st Integrated DB MTG in NIBIO
 
30th Integrated DB MTG in NIBIO
30th Integrated DB MTG in NIBIO30th Integrated DB MTG in NIBIO
30th Integrated DB MTG in NIBIO
 
29th Integrated DB MTG in NIBIO
29th Integrated DB MTG in NIBIO29th Integrated DB MTG in NIBIO
29th Integrated DB MTG in NIBIO
 
Presentation forpd bj_1
Presentation forpd bj_1Presentation forpd bj_1
Presentation forpd bj_1
 
Bh13.13 sagace 1
Bh13.13 sagace 1Bh13.13 sagace 1
Bh13.13 sagace 1
 
27th mtg 1
27th mtg 127th mtg 1
27th mtg 1
 
The Progress on Sagace and Data Integration
The Progress on Sagace and Data IntegrationThe Progress on Sagace and Data Integration
The Progress on Sagace and Data Integration
 
26th mtg
26th mtg26th mtg
26th mtg
 
25th mtg 1
25th mtg 125th mtg 1
25th mtg 1
 

Cross search and_semantic_web_mbsj2013