2013/9/20
第24回統合DBミーティング
Integrated MTG in NIBIO
本日の予定
• Sagace
– アクセス解析
– 進捗報告
– Sagaceに追加するDBについて
・医薬基盤研内のデータのRDF化
– 希少疾病用医薬品のRDF化について
• 厚生労働科学研究成果データベース
– カタログ化と論文化について
• 今後の予定
追加予定のDBについて
ファセット分類
/データベース
名 ウイルス図鑑 KEGG BRITE KEGG ORTHOLOGY
データベースの
種類
文献・用語
集・辞書
その他のデータ
ベース その他のデータベース
生物種 微生物 特定生物なし 特定生物なし
生体の階層 個体 その他 遺伝子
分類 A B A
進捗報告
• 難病情報センターのインデックスの
追加
• ファセット部分の表示の高速化
http://www.mkbergman.com/968/a-new-best-friend-gephi-for-large-scale-networks/
Linked Open Data
セマンティックウェブ
• データが意味を持ちつつ繋がりを作
るデータのウェブ
• コンピュータが意味を理解可能な構
造化されたデータを使ったウェブ
• Linked Open Dataでは,セマン
ティック・ウェブ分野で検討されて
きた知識の構造化手法を適用
活用例
• 一般
– DBpedia, BBC, Data.gov.uk,
– Geonames, RDF Book Mashup
• ライフサイエンス・医薬
– Bio2RDF, UniProt, KEGG
– Open Drug Data, ChEMBL, Drugbank
実装方法
• 複雑なグラフを書く
– RDF (RDF/XML,N3,Turtleなど)など
• html上で書く
– Microdata, RDFa Liteなど
RDF(Resource Description
Framework)
• データ間の関係性を記述し,データ
を連結させていくフレームワーク
(8薬A)第81号 イミグルセラーゼ
医薬品の名称
基本的な考え方はグラフ
ライフサイエンスにおける
RDF化のメリット
データ構成が複雑かつ
ファジーなデータを柔軟
に統合することが可能
基本的な考え方はグラフ
• グラフ間の関係性は明示する。
(8薬A)第81号 イミグルセラーゼ
医薬品の名称
RDFの場合
• トリプルでグラフを表記
URI URI
希少疾病用医薬品のRDF化
• Object(目的語)に複数のPredicate(述語)を
Subject(主語)に 付与した場合
希少疾病用医薬品のRDF化
Predicateの種類を色で示した場合
• 同種関係性のデータは同じpredicate
で書かれている方が望ましい。
• ID化されているデータの活用でハブ
となるノードを増やせる。
希少疾病用医薬品のRDF化
ハブ
RDFの記述方法(Turtle形式の場合)
@prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> .
@prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> .
@prefix db: <http://dbpedia.org/ontology/> .
<http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号>
drgb:name "イミグルセラーゼ(遺伝子組換え)";
drgn:designationApplicant "ジェンザイム・ジャパン㈱";
db:icd10 "E752" .
ラフになる。
(8 薬 A)第 81 号
イミグルセラーゼ
ジェンザイム・ジャパン㈱
E752
医薬品の名称
販売者
ICD10
Subject
Predicate
Object
RDFの記述方法(Turtle形式の場合)
@prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> .
@prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> .
@prefix db: <http://dbpedia.org/ontology/> .
<http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号>
drgb:name "イミグルセラーゼ(遺伝子組換え)";
drgn:designationApplicant "ジェンザイム・ジャパン㈱";
db:icd10 "E752" .
汎用性の高いPredicateを
可能な限り使用することも
同種のデータを取り出すことを
考えると重要
データの取得・検索方法
• SPARQLの利用
• SPARQL(SPARQL Protocol and RDF Query
Language)
– RDFを検索・操作するためのクエリ言
語の一種
PREFIX ab: <http://learningsparql.com/ns/addressbook#>
SELECT ?craigEmail WHERE
{
?person ab:firstName "Craig" .
?person ab:email ?craigEmail . }
@prefix ab: <http://learningsparql.com/ns/addressbook#> .
@prefix d: <http://learningsparql.com/ns/data#> .
d:i9771 ab:firstName "Cindy" .
d:i9771 ab:lastName "Marshall" .
d:i9771 ab:homeTel "(245) 646-5488" .
d:i9771 ab:email "cindym@gmail.com" .
d:i8301 ab:firstName "Craig" .
d:i8301 ab:lastName "Ellis" .
d:i8301 ab:email "craigellis@yahoo.com" .
d:i8301 ab:email "c.ellis@usairwaysgroup.com" .
--------------------------------------------
| craigEmail |
=========================
| "c.ellis@usairwaysgroup.com" |
| "craigellis@yahoo.com” |
--------------------------------------------
RDF (turtle形式)
SPARQL
firstNameが”Craig”という人を
personとした時に
その人のemailを
craigEmailとして出して!
実行結果
SPARQL endpoint例:DBpedia
• http://dbpedia.org/snorql
クエリ例
• 中田ヤスタカさんがプロデュースし
たアーティストの名前とアルバム名
を取り出してくださいな。
PREFIX d: <http://dbpedia.org/ontology/>
SELECT ?artistName ?albumName
WHERE
{
?album d:producer :Yasutaka_Nakata;
d:musicalArtist ?artist;
rdfs:label ?albumName.
?artist rdfs:label ?artistName.
}
実行結果
近況
• ひと通り希少疾病用医薬品のデータ
をRDF化
• 研究振興部の希少疾病用医薬品・希
少疾病用医療機器の業務支援システ
ムへの導入を予定
– RDFを自動作成
– ウェブにRDFデータのダウンロード機
能を搭載
今後の予定(RDF化について)
• 希少疾病用医薬品のデータと
ToxygatesのデータをRDFによる統合
• 実験動物研究資源バンクのRDF化
• 上記データをダウンロード可能へ
• SPARQL endpointの立ち上げ
• 上記RDFデータをSPARQL endpoint
から検索可能に。
祝!論文アクセプト!!
厚生労働科学研究成果データベース
• 文献情報
– 報告区分,研究課題名,研究年度,研
究代表者と所属機関,研究費,開始年
度から終了予定年度
• 研究報告書
– 概要版
– 本文(添付ファイルのPDF)
カタログのみにする場合
• 2009年度までは調査済み
• 検出されたデータベース
– 2009:17件,2008:16件,2007:13件,2006:9
件,2005:7件,2004以前:14件
• DB名,URL,タイトル,文献,連絡先,
運用機関が調査済み
カタログのみにする場合
• 2010年度以降
– “データベース”で検索
– 該当する報告書の概要等をチェック
– データベースと関連のありそうなものをピッ
クアップ(皆さんの協力要)
– 除:カタログに既に掲載,調査済み
– カタログに掲載する価値の有無を判断
– カタログに掲載するためのメタデータ
(名称,URL,運用機関,説明,生物種,文献等)を記入
論文にする場合
• カタログに必要な情報+αを調査
• 2009年度以前も調査が必要。
• 必要なデータはcsv形式でダウンロード可
能(本文はPDFのため除く)
• DBの名称やURLは報告書に無いことも多
いため,分担作業が必要(カタログ化の場
合も同様)
• 2012年 “データベース”で検索
• 201件ヒット,うち調査が必要な(DBと関
連がありそうなDB)報告書132件
今後の予定
• 9月
– 文献データを検索結果に反映
– Apache Solrの検討と実装
• 10月
– トーゴーの日
• 11月
– 実験動物バンクのRDF化
– 外部データベースとの連携
• 12月
– 分子生物学会
• 1月
– BioHackathon 国内版
次回
• 10月25日(金)?

24th mtg 1