37th mtg in NIBIO

2014/10/24
第37回統合DBミーティング
Integrated MTG in NIBIO
1

本日の予定
• Sagace
– アクセス解析
– 進捗報告
• 医薬基盤研内のデータのRDF化
– 副作用を起点としたデータ統合について
• 分子生物学会のブース展示
– 展示内容の相談
2

進捗報告
• 医薬品のファセットを追加
• NBDCへ連絡
• 副作用情報データベースの名前の変更の依頼→済
– Metabolomics.jpの重複エントリの修正
– KEGG Drugの日本語版の追加
3

医薬基盤研内のデータのRDF化
• 進捗報告
– 副作用を起点としたNIBIO内外のデータ統合を開始
– ICD10のRDFデータの調査，修正
– 内臓関連のRDFデータの調査
– 遺伝子発現のデータとの統合の検討
4

副作用起点のNIBIO内外のDB統合
• クエリ例
– 副作用（例：頭痛）が報告されている医薬品
（化合物）のうち，NIBIOのデータに該当す
るものを取得。
• 臨床データと非臨床データの統合
5
医薬品
(化合物)
副作用NIBIOのデータ

化合物を含むNIBIOのデータ
• Open TG-GATEs
– 肝障害，腎障害を引き起こすされる医薬品をラットや人の細胞
に曝露した実験データ（RDF化しているのは実験条件）
• 希少疾病用医薬品
– 日本国内で希少疾病用医薬品と指定された品目の一覧
• 化合物情報
– Open TG-GATEs，希少疾病用医薬品ともに，もともと付与され
ているCAS番号をもとにDrugbankのIDを付与
6
医薬品
(化合物)
NIBIOのデータ

統合先のデータベース
• SIDER (Side Effect Resource)
– 公的文書や添付文書をもとに作成した副作用データベース
– ある医薬品で報告された副作用について，副作用発生の割合，含
まれる化合物の情報，参照元の文書を調べられる
• Drugbank
– 医薬品やそのターゲット情報を包括的に調べられるデータベース
– 今回はデータを繋ぐIDに使用
7
医薬品
(化合物)
副作用

調査
• SIDER, Drugbank
– オリジナルのデータベースにはRDFが無い
• 大手のLODプロジェクトを参照
– Bio2RDF
– Chem2Bio2RDF
• drugbankIDでのデータ統合のため，今回はこちら
を使用
8

• SPARQL クエリを参照
9
Chem2Bio2RDF
http://chem2bio2rdf.wikispaces.com/

• SIDERとdrugbankの記述を確認
10
サンプルのクエリを確認
http://chem2bio2rdf.wikispaces.com/Chem2Bio2RDF+Virtuo
so

• クエリを書いて動作を確認
11
Chem2BIO2RDF SPARQL Endpoint
http://cheminfov.informatics.indiana.edu:8890/sparql

12
?sider
sider:cid
sider:umls_id
?compound
?side_effect
?sider_id
drugbank:CID
?drug
sider:side_effect
?drugbank_id
drugbank:DBID
compound:CID
?compound_cid
“headache”

検索結果
• 無事にデータ取得可能
13

関連データのダウンロード
SERVICEクエリが
使用できなかったた
め，
sider,pubchem,drug
bankのデータをダ
ウンロードし，加工
した。
14 http://cheminfov.informatics.indiana.edu:8080/dow
nload/

前データ処理
• ダウンロードデータは大きいデータだったので，
事前にデータ処理を行い，動作の高速化とクエ
リの簡略化を実施
OrphanDrug_Data
15
sider_URI
sider:cid
sider:umls_id
compound
side_effect
sider_id
drugbank:CID
drug_URI
sider:side_effect
?drugbank_id
chem_drugbank:DBID
compound:CID
compound_cid
Open_TG_GATEs_Data
dbowl:drugbank_ID

処理済データをアップロード
• トリプルストアに入れてデータ統合
16
http://10.100.0.34:8081/owlim-workbench-webapp-
5.3.1/data/import

17
動作を確認
Chem2Bio2RDF 由来のデータ
NIBIO由来のデータ

アプリケーション化
• SPARQL endpoint URI を指定，クエリを
投げるのみ
• 多くのSPARQL endpointの場合，URIの
後にクエリが書かれている。
– E.g. http://” SPARQL endpoint URI
“/sparql?query=select+*+where%0D%0A%7B
%3Fs+%3Fp+%3Fo.%7D%0D%0ALIMIT+10
&_implicit=false&implicit=true&_equivalent=fal
se&_form=%2Fsparql
19

20
SPARQL Endpoint URL
SPARQL クエリ
フォーマットの指定
(トリプルストアによる)

デモ
• 副作用-> PHP program [ Python
(SPARQL-> JSON) ] -> HTML
• PHP,JavaScriptのみでも実装可能とのこと
21

Open TG-GATEsデータとの
統合について
• 遺伝子発現のデータとの統合を検討
– 現状，ToxyGATEsはKyoto Cabinetを使用
– 懸念事項
– データ量が膨大なため，トリプルストアで処理で
きる量かどうか
– Control vs 各実験の遺伝子発現量のP値をRDF化，
あるいは異なる方法で取得
• 疾患分類，臓器別分類による結果表示の検討
– 後述
22

希少疾病用医薬品のデータと
の統合について
• Drugbank，特許関連，文献データとの統
合の検討
– 国内外のデータ比較
23

ICD10のRDFデータの調査
• BioPortal由来のデータ
– ttl形式
– UMLSのID参照もあり（SIDERのID）
– 森田さんとの調査でデータの欠陥やバージョンの
混合が判明
• WHO由来のデータ
– xml形式
– 2010年（現時点での最新版）
• 化合物データとの統合を念頭にICD10のRDF
利用を検討
– BioPortal由来のデータのほうが妥当？
24

内臓関連のデータ
• SIDERのUMLS ID→OMIM
– Bio2RDFのSPARQL Endpoint経由で臓器名は取
得可能
• 副作用と紐付けられる臓器名は125
– ただし，階層構造はなし
• 疾患コンパス
– http://lodc.med-ontology.jp/
– ウェブ上にRDFは無い
– BodyPart3DのIDをRDF化している可能性
– BodyPart3Dには階層構造あり，より詳細なデー
タと臓器の可視化が可能
25

今後の予定
• 遺伝子発現量のデータとの統合の模索
• ICD10の最新版RDFの作成
– 上記利用による疾患の階層構造を踏まえた
NIBIOのデータ取得
• 内臓関連のデータの調査
26

分子生物学会
11月25日（火）〜27日（木）＠パシフィコ横浜
• 創薬・疾患研究のためのビッグデータ探索
– 当日までの準備
• チラシ，ポスター，アンケートの作成
• デモの準備，論文の印刷
– チラシ
• スケジュール：11月7日までに作成（各自），8日〜14日
の週に意見交換・修正，17日〜の週に印刷（伊藤）
• 提案：両面刷り，従来の説明に追加して，プロジェクトの
概要やよく聞かれる質問のQ and A 集を用意
– TargetMine（Chenさん）
– Toxygates（五十嵐さん）
– Sagace（伊藤）
– 医薬基盤研内のデータベース（深川さん）
27

分子生物学会
– ポスター
• スケジュール：チラシに準ずる。
• 相談：例年だと各DBの紹介とSagace
• 創薬・疾患研究のためのビッグデータ探索というタ
イトルならば，Sagace, TargetMine, ToxyGATEs,
RDF化したNIBIOのDBの紹介，今後の予定の方が妥
当？
28

分子生物学会
• アンケート
• 10月中に質問項目の修正（メンバー）
– http://bit.ly/1wnQJRX
• 質問項目（昨年度）
– 体験したデモ
– 使ったことのあるデータベース
– 今後必要とするサービスの要望
– ご質問・ご感想
• 昨年度の反省点より
– 使ったことのあるデータベースの回答がほとんど無かった。
29

分子生物学会
• デモ
• 昨年度の反省より
– 各データベースやサービスの一般的な説明の不足
– デモ用の準備の必要性
• 提案
– 次回のMTGまで
» DB開発者によるチュートリアルの作成，またはおすす
め操作の説明
– 次回のMTG時
» 各サービスのひととおりの操作の把握
» 各サービスの操作の難しい点，注目点の共有
30

分子生物学会
• スケジュール案
• お願い
• シフトを作成するので，OKな日＆時間帯，NGな日＆時間帯
（多い方）を教えて下さい。
31
10/25〜31 11/4〜7 11/10〜14 11/17〜21
チラシ草案
意見交換・
修正
印刷
ポスター草案
意見交換・
修正
印刷
アンケート修正印刷
デモチュートリアル作成
最終確認・
内部でのQA

今後の予定
• 次回
– 11月17日〜の週
• BioHackathon 2014
– 11月9日（日）〜14日（金）
• 分子生物学会
– 11月25日（火）〜27日（木）
32

37th mtg in NIBIO

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (7)

Similar to 37th mtg in NIBIO

Similar to 37th mtg in NIBIO (13)

More from Maori Ito

More from Maori Ito (12)

37th mtg in NIBIO

Editor's Notes