2013/9/20
第24回統合DBミーティング
Integrated MTG in NIBIO
本日の予定
• Sagace
– アクセス解析
– 進捗報告
– Sagaceに追加するDBについて
・医薬基盤研内のデータのRDF化
– 希少疾病用医薬品のRDF化について
• 厚生労働科学研究成果データベース
– カタログ化と論文化について...
追加予定のDBについて
ファセット分類
/データベース
名 ウイルス図鑑 KEGG BRITE KEGG ORTHOLOGY
データベースの
種類
文献・用語
集・辞書
その他のデータ
ベース その他のデータベース
生物種 微生物 特定生物なし...
進捗報告
• 難病情報センターのインデックスの
追加
• ファセット部分の表示の高速化
http://www.mkbergman.com/968/a-new-best-friend-gephi-for-large-scale-networks/
Linked Open Data
セマンティックウェブ
• データが意味を持ちつつ繋がりを作
るデータのウェブ
• コンピュータが意味を理解可能な構
造化されたデータを使ったウェブ
• Linked Open Dataでは,セマン
ティック・ウェブ分野で検討されて
きた知識の構...
活用例
• 一般
– DBpedia, BBC, Data.gov.uk,
– Geonames, RDF Book Mashup
• ライフサイエンス・医薬
– Bio2RDF, UniProt, KEGG
– Open Drug Data,...
実装方法
• 複雑なグラフを書く
– RDF (RDF/XML,N3,Turtleなど)など
• html上で書く
– Microdata, RDFa Liteなど
RDF(Resource Description
Framework)
• データ間の関係性を記述し,データ
を連結させていくフレームワーク
(8薬A)第81号 イミグルセラーゼ
医薬品の名称
基本的な考え方はグラフ
ライフサイエンスにおける
RDF化のメリット
データ構成が複雑かつ
ファジーなデータを柔軟
に統合することが可能
基本的な考え方はグラフ
• グラフ間の関係性は明示する。
(8薬A)第81号 イミグルセラーゼ
医薬品の名称
RDFの場合
• トリプルでグラフを表記
URI URI
希少疾病用医薬品のRDF化
• Object(目的語)に複数のPredicate(述語)を
Subject(主語)に 付与した場合
希少疾病用医薬品のRDF化
Predicateの種類を色で示した場合
• 同種関係性のデータは同じpredicate
で書かれている方が望ましい。
• ID化されているデータの活用でハブ
となるノードを増やせる。
希少疾病用医薬品のRDF化
ハブ
RDFの記述方法(Turtle形式の場合)
@prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> .
@prefix drgn: <http://www.nibio.go.jp/drug...
RDFの記述方法(Turtle形式の場合)
@prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> .
@prefix drgn: <http://www.nibio.go.jp/drug...
データの取得・検索方法
• SPARQLの利用
• SPARQL(SPARQL Protocol and RDF Query
Language)
– RDFを検索・操作するためのクエリ言
語の一種
PREFIX ab: <http://learningsparql.com/ns/addressbook#>
SELECT ?craigEmail WHERE
{
?person ab:firstName "Craig" .
?person a...
SPARQL endpoint例:DBpedia
• http://dbpedia.org/snorql
クエリ例
• 中田ヤスタカさんがプロデュースし
たアーティストの名前とアルバム名
を取り出してくださいな。
PREFIX d: <http://dbpedia.org/ontology/>
SELECT ?artistName ?albumNa...
実行結果
近況
• ひと通り希少疾病用医薬品のデータ
をRDF化
• 研究振興部の希少疾病用医薬品・希
少疾病用医療機器の業務支援システ
ムへの導入を予定
– RDFを自動作成
– ウェブにRDFデータのダウンロード機
能を搭載
今後の予定(RDF化について)
• 希少疾病用医薬品のデータと
ToxygatesのデータをRDFによる統合
• 実験動物研究資源バンクのRDF化
• 上記データをダウンロード可能へ
• SPARQL endpointの立ち上げ
• 上記RDF...
厚生労働科学研究成果データベース
• 文献情報
– 報告区分,研究課題名,研究年度,研
究代表者と所属機関,研究費,開始年
度から終了予定年度
• 研究報告書
– 概要版
– 本文(添付ファイルのPDF)
カタログのみにする場合
• 2009年度までは調査済み
• 検出されたデータベース
– 2009:17件,2008:16件,2007:13件,2006:9
件,2005:7件,2004以前:14件
• DB名,URL,タイトル,文献,連絡先,
...
カタログのみにする場合
• 2010年度以降
– “データベース”で検索
– 該当する報告書の概要等をチェック
– データベースと関連のありそうなものをピッ
クアップ(皆さんの協力要)
– 除:カタログに既に掲載,調査済み
– カタログに掲載す...
論文にする場合
• カタログに必要な情報+αを調査
• 2009年度以前も調査が必要。
• 必要なデータはcsv形式でダウンロード可
能(本文はPDFのため除く)
• DBの名称やURLは報告書に無いことも多
いため,分担作業が必要(カタログ化...
今後の予定
• 9月
– 文献データを検索結果に反映
– Apache Solrの検討と実装
• 10月
– トーゴーの日
• 11月
– 実験動物バンクのRDF化
– 外部データベースとの連携
• 12月
– 分子生物学会
• 1月
– Bi...
次回
• 10月25日(金)?
Upcoming SlideShare
Loading in...5
×

24th mtg 1

310

Published on

第24回統合DBミーティング@NIBIO の内容を共有します。
(なお,プライバシーの観点から一部発表資料を削除しています。)

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
310
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
2
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

24th mtg 1

  1. 1. 2013/9/20 第24回統合DBミーティング Integrated MTG in NIBIO
  2. 2. 本日の予定 • Sagace – アクセス解析 – 進捗報告 – Sagaceに追加するDBについて ・医薬基盤研内のデータのRDF化 – 希少疾病用医薬品のRDF化について • 厚生労働科学研究成果データベース – カタログ化と論文化について • 今後の予定
  3. 3. 追加予定のDBについて ファセット分類 /データベース 名 ウイルス図鑑 KEGG BRITE KEGG ORTHOLOGY データベースの 種類 文献・用語 集・辞書 その他のデータ ベース その他のデータベース 生物種 微生物 特定生物なし 特定生物なし 生体の階層 個体 その他 遺伝子 分類 A B A
  4. 4. 進捗報告 • 難病情報センターのインデックスの 追加 • ファセット部分の表示の高速化
  5. 5. http://www.mkbergman.com/968/a-new-best-friend-gephi-for-large-scale-networks/ Linked Open Data
  6. 6. セマンティックウェブ • データが意味を持ちつつ繋がりを作 るデータのウェブ • コンピュータが意味を理解可能な構 造化されたデータを使ったウェブ • Linked Open Dataでは,セマン ティック・ウェブ分野で検討されて きた知識の構造化手法を適用
  7. 7. 活用例 • 一般 – DBpedia, BBC, Data.gov.uk, – Geonames, RDF Book Mashup • ライフサイエンス・医薬 – Bio2RDF, UniProt, KEGG – Open Drug Data, ChEMBL, Drugbank
  8. 8. 実装方法 • 複雑なグラフを書く – RDF (RDF/XML,N3,Turtleなど)など • html上で書く – Microdata, RDFa Liteなど
  9. 9. RDF(Resource Description Framework) • データ間の関係性を記述し,データ を連結させていくフレームワーク (8薬A)第81号 イミグルセラーゼ 医薬品の名称 基本的な考え方はグラフ
  10. 10. ライフサイエンスにおける RDF化のメリット データ構成が複雑かつ ファジーなデータを柔軟 に統合することが可能
  11. 11. 基本的な考え方はグラフ • グラフ間の関係性は明示する。 (8薬A)第81号 イミグルセラーゼ 医薬品の名称
  12. 12. RDFの場合 • トリプルでグラフを表記 URI URI
  13. 13. 希少疾病用医薬品のRDF化 • Object(目的語)に複数のPredicate(述語)を Subject(主語)に 付与した場合
  14. 14. 希少疾病用医薬品のRDF化 Predicateの種類を色で示した場合
  15. 15. • 同種関係性のデータは同じpredicate で書かれている方が望ましい。 • ID化されているデータの活用でハブ となるノードを増やせる。 希少疾病用医薬品のRDF化 ハブ
  16. 16. RDFの記述方法(Turtle形式の場合) @prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> . @prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> . @prefix db: <http://dbpedia.org/ontology/> . <http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号> drgb:name "イミグルセラーゼ(遺伝子組換え)"; drgn:designationApplicant "ジェンザイム・ジャパン㈱"; db:icd10 "E752" . ラフになる。 (8 薬 A)第 81 号 イミグルセラーゼ ジェンザイム・ジャパン㈱ E752 医薬品の名称 販売者 ICD10 Subject Predicate Object
  17. 17. RDFの記述方法(Turtle形式の場合) @prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> . @prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> . @prefix db: <http://dbpedia.org/ontology/> . <http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号> drgb:name "イミグルセラーゼ(遺伝子組換え)"; drgn:designationApplicant "ジェンザイム・ジャパン㈱"; db:icd10 "E752" . 汎用性の高いPredicateを 可能な限り使用することも 同種のデータを取り出すことを 考えると重要
  18. 18. データの取得・検索方法 • SPARQLの利用 • SPARQL(SPARQL Protocol and RDF Query Language) – RDFを検索・操作するためのクエリ言 語の一種
  19. 19. PREFIX ab: <http://learningsparql.com/ns/addressbook#> SELECT ?craigEmail WHERE { ?person ab:firstName "Craig" . ?person ab:email ?craigEmail . } @prefix ab: <http://learningsparql.com/ns/addressbook#> . @prefix d: <http://learningsparql.com/ns/data#> . d:i9771 ab:firstName "Cindy" . d:i9771 ab:lastName "Marshall" . d:i9771 ab:homeTel "(245) 646-5488" . d:i9771 ab:email "cindym@gmail.com" . d:i8301 ab:firstName "Craig" . d:i8301 ab:lastName "Ellis" . d:i8301 ab:email "craigellis@yahoo.com" . d:i8301 ab:email "c.ellis@usairwaysgroup.com" . -------------------------------------------- | craigEmail | ========================= | "c.ellis@usairwaysgroup.com" | | "craigellis@yahoo.com” | -------------------------------------------- RDF (turtle形式) SPARQL firstNameが”Craig”という人を personとした時に その人のemailを craigEmailとして出して! 実行結果
  20. 20. SPARQL endpoint例:DBpedia • http://dbpedia.org/snorql
  21. 21. クエリ例 • 中田ヤスタカさんがプロデュースし たアーティストの名前とアルバム名 を取り出してくださいな。 PREFIX d: <http://dbpedia.org/ontology/> SELECT ?artistName ?albumName WHERE { ?album d:producer :Yasutaka_Nakata; d:musicalArtist ?artist; rdfs:label ?albumName. ?artist rdfs:label ?artistName. }
  22. 22. 実行結果
  23. 23. 近況 • ひと通り希少疾病用医薬品のデータ をRDF化 • 研究振興部の希少疾病用医薬品・希 少疾病用医療機器の業務支援システ ムへの導入を予定 – RDFを自動作成 – ウェブにRDFデータのダウンロード機 能を搭載
  24. 24. 今後の予定(RDF化について) • 希少疾病用医薬品のデータと ToxygatesのデータをRDFによる統合 • 実験動物研究資源バンクのRDF化 • 上記データをダウンロード可能へ • SPARQL endpointの立ち上げ • 上記RDFデータをSPARQL endpoint から検索可能に。 祝!論文アクセプト!!
  25. 25. 厚生労働科学研究成果データベース • 文献情報 – 報告区分,研究課題名,研究年度,研 究代表者と所属機関,研究費,開始年 度から終了予定年度 • 研究報告書 – 概要版 – 本文(添付ファイルのPDF)
  26. 26. カタログのみにする場合 • 2009年度までは調査済み • 検出されたデータベース – 2009:17件,2008:16件,2007:13件,2006:9 件,2005:7件,2004以前:14件 • DB名,URL,タイトル,文献,連絡先, 運用機関が調査済み
  27. 27. カタログのみにする場合 • 2010年度以降 – “データベース”で検索 – 該当する報告書の概要等をチェック – データベースと関連のありそうなものをピッ クアップ(皆さんの協力要) – 除:カタログに既に掲載,調査済み – カタログに掲載する価値の有無を判断 – カタログに掲載するためのメタデータ (名称,URL,運用機関,説明,生物種,文献等)を記入
  28. 28. 論文にする場合 • カタログに必要な情報+αを調査 • 2009年度以前も調査が必要。 • 必要なデータはcsv形式でダウンロード可 能(本文はPDFのため除く) • DBの名称やURLは報告書に無いことも多 いため,分担作業が必要(カタログ化の場 合も同様) • 2012年 “データベース”で検索 • 201件ヒット,うち調査が必要な(DBと関 連がありそうなDB)報告書132件
  29. 29. 今後の予定 • 9月 – 文献データを検索結果に反映 – Apache Solrの検討と実装 • 10月 – トーゴーの日 • 11月 – 実験動物バンクのRDF化 – 外部データベースとの連携 • 12月 – 分子生物学会 • 1月 – BioHackathon 国内版
  30. 30. 次回 • 10月25日(金)?
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×