Your SlideShare is downloading. ×

24th mtg 1

277
views

Published on

第24回統合DBミーティング@NIBIO の内容を共有します。 …

第24回統合DBミーティング@NIBIO の内容を共有します。
(なお,プライバシーの観点から一部発表資料を削除しています。)


0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
277
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
1
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 2013/9/20 第24回統合DBミーティング Integrated MTG in NIBIO
  • 2. 本日の予定 • Sagace – アクセス解析 – 進捗報告 – Sagaceに追加するDBについて ・医薬基盤研内のデータのRDF化 – 希少疾病用医薬品のRDF化について • 厚生労働科学研究成果データベース – カタログ化と論文化について • 今後の予定
  • 3. 追加予定のDBについて ファセット分類 /データベース 名 ウイルス図鑑 KEGG BRITE KEGG ORTHOLOGY データベースの 種類 文献・用語 集・辞書 その他のデータ ベース その他のデータベース 生物種 微生物 特定生物なし 特定生物なし 生体の階層 個体 その他 遺伝子 分類 A B A
  • 4. 進捗報告 • 難病情報センターのインデックスの 追加 • ファセット部分の表示の高速化
  • 5. http://www.mkbergman.com/968/a-new-best-friend-gephi-for-large-scale-networks/ Linked Open Data
  • 6. セマンティックウェブ • データが意味を持ちつつ繋がりを作 るデータのウェブ • コンピュータが意味を理解可能な構 造化されたデータを使ったウェブ • Linked Open Dataでは,セマン ティック・ウェブ分野で検討されて きた知識の構造化手法を適用
  • 7. 活用例 • 一般 – DBpedia, BBC, Data.gov.uk, – Geonames, RDF Book Mashup • ライフサイエンス・医薬 – Bio2RDF, UniProt, KEGG – Open Drug Data, ChEMBL, Drugbank
  • 8. 実装方法 • 複雑なグラフを書く – RDF (RDF/XML,N3,Turtleなど)など • html上で書く – Microdata, RDFa Liteなど
  • 9. RDF(Resource Description Framework) • データ間の関係性を記述し,データ を連結させていくフレームワーク (8薬A)第81号 イミグルセラーゼ 医薬品の名称 基本的な考え方はグラフ
  • 10. ライフサイエンスにおける RDF化のメリット データ構成が複雑かつ ファジーなデータを柔軟 に統合することが可能
  • 11. 基本的な考え方はグラフ • グラフ間の関係性は明示する。 (8薬A)第81号 イミグルセラーゼ 医薬品の名称
  • 12. RDFの場合 • トリプルでグラフを表記 URI URI
  • 13. 希少疾病用医薬品のRDF化 • Object(目的語)に複数のPredicate(述語)を Subject(主語)に 付与した場合
  • 14. 希少疾病用医薬品のRDF化 Predicateの種類を色で示した場合
  • 15. • 同種関係性のデータは同じpredicate で書かれている方が望ましい。 • ID化されているデータの活用でハブ となるノードを増やせる。 希少疾病用医薬品のRDF化 ハブ
  • 16. RDFの記述方法(Turtle形式の場合) @prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> . @prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> . @prefix db: <http://dbpedia.org/ontology/> . <http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号> drgb:name "イミグルセラーゼ(遺伝子組換え)"; drgn:designationApplicant "ジェンザイム・ジャパン㈱"; db:icd10 "E752" . ラフになる。 (8 薬 A)第 81 号 イミグルセラーゼ ジェンザイム・ジャパン㈱ E752 医薬品の名称 販売者 ICD10 Subject Predicate Object
  • 17. RDFの記述方法(Turtle形式の場合) @prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> . @prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> . @prefix db: <http://dbpedia.org/ontology/> . <http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号> drgb:name "イミグルセラーゼ(遺伝子組換え)"; drgn:designationApplicant "ジェンザイム・ジャパン㈱"; db:icd10 "E752" . 汎用性の高いPredicateを 可能な限り使用することも 同種のデータを取り出すことを 考えると重要
  • 18. データの取得・検索方法 • SPARQLの利用 • SPARQL(SPARQL Protocol and RDF Query Language) – RDFを検索・操作するためのクエリ言 語の一種
  • 19. PREFIX ab: <http://learningsparql.com/ns/addressbook#> SELECT ?craigEmail WHERE { ?person ab:firstName "Craig" . ?person ab:email ?craigEmail . } @prefix ab: <http://learningsparql.com/ns/addressbook#> . @prefix d: <http://learningsparql.com/ns/data#> . d:i9771 ab:firstName "Cindy" . d:i9771 ab:lastName "Marshall" . d:i9771 ab:homeTel "(245) 646-5488" . d:i9771 ab:email "cindym@gmail.com" . d:i8301 ab:firstName "Craig" . d:i8301 ab:lastName "Ellis" . d:i8301 ab:email "craigellis@yahoo.com" . d:i8301 ab:email "c.ellis@usairwaysgroup.com" . -------------------------------------------- | craigEmail | ========================= | "c.ellis@usairwaysgroup.com" | | "craigellis@yahoo.com” | -------------------------------------------- RDF (turtle形式) SPARQL firstNameが”Craig”という人を personとした時に その人のemailを craigEmailとして出して! 実行結果
  • 20. SPARQL endpoint例:DBpedia • http://dbpedia.org/snorql
  • 21. クエリ例 • 中田ヤスタカさんがプロデュースし たアーティストの名前とアルバム名 を取り出してくださいな。 PREFIX d: <http://dbpedia.org/ontology/> SELECT ?artistName ?albumName WHERE { ?album d:producer :Yasutaka_Nakata; d:musicalArtist ?artist; rdfs:label ?albumName. ?artist rdfs:label ?artistName. }
  • 22. 実行結果
  • 23. 近況 • ひと通り希少疾病用医薬品のデータ をRDF化 • 研究振興部の希少疾病用医薬品・希 少疾病用医療機器の業務支援システ ムへの導入を予定 – RDFを自動作成 – ウェブにRDFデータのダウンロード機 能を搭載
  • 24. 今後の予定(RDF化について) • 希少疾病用医薬品のデータと ToxygatesのデータをRDFによる統合 • 実験動物研究資源バンクのRDF化 • 上記データをダウンロード可能へ • SPARQL endpointの立ち上げ • 上記RDFデータをSPARQL endpoint から検索可能に。 祝!論文アクセプト!!
  • 25. 厚生労働科学研究成果データベース • 文献情報 – 報告区分,研究課題名,研究年度,研 究代表者と所属機関,研究費,開始年 度から終了予定年度 • 研究報告書 – 概要版 – 本文(添付ファイルのPDF)
  • 26. カタログのみにする場合 • 2009年度までは調査済み • 検出されたデータベース – 2009:17件,2008:16件,2007:13件,2006:9 件,2005:7件,2004以前:14件 • DB名,URL,タイトル,文献,連絡先, 運用機関が調査済み
  • 27. カタログのみにする場合 • 2010年度以降 – “データベース”で検索 – 該当する報告書の概要等をチェック – データベースと関連のありそうなものをピッ クアップ(皆さんの協力要) – 除:カタログに既に掲載,調査済み – カタログに掲載する価値の有無を判断 – カタログに掲載するためのメタデータ (名称,URL,運用機関,説明,生物種,文献等)を記入
  • 28. 論文にする場合 • カタログに必要な情報+αを調査 • 2009年度以前も調査が必要。 • 必要なデータはcsv形式でダウンロード可 能(本文はPDFのため除く) • DBの名称やURLは報告書に無いことも多 いため,分担作業が必要(カタログ化の場 合も同様) • 2012年 “データベース”で検索 • 201件ヒット,うち調査が必要な(DBと関 連がありそうなDB)報告書132件
  • 29. 今後の予定 • 9月 – 文献データを検索結果に反映 – Apache Solrの検討と実装 • 10月 – トーゴーの日 • 11月 – 実験動物バンクのRDF化 – 外部データベースとの連携 • 12月 – 分子生物学会 • 1月 – BioHackathon 国内版
  • 30. 次回 • 10月25日(金)?