Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

24th mtg 1

537 views

Published on

第24回統合DBミーティング@NIBIO の内容を共有します。
(なお,プライバシーの観点から一部発表資料を削除しています。)

  • Be the first to comment

24th mtg 1

  1. 1. 2013/9/20 第24回統合DBミーティング Integrated MTG in NIBIO
  2. 2. 本日の予定 • Sagace – アクセス解析 – 進捗報告 – Sagaceに追加するDBについて ・医薬基盤研内のデータのRDF化 – 希少疾病用医薬品のRDF化について • 厚生労働科学研究成果データベース – カタログ化と論文化について • 今後の予定
  3. 3. 追加予定のDBについて ファセット分類 /データベース 名 ウイルス図鑑 KEGG BRITE KEGG ORTHOLOGY データベースの 種類 文献・用語 集・辞書 その他のデータ ベース その他のデータベース 生物種 微生物 特定生物なし 特定生物なし 生体の階層 個体 その他 遺伝子 分類 A B A
  4. 4. 進捗報告 • 難病情報センターのインデックスの 追加 • ファセット部分の表示の高速化
  5. 5. http://www.mkbergman.com/968/a-new-best-friend-gephi-for-large-scale-networks/ Linked Open Data
  6. 6. セマンティックウェブ • データが意味を持ちつつ繋がりを作 るデータのウェブ • コンピュータが意味を理解可能な構 造化されたデータを使ったウェブ • Linked Open Dataでは,セマン ティック・ウェブ分野で検討されて きた知識の構造化手法を適用
  7. 7. 活用例 • 一般 – DBpedia, BBC, Data.gov.uk, – Geonames, RDF Book Mashup • ライフサイエンス・医薬 – Bio2RDF, UniProt, KEGG – Open Drug Data, ChEMBL, Drugbank
  8. 8. 実装方法 • 複雑なグラフを書く – RDF (RDF/XML,N3,Turtleなど)など • html上で書く – Microdata, RDFa Liteなど
  9. 9. RDF(Resource Description Framework) • データ間の関係性を記述し,データ を連結させていくフレームワーク (8薬A)第81号 イミグルセラーゼ 医薬品の名称 基本的な考え方はグラフ
  10. 10. ライフサイエンスにおける RDF化のメリット データ構成が複雑かつ ファジーなデータを柔軟 に統合することが可能
  11. 11. 基本的な考え方はグラフ • グラフ間の関係性は明示する。 (8薬A)第81号 イミグルセラーゼ 医薬品の名称
  12. 12. RDFの場合 • トリプルでグラフを表記 URI URI
  13. 13. 希少疾病用医薬品のRDF化 • Object(目的語)に複数のPredicate(述語)を Subject(主語)に 付与した場合
  14. 14. 希少疾病用医薬品のRDF化 Predicateの種類を色で示した場合
  15. 15. • 同種関係性のデータは同じpredicate で書かれている方が望ましい。 • ID化されているデータの活用でハブ となるノードを増やせる。 希少疾病用医薬品のRDF化 ハブ
  16. 16. RDFの記述方法(Turtle形式の場合) @prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> . @prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> . @prefix db: <http://dbpedia.org/ontology/> . <http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号> drgb:name "イミグルセラーゼ(遺伝子組換え)"; drgn:designationApplicant "ジェンザイム・ジャパン㈱"; db:icd10 "E752" . ラフになる。 (8 薬 A)第 81 号 イミグルセラーゼ ジェンザイム・ジャパン㈱ E752 医薬品の名称 販売者 ICD10 Subject Predicate Object
  17. 17. RDFの記述方法(Turtle形式の場合) @prefix drgb: <http://bio2rdf.org/drugbank_vocabulary/> . @prefix drgn: <http://www.nibio.go.jp/drugVocabulary#> . @prefix db: <http://dbpedia.org/ontology/> . <http://www.nibio.go.jp/orphanDrugTarget#(8薬A)第81号> drgb:name "イミグルセラーゼ(遺伝子組換え)"; drgn:designationApplicant "ジェンザイム・ジャパン㈱"; db:icd10 "E752" . 汎用性の高いPredicateを 可能な限り使用することも 同種のデータを取り出すことを 考えると重要
  18. 18. データの取得・検索方法 • SPARQLの利用 • SPARQL(SPARQL Protocol and RDF Query Language) – RDFを検索・操作するためのクエリ言 語の一種
  19. 19. PREFIX ab: <http://learningsparql.com/ns/addressbook#> SELECT ?craigEmail WHERE { ?person ab:firstName "Craig" . ?person ab:email ?craigEmail . } @prefix ab: <http://learningsparql.com/ns/addressbook#> . @prefix d: <http://learningsparql.com/ns/data#> . d:i9771 ab:firstName "Cindy" . d:i9771 ab:lastName "Marshall" . d:i9771 ab:homeTel "(245) 646-5488" . d:i9771 ab:email "cindym@gmail.com" . d:i8301 ab:firstName "Craig" . d:i8301 ab:lastName "Ellis" . d:i8301 ab:email "craigellis@yahoo.com" . d:i8301 ab:email "c.ellis@usairwaysgroup.com" . -------------------------------------------- | craigEmail | ========================= | "c.ellis@usairwaysgroup.com" | | "craigellis@yahoo.com” | -------------------------------------------- RDF (turtle形式) SPARQL firstNameが”Craig”という人を personとした時に その人のemailを craigEmailとして出して! 実行結果
  20. 20. SPARQL endpoint例:DBpedia • http://dbpedia.org/snorql
  21. 21. クエリ例 • 中田ヤスタカさんがプロデュースし たアーティストの名前とアルバム名 を取り出してくださいな。 PREFIX d: <http://dbpedia.org/ontology/> SELECT ?artistName ?albumName WHERE { ?album d:producer :Yasutaka_Nakata; d:musicalArtist ?artist; rdfs:label ?albumName. ?artist rdfs:label ?artistName. }
  22. 22. 実行結果
  23. 23. 近況 • ひと通り希少疾病用医薬品のデータ をRDF化 • 研究振興部の希少疾病用医薬品・希 少疾病用医療機器の業務支援システ ムへの導入を予定 – RDFを自動作成 – ウェブにRDFデータのダウンロード機 能を搭載
  24. 24. 今後の予定(RDF化について) • 希少疾病用医薬品のデータと ToxygatesのデータをRDFによる統合 • 実験動物研究資源バンクのRDF化 • 上記データをダウンロード可能へ • SPARQL endpointの立ち上げ • 上記RDFデータをSPARQL endpoint から検索可能に。 祝!論文アクセプト!!
  25. 25. 厚生労働科学研究成果データベース • 文献情報 – 報告区分,研究課題名,研究年度,研 究代表者と所属機関,研究費,開始年 度から終了予定年度 • 研究報告書 – 概要版 – 本文(添付ファイルのPDF)
  26. 26. カタログのみにする場合 • 2009年度までは調査済み • 検出されたデータベース – 2009:17件,2008:16件,2007:13件,2006:9 件,2005:7件,2004以前:14件 • DB名,URL,タイトル,文献,連絡先, 運用機関が調査済み
  27. 27. カタログのみにする場合 • 2010年度以降 – “データベース”で検索 – 該当する報告書の概要等をチェック – データベースと関連のありそうなものをピッ クアップ(皆さんの協力要) – 除:カタログに既に掲載,調査済み – カタログに掲載する価値の有無を判断 – カタログに掲載するためのメタデータ (名称,URL,運用機関,説明,生物種,文献等)を記入
  28. 28. 論文にする場合 • カタログに必要な情報+αを調査 • 2009年度以前も調査が必要。 • 必要なデータはcsv形式でダウンロード可 能(本文はPDFのため除く) • DBの名称やURLは報告書に無いことも多 いため,分担作業が必要(カタログ化の場 合も同様) • 2012年 “データベース”で検索 • 201件ヒット,うち調査が必要な(DBと関 連がありそうなDB)報告書132件
  29. 29. 今後の予定 • 9月 – 文献データを検索結果に反映 – Apache Solrの検討と実装 • 10月 – トーゴーの日 • 11月 – 実験動物バンクのRDF化 – 外部データベースとの連携 • 12月 – 分子生物学会 • 1月 – BioHackathon 国内版
  30. 30. 次回 • 10月25日(金)?

×