Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介

60 views

Published on

初めての All-in-one 合同講習会〜生命科学DB・ツールの使い方~
講師:山本 泰智(ライフサイエンス統合データベースセンター)
日時:2015年7月18日
場所:大阪大学中之島センター
YouTube:https://youtu.be/GboThUXPol8

Published in: Science
  • Be the first to comment

  • Be the first to like this

[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介

  1. 1. セマンティックウェブ技術を活用した 生命科学データ利用環境の紹介 川島秀一 初めての All-in-one 合同講習会∼生命科学DB・ツールの使い方∼ @大阪大学中之島センター 2015/7/18
  2. 2. 講義の流れ • セマンティックウェブについて • 生命科学データベースのRDF化 • TogoGenomeの紹介 • TogoStanzaの紹介
  3. 3. DBCLSのミッション 生命科学データベースを統合する技術開発 セマンティックウェブ技術で
  4. 4. セマンティックウェブとは 普通のウェブ HTMLで記述されている 人間が読むことが前提
  5. 5. セマンティックウェブとは セマンティックウェブ 計算機が利用することが前提 Computer readable https://commons.wikimedia.org/wiki/File:Semantic_Net.svg http://orig14.deviantart.net/e857/f/2012/283/3/a/desktop_computer_icon_by_ivprogrammer-d5hefue.png
  6. 6. セマンティックウェブとは RDF OWL SPARQL セマンティックウェブを構成する3技術要素 RDFデータベースへの問い合わせ言語 概念をオントロジーとして明示的に定義 データを記述
  7. 7. RDF RDF: Resouce Description Framework Resouce: ウェブ上にある(=URIを持つ)情報資源 情報をURIの関係によって記述するための構造 <URI>にアクセスすると、SPOの内容が閲覧できることが望ましい (技術的にはできなくても問題ない) S P O <URI> Subject 主語 <URI> Predicate 述語 <URI>/Literal Object 目的語 RDF 1.1 から正確にはIRI
  8. 8. RDF 複数のRDFがつながってグラフ構造を形成 <URI> Literal
  9. 9. 実際のRDF例 <http://purl.uniprot.org/uniprot/P02649> core:organism <http://purl.uniprot.org/taxonomy/9606> ; rdf:type core:Protein ; rdfs:seeAlso <http://en.wikipedia.org/wiki/Apolipoprotein_E> ; core:sequence <http://purl.uniprot.org/isoforms/P02649-1> . <http://purl.uniprot.org/isoforms/P02649-1> rdf:type core:Simple_Sequence ; rdf:value "MKVLWAALLVTFLAG ..... TSAAPVPSDNH" . :core は http://purl.uniprot.org/core/ :rdf は http://www.w3.org/1999/02/22-rdf-syntax-ns# :rdfs は、http://www.w3.org/2000/01/rdf-schema#   のそれぞれ省略形
  10. 10. RDFの長所 • URIは、グローバルなIDなので、データの構築を分散して行うことがで き、また曖昧性を減らすことができる。 • 共通のオントロジーを利用することで、異なるデータの意味的な統合 がやりやすい。 • RDFはグラフ構造であり、テーブル型のデータに比べて、新しい要素 を追加することがやりやすい。
  11. 11. RDBとの比較 RDB RDF DB(Triple store) データ構造 テーブル グラフ 問い合わせ言語 SQL SPARQL 標準 有 有 スキーマの変更 難しい 簡単 複雑なデータ構造 苦手 簡単
  12. 12. 生命科学データベースRDF化の歴史 セマンティックウェブの提唱2001 PubChem, Mesh 2011 2006 2013 タンパク質配列 タンパク質構造 ゲノム配列 薬物活性・遺伝子発現・パスウェイetc 2014
  13. 13. EBI RDF Platform • EBIで構築されているデータベースの RDFバージョンを配布するサイト。 • 現在、BioModels、BioSamples、 ChEMBL、ExpressionAtlas、 REACTOMEおよびUniProt が掲載さ れている。 • それぞれのデータベースがSPARQLエ ンドポイントを公開しており、サンプ ルクエリも掲載されている。
  14. 14. TogoGenome • DBCLSで構築している、ゲノムに関するデータベース • ゲノム、遺伝子、タンパク質、生物種、表現型、生育環境等の情報をRDF化し、それ らを統合して検索することができる • 検索結果を標示は、スタンザと呼んでいる、小さいウェブアプリケーションの組み 合わせによって、実現している。 • 完全にRDFデータとRDFストア(Virtuoso)で開発されている
  15. 15. TogoGenome ファセット検索 http://togostanza.org/ 生物種 GO: Molecular function 生育環境 微生物表現型 GO: Biological process GO: Cellular component
  16. 16. TogoGenome ファセット検索 それぞれのオントロジー に対して、一つのクラ スを選択でき、その条 件を全て満たす項目が 検索される
  17. 17. TogoGenome 検索結果のリスト 遺伝子、生物種、環境 などの結果レポートペー ジへのリンクが表示さ れている
  18. 18. TogoGenome 結果レポートページの例(生物種)
  19. 19. TogoStanza • SPARQL検索を行うウェブアプリケーションを作成するためのフレームワーク • 作成されたスタンザを利用するのは、HTMLに、数行のおまじないと、スタンザを 指定する一行を書き込むだけ <script src="http://ajax.googleapis.com/ajax/libs/jquery/ 1.11.0/jquery.min.js" type="text/javascript"></script> <script src="http://togostanza.org/stanza/assets/stanza.js" type="text/javascript"></script> <div data-stanza-tax-id='278197' data-stanza=‘http://togostanza.org/stanza/organism_names'> </div>
  20. 20. TogoStanza ポータルサイト http://togostanza.org/

×