セマンティックウェブ技術を活用した
生命科学データ利用環境の紹介
川島秀一
初めての All-in-one 合同講習会∼生命科学DB・ツールの使い方∼
@大阪大学中之島センター 2015/7/18
講義の流れ
• セマンティックウェブについて
• 生命科学データベースのRDF化
• TogoGenomeの紹介
• TogoStanzaの紹介
DBCLSのミッション
生命科学データベースを統合する技術開発
セマンティックウェブ技術で
セマンティックウェブとは
普通のウェブ
HTMLで記述されている
人間が読むことが前提
セマンティックウェブとは
セマンティックウェブ
計算機が利用することが前提
Computer readable
https://commons.wikimedia.org/wiki/File:Semantic_Net.svg http://orig14.deviantart.net/e857/f/2012/283/3/a/desktop_computer_icon_by_ivprogrammer-d5hefue.png
セマンティックウェブとは
RDF
OWL
SPARQL
セマンティックウェブを構成する3技術要素
RDFデータベースへの問い合わせ言語
概念をオントロジーとして明示的に定義
データを記述
RDF
RDF: Resouce Description Framework
Resouce: ウェブ上にある(=URIを持つ)情報資源
情報をURIの関係によって記述するための構造
<URI>にアクセスすると、SPOの内容が閲覧できることが望ましい
(技術的にはできなくても問題ない)
S
P
O
<URI>
Subject
主語
<URI>
Predicate
述語
<URI>/Literal
Object
目的語
RDF 1.1 から正確にはIRI
RDF
複数のRDFがつながってグラフ構造を形成
<URI>
Literal
実際のRDF例
<http://purl.uniprot.org/uniprot/P02649>
core:organism <http://purl.uniprot.org/taxonomy/9606> ;
rdf:type core:Protein ;
rdfs:seeAlso <http://en.wikipedia.org/wiki/Apolipoprotein_E> ;
core:sequence <http://purl.uniprot.org/isoforms/P02649-1> .
<http://purl.uniprot.org/isoforms/P02649-1>
rdf:type core:Simple_Sequence ;
rdf:value "MKVLWAALLVTFLAG ..... TSAAPVPSDNH" .
:core は http://purl.uniprot.org/core/ 

:rdf は http://www.w3.org/1999/02/22-rdf-syntax-ns#

:rdfs は、http://www.w3.org/2000/01/rdf-schema#   のそれぞれ省略形
RDFの長所
• URIは、グローバルなIDなので、データの構築を分散して行うことがで
き、また曖昧性を減らすことができる。
• 共通のオントロジーを利用することで、異なるデータの意味的な統合
がやりやすい。
• RDFはグラフ構造であり、テーブル型のデータに比べて、新しい要素
を追加することがやりやすい。
RDBとの比較
RDB RDF DB(Triple store)
データ構造 テーブル グラフ
問い合わせ言語 SQL SPARQL
標準 有 有
スキーマの変更 難しい 簡単
複雑なデータ構造 苦手 簡単
生命科学データベースRDF化の歴史
セマンティックウェブの提唱2001
PubChem, Mesh
2011
2006
2013
タンパク質配列
タンパク質構造
ゲノム配列
薬物活性・遺伝子発現・パスウェイetc
2014
EBI RDF Platform
• EBIで構築されているデータベースの
RDFバージョンを配布するサイト。
• 現在、BioModels、BioSamples、
ChEMBL、ExpressionAtlas、
REACTOMEおよびUniProt が掲載さ
れている。
• それぞれのデータベースがSPARQLエ
ンドポイントを公開しており、サンプ
ルクエリも掲載されている。
TogoGenome
• DBCLSで構築している、ゲノムに関するデータベース
• ゲノム、遺伝子、タンパク質、生物種、表現型、生育環境等の情報をRDF化し、それ
らを統合して検索することができる
• 検索結果を標示は、スタンザと呼んでいる、小さいウェブアプリケーションの組み
合わせによって、実現している。
• 完全にRDFデータとRDFストア(Virtuoso)で開発されている
TogoGenome ファセット検索
http://togostanza.org/
生物種
GO: Molecular function
生育環境
微生物表現型
GO: Biological process
GO: Cellular component
TogoGenome ファセット検索
それぞれのオントロジー
に対して、一つのクラ
スを選択でき、その条
件を全て満たす項目が
検索される
TogoGenome
検索結果のリスト
遺伝子、生物種、環境
などの結果レポートペー
ジへのリンクが表示さ
れている
TogoGenome
結果レポートページの例(生物種)
TogoStanza
• SPARQL検索を行うウェブアプリケーションを作成するためのフレームワーク
• 作成されたスタンザを利用するのは、HTMLに、数行のおまじないと、スタンザを
指定する一行を書き込むだけ
<script src="http://ajax.googleapis.com/ajax/libs/jquery/
1.11.0/jquery.min.js" type="text/javascript"></script>
<script src="http://togostanza.org/stanza/assets/stanza.js"
type="text/javascript"></script>
<div data-stanza-tax-id='278197'
data-stanza=‘http://togostanza.org/stanza/organism_names'>
</div>
TogoStanza ポータルサイト
http://togostanza.org/

[All-in-one2015] セマンティックウェブ技術を活用した生命科学データ利用環境の紹介