生命科学分野におけるデータベースの
               統合化を目指したLODの構築

              ライフサイエンス統合データベースセンター
                  山本泰智 ( @yayamamo )




13年3月7日木曜日
ライフサイエンス統合データベースセンター



             生命科学分野のデータベースを使い
             やすくするために

             2007年4月に誕生

             現在、2期目のプロジェクトを遂行




13年3月7日木曜日
組織体系

                                 文部科学省




                             情報・システ
                             ム研究機構

                                                                 大学共同利用機関法人




      遺伝学研究所     DBCLS       情報学研究所      極地研                       統計数理   新領域融合研
                                                                    研究所    究センター


               We are here            gpatague online porfolio




       DBCLS: ライフサイエンス統合データベースセンター

13年3月7日木曜日
生物関連情報の多様性




                                                   © DBCLS Licensed under CC 表示 2.1 日本




             © DBCLS Licensed under CC 表示 2.1 日本                  CK-12 Foundation


13年3月7日木曜日
生命科学研究の対象としてのヒト

                                     ヒトゲノム: 30億塩基対
                                     遺伝子:   2万数千個
                                     タンパク質 :10万以上
                                     SNP:    3千万個
                                     その他の生体分子(糖鎖, 脂質, 低分子)
                                             X
                                     細胞:200−300種類
                                     疾患:7000 (遺伝子の関係するもの)
                                                                =膨大
                                     時間:発生, 発達, 概日周期, 老化
                                     環境:生活習慣, 居住地
                                             X 
                                     個人レベルの解析
       BodyParts3D © DBCLS
       licensed under CC BY-SA 2.1          (数字は主にNCBIデータを参照)



13年3月7日木曜日
NCBI Taxonomy      4,000 biomedical journals
                          Database            indexed at NLM

               1994
               4 DBs       GenBank
                                                          SWISSPROT
                                                          PIR
                           EMBL                           PRF
                           DDBJ                           PDB
                           dbEST                          GenBank
                           dbSTS                          EMBL
                           LANL                           DDBJ
                           Patent                         LANL
                                                          Patent 3442 Nucleic Acids Research, 1994, Vol. 22, No. 17




         37 DBs



             2013


                                       http://www.ncbi.nlm.nih.gov/sites/gquery
13年3月7日木曜日
NAR Database Issue
                                                  1400                                              1380
                                                                                           1330
                                                  1300                          1230

                                                  1200                1170

                                                               1078
                                                  1100



                                                               2008   2009      2010       2011         2012

                                                                      Source: Oxford University Press
                  92 databases added every year




             93
                                                    dullhunk



13年3月7日木曜日
生命科学研究の新たな転換期




             生命科学の情報爆発

             仮説検証型からデータ駆動型の科学への転換

             多種多様なデータの標準化が




13年3月7日木曜日
日本のライフサイエンスDBの問題点

             ● 複数主体によるバラバラのDB構築・管理

                  最適DBを見つける困難

                  利用法を把握する困難

                  信頼性を把握する困難

              ● 大型プロジェクトの成果公開が不十分



                  DBを用いた研究が困難

13年3月7日木曜日
多様なDBの統合化へ


             第1段階
             DBを網羅的に収集しメタデータを付与する

             第2段階
             DB毎にフォーマットと用語の統一を行う

             第3段階
             複数のDBを再構築し、使いやすいインターフェース
             にまとめあげる

                        山口敦子(ライフサイエンス統合データベースセンター)、片山俊明(東京大学医科学研究所)

13年3月7日木曜日
http://lifesciencedb.jp/




13年3月7日木曜日
セマンティックウェブ技術を用いた統合へ



             各DBをRDFを用いて(再)構築

             オントロジーを関連組織と意見交換しつつ開発

              BioHackathon、SPARQLthon

             繋がる分散DB空間の構築を目指す




13年3月7日木曜日
略語DBや辞書のRDF化、LODへ
                       開発事例

             下記言語資源について行った

              Allie: 生命科学分野の略語に関するDB

              LSD: 生命科学分野の日英対訳辞書*

             オントロジー構築とRDF化、DBpediaへのリンク付与

             SPARQLエンドポイントの設置

                         * ライフサイエンス辞書プロジェクトによる編纂

13年3月7日木曜日
"特定病原体除去の"@ja                      allie:LongForm
  Abbreviation
       SPF                    "specific pathogen-free"@en             rdfs:label      rdf:type
             Long form                           rdfs:label
             specific pathogen-free                     http://purl.org/allie/id/longform/1528191
             English
                                                                    allie:hasLongFormOf
               特定病原体除去の
             Japanese
                                     http://purl.org/allie/id/pair/1547869


                                     rdf:type
                                                                    allie:hasShortFormOf

                                allie:EachPair
                                                          http://purl.org/allie/id/pair/1547869

  RDFデータの一部                                         rdfs:label                        rdf:type

                                                 "SPF"@en                           allie:ShortForm




13年3月7日木曜日
圧縮後ファイ
                            トリプル数
                                       ルサイズ

                 Allie      2億1700万    1G程度


                 LSD         560万       39M


             UniProt (参考)     50億        -



13年3月7日木曜日
LOD構築にまつわる課題



             URIの設計

             既存オントロジーの検索と選択

             既存オントロジーのライセンス

             適切なデータモデルの選択




13年3月7日木曜日
RDFデータを構築し公開する際に
                                             参考となる資料




   http://patterns.dataincubator.org/book/




13年3月7日木曜日
RDFデータを利用する際に参考となる資料




13年3月7日木曜日
LOD構築周辺


               作る             置く
              良いエディタ     良いレポジトリ




               探す             使う
             良い検索サービス    良いライセンス



13年3月7日木曜日
レポジトリ (トリプルストア) 現状


             実装の未成熟

             スケールしにくい

             非効率なSPARQLクエリ処理

             UTF8処理の不備

             SPARQL1.1への未対応

             頑健性を欠く動作


13年3月7日木曜日
BioHackathon / SPARQLthon




             効率よく必要な開発を行うための集まり

             関係者を一堂に集めて期間中に集中開発

             BioHackathonは世界各地から開発者を招待

             2013年は6月下旬にDBCLSにて開催




13年3月7日木曜日
13年3月7日木曜日
Knowledge




                     LO
                 D
               LO


                       D
                       LO
               D
             LO




                         D
 Reduce LOD          LOD
 Reuse
 Recycle                   BodyParts3D, © ライフサイエンス統合データベー
                           スセンター licensed under CC表示 継承2.1 日本
13年3月7日木曜日
LINKED DATA STANDARDS




13年3月7日木曜日
謝辞




             川本祥子
             JSTライフサイエンスデータベース統合推進事業




13年3月7日木曜日

Swc2013 yamamoto

  • 1.
    生命科学分野におけるデータベースの 統合化を目指したLODの構築 ライフサイエンス統合データベースセンター 山本泰智 ( @yayamamo ) 13年3月7日木曜日
  • 2.
    ライフサイエンス統合データベースセンター 生命科学分野のデータベースを使い やすくするために 2007年4月に誕生 現在、2期目のプロジェクトを遂行 13年3月7日木曜日
  • 3.
    組織体系 文部科学省 情報・システ ム研究機構 大学共同利用機関法人 遺伝学研究所 DBCLS 情報学研究所 極地研 統計数理 新領域融合研 研究所 究センター We are here gpatague online porfolio DBCLS: ライフサイエンス統合データベースセンター 13年3月7日木曜日
  • 4.
    生物関連情報の多様性 © DBCLS Licensed under CC 表示 2.1 日本 © DBCLS Licensed under CC 表示 2.1 日本 CK-12 Foundation 13年3月7日木曜日
  • 5.
    生命科学研究の対象としてのヒト ヒトゲノム: 30億塩基対 遺伝子:   2万数千個 タンパク質 :10万以上 SNP:    3千万個 その他の生体分子(糖鎖, 脂質, 低分子)         X 細胞:200−300種類 疾患:7000 (遺伝子の関係するもの) =膨大 時間:発生, 発達, 概日周期, 老化 環境:生活習慣, 居住地         X  個人レベルの解析 BodyParts3D © DBCLS licensed under CC BY-SA 2.1 (数字は主にNCBIデータを参照) 13年3月7日木曜日
  • 6.
    NCBI Taxonomy 4,000 biomedical journals Database indexed at NLM 1994 4 DBs GenBank SWISSPROT PIR EMBL PRF DDBJ PDB dbEST GenBank dbSTS EMBL LANL DDBJ Patent LANL Patent 3442 Nucleic Acids Research, 1994, Vol. 22, No. 17 37 DBs 2013 http://www.ncbi.nlm.nih.gov/sites/gquery 13年3月7日木曜日
  • 7.
    NAR Database Issue 1400 1380 1330 1300 1230 1200 1170 1078 1100 2008 2009 2010 2011 2012 Source: Oxford University Press 92 databases added every year 93 dullhunk 13年3月7日木曜日
  • 8.
    生命科学研究の新たな転換期 生命科学の情報爆発 仮説検証型からデータ駆動型の科学への転換 多種多様なデータの標準化が 13年3月7日木曜日
  • 9.
    日本のライフサイエンスDBの問題点 ● 複数主体によるバラバラのDB構築・管理 最適DBを見つける困難 利用法を把握する困難 信頼性を把握する困難 ● 大型プロジェクトの成果公開が不十分 DBを用いた研究が困難 13年3月7日木曜日
  • 10.
    多様なDBの統合化へ 第1段階 DBを網羅的に収集しメタデータを付与する 第2段階 DB毎にフォーマットと用語の統一を行う 第3段階 複数のDBを再構築し、使いやすいインターフェース にまとめあげる 山口敦子(ライフサイエンス統合データベースセンター)、片山俊明(東京大学医科学研究所) 13年3月7日木曜日
  • 11.
  • 12.
    セマンティックウェブ技術を用いた統合へ 各DBをRDFを用いて(再)構築 オントロジーを関連組織と意見交換しつつ開発 BioHackathon、SPARQLthon 繋がる分散DB空間の構築を目指す 13年3月7日木曜日
  • 13.
    略語DBや辞書のRDF化、LODへ 開発事例 下記言語資源について行った Allie: 生命科学分野の略語に関するDB LSD: 生命科学分野の日英対訳辞書* オントロジー構築とRDF化、DBpediaへのリンク付与 SPARQLエンドポイントの設置 * ライフサイエンス辞書プロジェクトによる編纂 13年3月7日木曜日
  • 14.
    "特定病原体除去の"@ja allie:LongForm Abbreviation SPF "specific pathogen-free"@en rdfs:label rdf:type Long form rdfs:label specific pathogen-free http://purl.org/allie/id/longform/1528191 English allie:hasLongFormOf 特定病原体除去の Japanese http://purl.org/allie/id/pair/1547869 rdf:type allie:hasShortFormOf allie:EachPair http://purl.org/allie/id/pair/1547869 RDFデータの一部 rdfs:label rdf:type "SPF"@en allie:ShortForm 13年3月7日木曜日
  • 15.
    圧縮後ファイ トリプル数 ルサイズ Allie 2億1700万 1G程度 LSD 560万 39M UniProt (参考) 50億 - 13年3月7日木曜日
  • 16.
    LOD構築にまつわる課題 URIの設計 既存オントロジーの検索と選択 既存オントロジーのライセンス 適切なデータモデルの選択 13年3月7日木曜日
  • 17.
    RDFデータを構築し公開する際に 参考となる資料 http://patterns.dataincubator.org/book/ 13年3月7日木曜日
  • 18.
  • 19.
    LOD構築周辺 作る 置く 良いエディタ 良いレポジトリ 探す 使う 良い検索サービス 良いライセンス 13年3月7日木曜日
  • 20.
    レポジトリ (トリプルストア) 現状 実装の未成熟 スケールしにくい 非効率なSPARQLクエリ処理 UTF8処理の不備 SPARQL1.1への未対応 頑健性を欠く動作 13年3月7日木曜日
  • 21.
    BioHackathon / SPARQLthon 効率よく必要な開発を行うための集まり 関係者を一堂に集めて期間中に集中開発 BioHackathonは世界各地から開発者を招待 2013年は6月下旬にDBCLSにて開催 13年3月7日木曜日
  • 22.
  • 23.
    Knowledge LO D LO D LO D LO D Reduce LOD LOD Reuse Recycle BodyParts3D, © ライフサイエンス統合データベー スセンター licensed under CC表示 継承2.1 日本 13年3月7日木曜日
  • 24.
  • 25.
    謝辞 川本祥子 JSTライフサイエンスデータベース統合推進事業 13年3月7日木曜日