Swc2013 yamamoto

6,227 views

Published on

セマンティックWebコンファレンス2013にて発表した際に使用したスライドです。

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
6,227
On SlideShare
0
From Embeds
0
Number of Embeds
5,251
Actions
Shares
0
Downloads
3
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Swc2013 yamamoto

  1. 1. 生命科学分野におけるデータベースの 統合化を目指したLODの構築 ライフサイエンス統合データベースセンター 山本泰智 ( @yayamamo )13年3月7日木曜日
  2. 2. ライフサイエンス統合データベースセンター 生命科学分野のデータベースを使い やすくするために 2007年4月に誕生 現在、2期目のプロジェクトを遂行13年3月7日木曜日
  3. 3. 組織体系 文部科学省 情報・システ ム研究機構 大学共同利用機関法人 遺伝学研究所 DBCLS 情報学研究所 極地研 統計数理 新領域融合研 研究所 究センター We are here gpatague online porfolio DBCLS: ライフサイエンス統合データベースセンター13年3月7日木曜日
  4. 4. 生物関連情報の多様性 © DBCLS Licensed under CC 表示 2.1 日本 © DBCLS Licensed under CC 表示 2.1 日本 CK-12 Foundation13年3月7日木曜日
  5. 5. 生命科学研究の対象としてのヒト ヒトゲノム: 30億塩基対 遺伝子:   2万数千個 タンパク質 :10万以上 SNP:    3千万個 その他の生体分子(糖鎖, 脂質, 低分子)         X 細胞:200−300種類 疾患:7000 (遺伝子の関係するもの) =膨大 時間:発生, 発達, 概日周期, 老化 環境:生活習慣, 居住地         X  個人レベルの解析 BodyParts3D © DBCLS licensed under CC BY-SA 2.1 (数字は主にNCBIデータを参照)13年3月7日木曜日
  6. 6. NCBI Taxonomy 4,000 biomedical journals Database indexed at NLM 1994 4 DBs GenBank SWISSPROT PIR EMBL PRF DDBJ PDB dbEST GenBank dbSTS EMBL LANL DDBJ Patent LANL Patent 3442 Nucleic Acids Research, 1994, Vol. 22, No. 17 37 DBs 2013 http://www.ncbi.nlm.nih.gov/sites/gquery13年3月7日木曜日
  7. 7. NAR Database Issue 1400 1380 1330 1300 1230 1200 1170 1078 1100 2008 2009 2010 2011 2012 Source: Oxford University Press 92 databases added every year 93 dullhunk13年3月7日木曜日
  8. 8. 生命科学研究の新たな転換期 生命科学の情報爆発 仮説検証型からデータ駆動型の科学への転換 多種多様なデータの標準化が13年3月7日木曜日
  9. 9. 日本のライフサイエンスDBの問題点 ● 複数主体によるバラバラのDB構築・管理 最適DBを見つける困難 利用法を把握する困難 信頼性を把握する困難 ● 大型プロジェクトの成果公開が不十分 DBを用いた研究が困難13年3月7日木曜日
  10. 10. 多様なDBの統合化へ 第1段階 DBを網羅的に収集しメタデータを付与する 第2段階 DB毎にフォーマットと用語の統一を行う 第3段階 複数のDBを再構築し、使いやすいインターフェース にまとめあげる 山口敦子(ライフサイエンス統合データベースセンター)、片山俊明(東京大学医科学研究所)13年3月7日木曜日
  11. 11. http://lifesciencedb.jp/13年3月7日木曜日
  12. 12. セマンティックウェブ技術を用いた統合へ 各DBをRDFを用いて(再)構築 オントロジーを関連組織と意見交換しつつ開発 BioHackathon、SPARQLthon 繋がる分散DB空間の構築を目指す13年3月7日木曜日
  13. 13. 略語DBや辞書のRDF化、LODへ 開発事例 下記言語資源について行った Allie: 生命科学分野の略語に関するDB LSD: 生命科学分野の日英対訳辞書* オントロジー構築とRDF化、DBpediaへのリンク付与 SPARQLエンドポイントの設置 * ライフサイエンス辞書プロジェクトによる編纂13年3月7日木曜日
  14. 14. "特定病原体除去の"@ja allie:LongForm Abbreviation SPF "specific pathogen-free"@en rdfs:label rdf:type Long form rdfs:label specific pathogen-free http://purl.org/allie/id/longform/1528191 English allie:hasLongFormOf 特定病原体除去の Japanese http://purl.org/allie/id/pair/1547869 rdf:type allie:hasShortFormOf allie:EachPair http://purl.org/allie/id/pair/1547869 RDFデータの一部 rdfs:label rdf:type "SPF"@en allie:ShortForm13年3月7日木曜日
  15. 15. 圧縮後ファイ トリプル数 ルサイズ Allie 2億1700万 1G程度 LSD 560万 39M UniProt (参考) 50億 -13年3月7日木曜日
  16. 16. LOD構築にまつわる課題 URIの設計 既存オントロジーの検索と選択 既存オントロジーのライセンス 適切なデータモデルの選択13年3月7日木曜日
  17. 17. RDFデータを構築し公開する際に 参考となる資料 http://patterns.dataincubator.org/book/13年3月7日木曜日
  18. 18. RDFデータを利用する際に参考となる資料13年3月7日木曜日
  19. 19. LOD構築周辺 作る 置く 良いエディタ 良いレポジトリ 探す 使う 良い検索サービス 良いライセンス13年3月7日木曜日
  20. 20. レポジトリ (トリプルストア) 現状 実装の未成熟 スケールしにくい 非効率なSPARQLクエリ処理 UTF8処理の不備 SPARQL1.1への未対応 頑健性を欠く動作13年3月7日木曜日
  21. 21. BioHackathon / SPARQLthon 効率よく必要な開発を行うための集まり 関係者を一堂に集めて期間中に集中開発 BioHackathonは世界各地から開発者を招待 2013年は6月下旬にDBCLSにて開催13年3月7日木曜日
  22. 22. 13年3月7日木曜日
  23. 23. Knowledge LO D LO D LO D LO D Reduce LOD LOD Reuse Recycle BodyParts3D, © ライフサイエンス統合データベー スセンター licensed under CC表示 継承2.1 日本13年3月7日木曜日
  24. 24. LINKED DATA STANDARDS13年3月7日木曜日
  25. 25. 謝辞 川本祥子 JSTライフサイエンスデータベース統合推進事業13年3月7日木曜日

×