Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観

106 views

Published on

All-in-one 合同講習会 2016 ~バイオビッグデータ解析入門~
講師:大波 純一(バイオサイエンスデータベースセンター)
日時:2016年7月23日
場所:VisLab OSAKA(グランフロント大阪 北館タワーC 9F、大阪市北区)
YouTube:https://youtu.be/Wf9hbwyTGQM

Published in: Science
  • Be the first to comment

  • Be the first to like this

[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観

  1. 1. 初めての All-in-one 合同講習会 ~バイオビッグデータ解析入門~ (2016年7月23日) JST/NBDC が提供する サービス及びプロジェクト概観 国立研究開発法人 科学技術振興機構(JST) バイオサイエンスデータベースセンター(NBDC) 大波純一 ©2016 大波純一 Licensed Under CC 表示4.0国際
  2. 2. 2 はじめに 生命科学分野におけるビッグデータ? ゲノムデータ ヒト1個体分の塩基対データなら約3GB 集団・複数種データセットなら、 その数だけ大きく
  3. 3. 3 http://www.sciencemag.org/news/2016/02/nih-s-1-million-volunteer-precision- medicine-study-announces-first-pilot-projects 100万人健康情報追跡調査 (Precision Medicine Initiative政策) 脊椎動物10000種ゲノム計画 (Genome 10k) https://genome10k.soe.ucsc.edu/ 100万人ゲノム研究 (日本学術会議における提言) http://www.scj.go.jp/ja/info/kohyo/pdf/kohyo-22-t176-1.pdf 大量情報⇒新しい知見 画像や動画など あらゆるフォーマットで ビッグデータの上限は見えず 生命科学におけるビッグデータ
  4. 4. 4 必ずしも少量データのスケールアップで対応できない ビッグデータを扱うためには、情報の標準化と、 探し易い集約場所が重要となる 機械の性能は上がっても人間の認知力は上がらない
  5. 5. 5 データの標準化と蓄積場所 データの標準化による恩恵 • 再利用性の向上 • 機械可読性の付与 • 統合的な利用の促進 適切なデータの集約場所は? • データはデータベースへ。 • データベースはデータベースセンターへ。 • データベースセンター同士は連携して集約。 手間をかけずに利用者がデータを探しだすため
  6. 6. 6 データの標準化と蓄積 データの標準化と蓄積をベースとして、 データベース間の「統合」を目的とする 統合データベースプロジェクトが2008年より開始 →これに伴い以下のデータセンターが設立 大学共同利用法人 情報・システム研究機構(ROIS) ライフサイエンス統合データベースセンター 国立研究開発法人 科学技術振興機構(JST) バイオサイエンスデータベースセンター 研究・開発中心 管理・運用中心
  7. 7. 7 科学技術振興機構(JST) http://www.jst.go.jp/ 1.科学技術イノベーション創出に向けた研究開発戦略の立案 2.科学技術イノベーション創出の推進 ①戦略的な研究開発の推進 ②産学が連携した研究開発成果の展開 ③東日本大震災からの復興・再生支援 ④国際的な科学技術共同研究などの推進 ⑤知的財産の活用支援 ⑥革新的新技術研究開発の推進 3.科学技術イノベーション創出のための基盤形成 ①知識インフラの構築 ②人材インフラの構築 ③コミュニケーションインフラの構築 JSTとNBDCのご紹介 1/2
  8. 8. 8 バイオサイエンスデータベースセンター(NBDC) http://biosciencedbc.jp/ • JSTの中の1つのセンター 2011(平成23年)年4月に設立 • 生命科学分野のデータベースを使いやすくする! (1)データベース研究開発戦略の立案 (2)データベースの充実 府省間のデータベース統合 基盤技術開発 ファンディングプログラム (分野ごとにデータの統合を進めるため) (3)データの公開 (ポータルサイトや関連サービスも含めて) (4)国際連携 JSTとNBDCのご紹介 2/2
  9. 9. 9 NBDCの取り組み 基盤技術開発 ファンディングプログラム (分野ごとにデータの統合を進める) 連邦型統合データベース
  10. 10. 10 公募要領にデータ提供協力依頼記載 • 文部科学省ライフ課委託プロジェクト(H20~) • JST戦略事業(CREST、さきがけ)(H23~) • 厚生労働省科研費(H24~) • 文部科学省科研費(H25~) • AMED-CREST, PRIME(H27~) • 医療分野研究成果展開事業 産学連携医療イノベーション創出プログラム(H27~) • ナショナルバイオリソースプロジェクト 「ゲノム情報等整備プログラム」(H27~)
  11. 11. 11 その他のNBDC主催事業 ・NGSハンズオン講習会 環境構築から統計解析までを含めた、 NGS解析のハンズオン形式による講習会 ※今年の募集は終了しています ・トーゴーの日シンポジウム データベースの統合及びデータベース利用研究 全般に関するシンポジウム。2016年は10月5~6日に 東京大学弥生キャンパスで開催します。 ・統合データベース講習会 AJACS 年に6回、データベースの使い方や、 バイオインフォマティクス関連の解析方法の講習会を 大学や企業、研究所の先生方と共に行っています。 ・バイオハッカソン データベース統合やライフサイエンス分野の データベースに関する技術開発の場として、 DBCLSと共催するハッカソン(Hack + marathon) ※2016年は終了しました。
  12. 12. 12 世界との連携&国内の連携
  13. 13. 13 NBDCが提供しているサービス 全て「NBDCポータルサイト」から
  14. 14. 14 NBDCポータルサイト http://biosciencedbc.jp/「NBDC」で検索 40以上のサービス ・NBDC開発 ・DBCLS開発 ・主要機関(DDBJ,PDBj)開発 ・ファンディング機関開発 登録不要※ 無料 ※ヒトデータベースのみ要申請 「バイオ データベースセンター」 でも。
  15. 15. 15 研究・学習に利用できる主要サービス http://biosciencedbc.jp/ 左上の5件のサービスに ついて、順に説明します。
  16. 16. 16 1. Integbioデータベースカタログ 2. 生命科学データベース横断検索 3. 生命科学系データベースアーカイブ 4. NBDC RDFポータル 5. NBDC ヒトデータベース
  17. 17. 17 Integbioデータベースカタログ 概要 • 国内外の生命科学系DBの所在情報や 説明情報を提供するカタログ 収録DB数:1558件(国内1113件)※2016/07/15時点 • 20種類の記述項目 DB名、URL、運用機関名、生物種、説明など • DBをキーワード検索やカテゴリから探すことが可能 検索ボックス、絞込み機能 • 記述項目がダウンロード可能 複製、改変などが可能なライセンス( CC0 )で配布 DBのカタログ
  18. 18. 18 Integbioデータベースカタログ 使い方1 一覧内の検索 絞り込み DBの一覧 ・新着情報 ・更新履歴 ・ダウンロード ・関連リンク集
  19. 19. 19 Integbioデータベースカタログ 使い方2 オリジナルサイトへのリンク カタログ掲載内容 http://integbio.jp/dbcatalog/record/nbdc00448http://fantom.gsc.riken.jp/4/index.php?lang=jp
  20. 20. 20 Integbioデータベースカタログ 使い方3 生命科学系データベース アーカイブ(後述)へ 統合TVにて 解説動画が視聴可能 オリジナルサイト からデータを 一括ダウンロード可 http://togotv.dbcls.jp/ja/20091119.html 詳細ページに データへのリンク、 説明、利用条件表示 http://dbarchive.biosciencedbc.jp/jp/fantom4/desc.html
  21. 21. 21 Integbioデータベースカタログ 実際に使ってみる • グロビン関連のデータベースを探してみましょう タイトルや説明文にヒットした結果が表示
  22. 22. 22 タイトルや説明文だけでなく、 データベースの中身を直接検索したい! 「生命科学データベース横断検索」
  23. 23. 23 1. Integbioデータベースカタログ 2. 生命科学データベース横断検索 3. 生命科学系データベースアーカイブ 4. NBDC RDFポータル 5. NBDC ヒトデータベース
  24. 24. 24 Googleと生命科学データベース横断検索 Googleで「マウス」と検索した場合 • 研究者は生き物の「マウス」を意図 • 結果にはコンピュータの付属物である「マウス」も表示 優先的に現れる結果は、 意図したものと異なる (実は網羅的でもない)
  25. 25. 25 公開Web検索サービスの弱点 データベースに多い「深層ウェブ」データを、 検索対象にできていない場合がある。 安形輝,宮田洋輔,池内淳,上田修一 学術情報流通における深層ウェブの実態 - 機関リポジトリに収録された文献を用いた調査 - 情報学会研究大会発表論文集 巻:2009 ページ:37-40 カバー率は 公開Webの53.2%程度
  26. 26. 26 生命科学データベース横断検索の特徴 • 生命科学分野のコンテンツを対象にした検索システム 分子DBの中を文献や特許情報とあわせて一括検索できる 検索対象DB数:592件 • 検索キーワードの日英相互翻訳 日英の辞書(京都大学 ライフサイエンス辞書)を搭載 • 検索結果の絞込み機能 DBのカテゴリ、遺伝子名称 • 類似キーワードの表示 DBの一括検索
  27. 27. 27 生命科学データベース横断検索の検索対象一例(概数) DBカテゴリ DB 数 主なDB 文献 42 蛋白質核酸酵素(共立出版)(1985~)、新着論文レ ビュー、文科省「ゲ ノム特定領域」報告書、各種実験 プロトコル集 学会要旨 4 日本農芸化学会、日本生物物理学会、トーゴーの日シンポ 要旨、医学・薬学予稿集全文データベース 特許関連文書 12 日本国特許公報(2004~2015) 統合DBプロジェクト 100 生命科学DBアーカイブ、統合TV 用語解説 15 Gene Wiki、Proteopedia、Molecule of the Month ゲノム・遺伝子・RNA 76 EntrezGene、RefSeq、H-Invitational、FANTOM 遺伝子発現・転写制御 42 CGED(がん組織発現)、DBTSS(転写開始部位)、 coxpressdb(共発現) タンパク質 59 UniProt, PIR、PDBj パスウェイ・相互作用・ 生体反応 14 KEGG、ゲノムネットワークプロジェクト
  28. 28. 28 語句のサジェスト機能 (入力語句を含む単語の提案) 「データベース」か、 「ヒット件数」を選択して“検索” 横断検索インターフェース ~トップページ~ ヘルプページ DB一覧 モバイル版 クレジット英語版 上部ツールバーからのリンク 履歴 ※「設定」から CookieをONしたとき
  29. 29. 29 関連遺伝子 語句シソーラス(関連語句の提案) 外部リンク ツールボックス ヒット数 検索結果スニペット ナビゲーションバー(絞り込み機能あり→後述) 横断検索 ~検索結果(データベース)ページ~
  30. 30. 30 30 生命科学データベース横断検索mobile http://biosciencedbc.jp/dbsearch/mobile/
  31. 31. 31 横断検索 ~利用例 「ハプトグロビン」タンパク? "Structure of the haptoglobin-haemoglobin complex." Nature. 2012 Sep 20;489(7416):456-9. Andersen C.B. et. al. http://www.nature.com/nature/journal/v489/n7416/fp/nature11369_ja.html?lang=ja
  32. 32. 32 横断検索 ~実際に使ってみましょう 「ハプトグロビン」タンパクに関する情報を 様々なデータベースから集めたい Wikipediaプロジェクト言葉の意味、概要 ⇒ DDBJ、Uniprot配列情報 ⇒ PDBj高次構造 ⇒ RefEx発現情報 ⇒ JSNP、dbSNP多型情報 ⇒ 横断検索ならシームレスに複数の データベースの中身を探索できます。
  33. 33. 33 横断検索 ~実際に使ってみましょう トップページから「ハプトグロビン」と検索 ①入力 ②選択 ③クリック
  34. 34. 34 ①初回のみこのメッセージが表示されます⇒OK 横断検索 ~実際に使ってみましょう ②検索結果に情報が多すぎるので、 「全てのデータベース」を選択して絞込みます
  35. 35. 35 横断検索 ~実際に使ってみましょう 文献:J-STAGEや蛋白質核酸酵素 など主に日本語文献 用語解説:辞書やWikipedia、 研究者一覧など 様々なデータベースカテゴリ 統合DBプロジェクト:カタログ等、 本プロジェクトで作成されたデータベース 「用語解説」を クリックしてみましょう
  36. 36. 36 ①まだ情報が多すぎる為、「用語解説」をクリックし、 さらに絞込みます 横断検索 ~実際に使ってみましょう ②8件ヒットした「Gene Wiki」を選択します
  37. 37. 37 横断検索 ~実際に使ってみましょう 単体の解説ページへのリンクに辿りつきました ハプトグロビン: ヒトの血漿中タンパクの1つ。赤血球から遊離した ヘモグロビンに結合し、脾臓などの細網内皮系器官 から除去されるために機能する。ヘモグロビンに 選択的に結合するタンパク質(グロビン族ではない)
  38. 38. 38 横断検索 ~実際に使ってみましょう 同じ検索語句で別の絞込みを行う場合は、 バーの上層を選択すればOKです。
  39. 39. 39 横断検索 ~実際に使ってみましょう 様々な条件で絞り込んでみましょう (⇒絞込み) (⇒絞込み) (⇒絞込み) PDBjの立体構造情報 ハプトグロビンに影響がある難病一覧
  40. 40. 40 横断検索 ~実際に使ってみましょう (⇒絞込み) (⇒絞込み) 転写領域のマッピング情報 (Googleでヒットなし)
  41. 41. 41 データの中身を1件ずつ探すのではなく、 データベースを丸ごと、 ダウンロードして利用したい 「生命科学系データベースアーカイブ」
  42. 42. 42 1. Integbioデータベースカタログ 2. 生命科学データベース横断検索 3. 生命科学系データベースアーカイブ 4. NBDC RDFポータル 5. NBDC ヒトデータベース
  43. 43. 43 生命科学系データベースアーカイブ 概要 • 国内で作成されたDBを丸ごとダウンロードできるサービス  収録DB数:117件 • CSVやRDF形式でデータをダウンロード可能  DBやデータについての説明(メタデータ) • データはCCライセンスで配布  CC表示-継承ライセンス、利用許諾を統一して明確に データの一括 ダウンロード
  44. 44. 44 生命科学系データベースアーカイブの収録DB DBカテゴリ DB 数 対象・生物種 ゲノム/遺伝子 7 マウス、イネ、トマト、植物、大腸菌、原核生物、微生物 遺伝子多型/変異 体/表現型 14 ヒト、イネ、ショウジョウバエ、マウス、シアノバクテリア、線虫 cDNA 18 イネ、トコジラミ、シダ、マボヤ、メダカ、粘菌、クラミドモナス、 シロイヌナズナ、ミヤコグサ、ムラサキツユクサ、酵母、カイコ 発現 7 カタユウレイボヤ、ヒト、マウス、粘菌、プラナリア、植物 蛋白質(配列/構 造/修飾/局在/相 互作用) 14 ヒト、マウス、線虫、酵母、トリパノソーマ、大腸菌、真核生物、 植物、生物全般 化合物/薬剤 4 ヒト、ラット、化合物全般 代謝物、代謝系/ シグナル伝達 15 ヒト、マウス、ラット、植物、藻類、酵母、生物全般 文献 5 遺伝子機能、微生物同定、安全性 カタログ 11 DB、ツール、学協会、プロジェクト、器官、生物画像、データ形式
  45. 45. 45 生命科学系データベースアーカイブ トップページ 表中の項目で検索が可能
  46. 46. 46 生命科学系データベースアーカイブ DB説明ページ DBの説明(メタデータ)ページ • 作成者 • 連絡先 • 予算的背景・プロジェクト • オリジナルサイト • 運用開始年月日 • 最終更新年月日 • など 46
  47. 47. 47 データを眺めてから ダウンロード可能 ZIP形式で丸ごと ダウンロード 生命科学系データベースアーカイブ データDL ダウンロードページ
  48. 48. 48 生命科学系データベースアーカイブ 寄託について データベースの寄託をご検討の際は、 寄託応募要項をご覧の上、お気軽にご相談下さい。
  49. 49. 49 データベース開発者や、高度な検索を必要とする バイオインフォマティクスの専門家向けのサービスは? NBDC RDFポータル
  50. 50. 50 1. Integbioデータベースカタログ 2. 生命科学データベース横断検索 3. 生命科学系データベースアーカイブ 4. NBDC RDFポータル 5. NBDC ヒトデータベース
  51. 51. 51 NBDC RDFポータル(http://integbio.jp/rdf/) 主にデータベース開発者、バイオインフォマティクスの 専門家向けに、RDFデータのポータルサイトを 2015年11月より公開開始
  52. 52. 52 RDF(Resource Description Framework)とは? データを、主語、述語、目的語という3つの 要素(Resource)で定義(Description)する 表現方法(Framework) これまで、表形式で関係性を記述するように 構築されてきたデータベース(Relational DataBase: RDB)より、高度な意味的記述が 可能となる。 RDF を採用することで、データベース間の相 互運用性が高まり、データの自動処理が進むと 考えられている※ ※"NBDC RDFポータル セマンティックに統合された生命科学データの利用を加速するために" 川島秀一 情報管理 vol.59 no.4 p.232-240
  53. 53. 53 RDF化ガイドライン DBCLSが2012年より開催している、生命科学系データベース 開発のイベント、SPARQLthonで蓄積されたノウハウを元に 制定されたガイドライン http://wiki.lifesciencedb.jp/mw/RDFizingDatabaseGuideline ガイドラインを元に精査された 13種類のRDFデータベースが ポータルに収載(2016.7) http://integbio.jp/rdf/?view=matrix
  54. 54. 54 ダウンロードして利用可能 NBDC RDFポータル http://integbio.jp/rdf/?view=detail&id=pdbj ●RDF情報を元に構築された各データベース間の関係性 ●各データベースの説明とダウンロード メタデータ定義の標準化、 語彙の共通化による効果 http://integbio.jp/rdf/?view=graph より抜粋
  55. 55. 55 NBDC RDFポータル ● SPARQL(RDF検索用言語)検索用画面 RDFのトリプル(主語・ 述語・目的語)を介した、 意味的な質問応答が可能 http://integbio.jp/rdf/sparql セマンティック(意味的)なデータベース開発や、 複数のデータベースを統合した検索のための基盤
  56. 56. 56 1. Integbioデータベースカタログ 2. 生命科学データベース横断検索 3. 生命科学系データベースアーカイブ 4. NBDC RDFポータル 5. NBDC ヒトデータベース
  57. 57. 57 ヒトデータではアクセス制限が必要なものも 57 アクセス制限の必要な ヒトに関するデータを 収集・公開する仕組み
  58. 58. 58 制限公開ヒトデータを扱うデータベース EGAdbGaP = JGA→データの格納 NBDC→データの審査 三極連携体制
  59. 59. 59 NBDCヒトデータベース 基本方針: ・ヒトに関するあらゆるデータが対象 ・匿名化された情報のみ ⇒より詳細な情報は共同研究で! ・データ提供/利用に関する審査はNBDCが実施 提供者の要望はできる限り受け入れ(分類、公開時期、制限事項) ・社会的な理解や指針の変更に柔軟に対応 非制限公開データ ウェブサイト等から制限 なく公開、提供の際には 審査を要する 制限公開データ ヒトデータ審査委員会 (NBDC)での審査に 基づき共有
  60. 60. 60 NBDCヒトデータ 共有ガイドライン データ共有分科会 NBDC 外部の有識者を含む審査機関 NBDCヒトデータ取扱い セキュリティガイドライン 策定・見直し ヒトデータ審査委員会 運営委員会 非制限公開データ (利用申請不要) 制限公開データ NBDCヒト データベース提供者 ③データ送付 (メタ情報の提供、再度匿名化必要) ①申請 (インフォームド・コンセントおよび 倫理審査でのデータ共有承認必要) ②承認 ④ID付与 (論文等に利用可能) 利用者 NBDCヒトDB/提供者間の協議内容 ・データの分類(非制限公開or制限公開) ・データの公開日 ・データ利用時の制限事項、他 申請 (データ利用についての倫理審査必要) 承認 1 2 アクセス3利用状況を報告 (年1回および終了時) 4 NBDCヒトデータベース/データ共有の仕組み セキュリティの確保
  61. 61. 61 ヒトデータのデポジトリとして 研究内容の概要 分子データ 提供者情報 関連論文 利用者一覧 非制限公開 11 制限公開 24
  62. 62. 62 まとめ 1. Integbioデータベースカタログ・・ 2. 生命科学データベース横断検索・・ 3. 生命科学系データベースアーカイブ 4. NBDC RDFポータル・・・・・・ 5. NBDC ヒトデータベース・・・・ データベースを探す データベースの中身を検索 データベースをダウンロード RDFデータの集約 ヒトデータの収集・公開 NBDCポータルでは、 他にも様々な有用な 連携機関のデータベースや 活動が掲載されています。
  63. 63. 63 ご清聴ありがとうございました。 NBDCポータルサイト http://biosciencedbc.jp/

×