Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築

第31回 DDBJing 講習会 in 東京@JST
「BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築」

  • Login to see the comments

BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築

  1. 1. BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築 Itoshi NIKAIDO, PhD <itoshi.nikaido@riken.jp> Unit Leader, Bioinformatics Research Unit RIKEN Advanced Center for Computer and Communication http://bit.accc.riken.jp/ (Version: 1.0)
  2. 2. 1. Cloud Computing 3つのCloud Computing 3つの仮想化技術 ! 2. Infrastructure as Code ハードウェア・ソフトウェア管理をプログラムする chef, vagrant ! 3. Bayes Linux: Bioinformatics Analysis Environment System BioDevOps.org RIKEN Cloud System
  3. 3. 林崎研@RIKEN GSC Mouse full-length cDNA sequencing FANTOM1-2 cDNA microarray, imprinted genes 上田研@RIKEN CDB ChIP-seq Single-Cell RNA-seq (Quartz-Seq) Research Outreach & Community Knoppix for Bio KNOB KGB 自己紹介 実験生物学の側で研究・オープンソースコミュニティとの関わり RIKEN ACCC Single-Cell RNA-Seq Epigenome BioDevOp Bioinformatics-jp
  4. 4. バイオインフォマティクス研究開発ユニット Advanced Center for Computing and Communication Informatics Biology 1. DNAシーケンサーデータ解析手法・実験手法の開発 2. 理研内外の実験研究者との共同研究・教育 3. 理研のバイオインフォマティクス研究の方向性を議論・ロールモデルになる xi θi G G0γ σ-­‐ a b 10#pg#total#RNA Amplified#cDNA 1細胞RNA-Seq・新規エピゲノム実データ解析と実験技術の開発
  5. 5. データサイエンスとバイオインフォマティクス IT・統計・ドメイン知識の三位一体 • データを活かすことがビジネスでは 必須に • 統計と計算機、ドメイン知識の3つ を兼ね備えることが必須 • バイオインフォとスキルが重複 • バイオインフォの博士新卒は企 業へ • アカデミアとの待遇に格差が大 きい http://www.ibm.com/developerworks/jp/opensource/library/os-datascience/figure1.png
  6. 6. 人材に関するアンケート調査結果 (2013) わが国におけるバイオインフォマティクス人材を取り巻く現状 https://www.jstage.jst.go.jp/article/johokanri/56/11/56_782/_pdf データ解析を誰がしているか? バイオインフォ研究者との共同は必要か? 必要な人材は?
  7. 7. エバンジェリストモデルによるBioinformatics Infrastructureの整備 多くの研究者を救い、バイオインフォ研究も るモデル Sequencing Core Research Team/Unit Research Team/Unit Research Team/Unit Bioinformatics Evangelist Bioinformatics Research Unit Preventive medicine and applied genomics unit Bioinformatics Research Group, RIKEN ACCC Research Center • ひとりのバイオインフォ研究 者あたり多くて2,3件程度の 共同研究! • 理研では、解析の専門性にロー カル性がある (CLSTは転 写、IMSはゲノムなど)! • センターでバイオインフォを 支える人間を積極的にサポー トする
  8. 8. エンジニアリングで解決できる問題を ソーシャルに解決したら負け
  9. 9. Providing bioinformatics analysis environment Virtual machine with NGS Data analysis tools and pipelines Bioinformatics Research Unit User (inside/outside RIKEN) Browser, tools, Pipelines Install and setup tools (BioDevOps) Development of tools Browser & Pipelines SSH, HTTPS Calc.Result Browser & Pipeline Consultation TutorialUser’s tools Sequencing Facility Cloud Computer sequence data Sample
  10. 10. Introduction of Bioinformatics research activity in RIKEN ACCC Bioinformatics: 研究とエンジニアリング • バイオインフォマティクス研究に集中したい • データ解析環境を構築することは手間がかかる •計算機の調達や管理、保守の手間がかかる • NGS解析はたくさんのツールの組み合わせ • ツールのアップデートが速い • たくさんのバイオデータベースを使う • 解析の再現性担保 • 論文のマテメソは記載が不足しており解析が再現できない
  11. 11. IT インフラ アプリケーション開発・リリース ビジネスアイディア マーケット http://ja.wikipedia.org/wiki/DevOps. modified DevOps = Development + Operations ITインフラとアプリケーション開発の一体化 ビジネスアイディアを素早くマーケットに出すための ITに関する思想とその技術
  12. 12. データ解析用PCクラスターのセットアップ データ解析ツールやパイプ ラインシステムの開発 Bioinformatics Data analysis BioDevOps データ解析やソフト、デー タベースの品質管理 研究アイディア 実験データ 論文出版 BioDevOps = Bioinfomatics + Development + Operations バイオインフォマティクス解析とITインフラとアプリケーション開発の一体化 データ解析の実施 研究アイディアを素早く論文として出すための バイオインフォに関する思想とその技術
  13. 13. • バイオインフォマティクス研究に集中したい • データ解析環境を構築することは手間がかかる •計算機の調達や管理、保守の手間がかかる • NGS解析はたくさんのツールの組み合わせ • ツールのアップデートが速い • たくさんのバイオデータベースを使う • 解析の再現性担保 • 論文のマテメソは記載が不足しており解析が再現できない 解析環境をコードとして管理し仮想計算機で利用する BioDevOps = 2つの技術 Cloud computing Infrastructure as Code
  14. 14. 1. Cloud Computing 3つのCloud Computing 3つの仮想化技術 ! 2. Infrastructure as Code ハードウェア・ソフトウェア管理をプログラムする chef, vagrant ! 3. Bayes Linux: Bioinformatics Analysis Environment System BioDevOps.org RIKEN Cloud System
  15. 15. Providing bioinformatics analysis environment Virtual machine with NGS Data analysis tools and pipelines Bioinformatics Research Unit Cloud Computer User (inside/outside RIKEN) BioDevOps Install and setup tools Development of tools Browser & Pipelines SSH, HTTPS Calc.Result Browser & Pipeline Consultation TutorialUser’s tools
  16. 16. • たくさんのコンピュータリソースがプールされている • このリソースから、ネットワーク、サーバー、ストレージ、 アプリケーション、サービスを構築できる • このプールから便利かつオンデマンドにアクセスし、リ ソース提供を受けられる 解析環境をコードとして管理し仮想計算機で利用する Cloud computing NIST Cloud Computing Reference Architectureより
  17. 17. • Saas (Software as a Service, さーす) • アプリケーションを提供 • DropBox, Gmail, iCoudなど • PaaS (Platform as a Service, ぱーす) • アプリケーションを実行できるコンピュータリソースを 提供 • Amazon Web Service, Google App Engine, Microsoft Azure, Heroku • IaaS(Infrastructure as a Service, イアース/ アイアス) • コンピュータシステムを構築できるリソースを提供 • Amazon EC2 解析環境をコードとして管理し仮想計算機で利用する 3つのCloud computing
  18. 18. CPU、メモリ、ストレージ、ネットワークとして振る舞うソフトウェア 仮想計算機 OS X上でWindow 8が実行されている
  19. 19. Hypervisor OSやハードウェア上に仮想化するためのソフトウェアが動 く。さらにその上でOSが動作する (VirtualBox, Xen, VMware) ! Container OS上にプロセス空間やネットワーク、ユーザID空間を区切っ て、独立したOSのように動作する (dockerなど)
  20. 20. CPU、メモリ、ストレージ、ネットワークとして振る舞うソフトウェア 3つの仮想計算機 http://thinkit.co.jp/sites/default/files/articles/545601.jpg
  21. 21. 1. Cloud Computing 3つのCloud Computing 3つの仮想化技術 ! 2. Infrastructure as Code ハードウェア・ソフトウェア管理をプログラムする chef, vagrant ! 3. Bayes Linux: Bioinformatics Analysis Environment System BioDevOps.org RIKEN Cloud System
  22. 22. Chef: プログラムを管理するプログラム 3つのツール: chef, knife, Vegrant http://www.getchef.com/chef/ User 仮想計算機へアクセス chef cookbookを 実行しプログラムを 自動セットアップ 3. chef cookbookを 配信するサーバー 1. chef cookbookを実装し コード共有レポジトリで管理 2. chef cookbookを 配信サーバーへ提供 0. vegrantでマシンを管理
  23. 23. Chef recipe and Integration Test Example: Installing NCBI BLAST by chef debian, Ubuntuの場合は”ncbi-blast+”というパッケージをインストール CentOSの場合はNCBIからRPMパッケージを取ってきてインストール
  24. 24. Chef recipe and Integration Test Example: Installing NCBI BLAST by chef blastpを実行できたらテスト成功
  25. 25. deploy: ソフトウェア環境を利用可能なように配置する Vagrant: どのようなクラウドコンピュータでも簡単に環境をインストールできる 2. VMイメージ を取得 3. deploy ローカル クラウド ユーザ 仮想計算イメージレポジトリ 開発者 a. 仮想計算機 イメージ開発 1. VM構築を指示 b. VMイメージ登録 4. VMを利用 (SSH, HTTPなど) VMが実行される計算機
  26. 26. 1. Cloud Computing 3つのCloud Computing 3つの仮想化技術 ! 2. Infrastructure as Code ハードウェア・ソフトウェア管理をプログラムする テストと継続的インテグレーション ソーシャルソースコードレボジトリ ! 3. Bayes Linux: Bioinformatics Analysis Environment System BioDevOps.org RIKEN Cloud System
  27. 27. Bayes Linux: Bioinformatics Analysis Environment Virtual machine with NGS Data analysis tools and pipelines
  28. 28. Bioinformatics Analysis Environment as Code バイオインフォ解析環境が完備されたLinuxを仮想マシンとして提供する http://www.getchef.com/chef/ •解析環境セットアップ情報 はすべてコード •ソースコード管理システム でバージョン管理 •コードのテスト •Zabbixによる計算リソース の監視 •データベースミラー User Zabbix
  29. 29. BioDevOps.org バイオインフォ解析ツールのレシピをテスト付きで提供する http://BioDevOps.org/
  30. 30. Bayes Linux on RIKEN Cloud System Virtual machine with NGS Data analysis tools and pipelines Bioinformatics Research Unit User (inside/outside RIKEN) Browser, tools, Pipelines Install and setup tools (BioDevOps) Development of tools Browser & Pipelines SSH, HTTPS Calc.Result Browser & Pipeline Consultation TutorialUser’s tools Sequencing Facility Cloud Computer sequence data Sample
  31. 31. • Cloud system is located at Wako campus • You can access your virtual machine (Ubuntu 14.04 LTS) • with root privileges • via SSH and HTTP • from only Wako, Yokohama, Kobe and Tsukuba • We provide • over 125 tools on Galaxy, 900 R/Bioconductor Packages and 600 command line tools (DebianMed) • one virtual machine per one research group • 10 virtual machines at drawing logs • 8 CPU cores (2GHz), 64 GB RAM and 3 TB strage/VM • NFS for mouse/human reference genome/transcriptome Spec. of virtual machine Bioinformatics Analysis Environment for Your Laboratory Use
  32. 32. WFその1: FastqMcf > Bowtie2 > eXpress WFその2: FastqMcf > Sailfish 共通: 実体パスの取得 共通: カウントデータのマージテーブル作成 > edgeR > gene Symbol付加 1)RNA-seq DEG解析WFを作成
  33. 33. 世界情勢と類似のサービス BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築 • illumina • BaseSpace: クラウドでのデータ解析環境。アプリ実装や共有ができ る • CloudBioLinux • X年続く老舗。CloudManなど自前のクラスタ構築ツールもある • Knoppix for Bio • Bioinformatics向けLiveCD/LiveDVD Linuxの先駆け。書籍化された。 メン終了 • パッケージ集・管理ツール • DebianMed • LPM
  34. 34. 問題点から考える将来 BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築 • 計算が遅い • コンテナ仮想化が主流に • コンテナ仮想の分散計算環境の発展 • 複数VMから構成される計算環境のオーケストレーションが難しい • 分散計算環境を自動的に構築しテストする • パイプラインシステムが未熟である • 大量データを処理しやすいパイプラインシステム • 解析パイプラインのセマンティクスと共有 • 対話型統計解析ツールとの統合 • ipython, RStudio など
  35. 35. 1. Cloud Computing 3つのCloud Computing 3つの仮想化技術 ! 2. Infrastructure as Code ハードウェア・ソフトウェア管理をプログラムする テストと継続的インテグレーション ソーシャルソースコードレボジトリ ! 3. Bayes Linux: Bioinformatics Analysis Environment System BioDevOps.org RIKEN Cloud System
  36. 36. BioDevOpsによる再現性のあるバイオインフォマティクス環境の構築 Itoshi NIKAIDO, PhD <itoshi.nikaido@riken.jp> Unit Leader, Bioinformatics Research Unit RIKEN Advanced Center for Computer and Communication http://bit.accc.riken.jp/ • RIKEN ACCC • BiT • Manabu Ishida (DevOps) • Mika Yoshimura, PhD (Galaxy & pipeline) • Akihiro Matsushima (Infrastructure) • Koki Tsuyuzaki, PhD (Pipeline for RNA-Seq) • Preventive medicine and applied genomics unit • Wako unit & RIKEN Cloud Team • Fujitsu SSL • Yamamoto Go • RIKEN President's Discretionary Fund

×