1. 軽量仮想環境を用いてNGSデータの解析再現性を担保する
Reproducibility as a Service:
Virtual Appliance for NGS data analysis
Tazro Ohta
t.ohta@dbcls.rois.ac.jp
Database Center for Life Science, Japan
prepared for 第31回 DDBJing 講習会 in 東京
12 Jun. 2015
43. Technologies #3
Data Handling and Workflow Execution
• コンテナ実行による問題としてデータ永続性の問題がある
• ホストのファイルシステム上のディレクトリをマウントして書き込み
• 複数の遠隔DCをMesosで抽象化した時にデータをどのように扱うか?
• Cloud Burst Buffer by TITech
• MMCFTP by NII
• コンテナを組み合わせたワークフローをどのように実行するか?
• 解析ワークフロー記述の標準化
• Common Workflow Language
• https://github.com/common-workflow-language/common-workflow-language
48. 📄
📄
📄📄
Apache Mesos + Chronos
manager
Node Node Node Node Node
Public/Private
Docker Registry
Dockerfiles
workflow.json
📦📦 📦
🔡
Data
📦
Storage
post
post/get
transfer
push
pull
run
mount
📡
🔡
User
システム概略
49. 📄workflow.json
📄workflow.sh
PAST FUTURE
• Post to GridEngine
• Run binary software
• Pre-install/build required
• Post to workflow manager
• Run docker container
• Improved portability
50. 📄workflow.json
• JSON format configuration file
• Describe a workflow contains multiple steps
• 1 container for 1 app
• Include directory to be mounted on containers
51.
52. 📄
chronos dependent jobs
📄
curl -X POST-d @workflow.json
• Repeat 1
• Shipped with suicide job
• containers should be
finished in a week
📡 📄📄
57. The future #1
Packaging Whole Research Activities
Research Activity Time Course
Details of
Project Design
Sampling &
Wet Experiments
Primary Data
Data Processing
& Analysis
Secondary Data
Publication
Text, Figs
58. The future #1
Packaging Whole Research Activities
Research Activity Time Course
Details of
Project Design
Sampling Primary Data
Data Processing
& Analysis
Publication
Text, Figs
Wet Experiments
BioProject BioSample Genbank, DRA
59. The future #1
Packaging Whole Research Activities
Research Activity Time Course
Details of
Project Design
Sampling Primary Data
Data Processing
& Analysis
Publication
Text, Figs
Wet Experiments
61. The future #1
Packaging Whole Research Activities
Research Activity Time Course
Details of
Project Design
Sampling Primary Data
Data Processing
& Analysis
Publication
Text, Figs
Wet Experiments
62. Details of
Project Design
Sampling Primary Data
Data Processing
& Analysis
Publication
Text, Figs
Wet Experiments
📦
The future #1
Packaging Whole Research Activities
63. The future #2
Continuous Integration for the Research Process
• Archived Packagesに対するDBの ”Continuous Integration”
• データとプロトコルをビルドしてテスト、コミット
• 最終コミットがそのままDBに登録される
• パッケージはオブジェクトとしてモジュールごとにアクセス可能
• 「研究Aのデータに研究Bのデータ処理を適用する」をコマンド一発で
• レポジトリに登録される新規手法は既存のデータ全てに自動的に適用される
• DBが勝手に膨らんでいく
• DBGrowthRate/submission がIFに置き換わる
• 新しい仮説を証明するための新規な手法、新規なサンプルの価値が増大する
• DataCenter + Database = “Reproduciblity as a Service”
65. 1. Infrastructure needs to change for the Data Science
多くの問題を抱える現在の計算機インフラは大きく変わる必要がある
2. Virtualized Env Runs on Abstracted Computational Resources
抽象化されたハードウェアで仮想化された環境を稼働する
3. DB Integrates Data and Processes for Reproducible Research
データベースが研究を統合し再現性を担保する
Summary
66. • This work was supported by ROIS URA Grant “融合シーズ探索” 2014.
• The Institute of Statistical Mathematics
• Dr. Yoshiyasu Tamura
• Dr. Junji Nakano
• Dr. Keisuke Honda
• National Institute of Informatics
• Dr. Kenjiro Yamanaka
• Dr. Kento Aida
• Dr. Shigetoshi Yokoyama
• Dr. Yoshinobu Masatani
• National Institute of Genetics
• Dr. Osamu Ogasawara
• Dr. Takeshi Tsurusawa
• NIG SuperComputer Facilities SE team
• Information and Mathematical Science and Bioinformatics Co., Ltd.
• Tatsuya Nishizawa
• Tokyo Institute of Technology
• Dr. Shinichi Miura
• Dr. Satoshi Matsuoka
• Colleagues and Members of DBCLS, DDBJ, Open-Bio and BioHackathon
Acknowledgement