Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

第1回HPC OPS研究会 Opening Remarks

560 views

Published on

第1回HPC OPS研究会の趣旨説明

Published in: Science
  • Be the first to comment

  • Be the first to like this

第1回HPC OPS研究会 Opening Remarks

  1. 1. 第1回 HPC OPS研究会 Opening Remarks 二階堂愛, PhD. / Unit Leader Single-cell Omics Research Unit, RIKEN Center for Developmental Biology Bioinformatics Research Unit, RIKEN Advanced Center for Computing and Communication 1
  2. 2. 会の目的 High performance computing + Operation 科学計算のオペレーションを効率化して、研究生産性を向 上したい クラウド, DevOps コンテナ仮想化技術, ワークフロー, ジョブスケジュー ラー, Infrastructure as Code, 構成管理ツール, CI, ソー スコード管理、加速器, セキュリティ, 個人情報... 2
  3. 3. 研究時間の減少とスタイルの変化 3 http://tmaita77.blogspot.jp/2015/04/blog-post_8.htmlより引用 日本の論文共著の形態の変化 主要国等のトップ10%論文数シェアの推移 http://www.mext.go.jp/b_menu/hakusho/html/hpaa201001/detail/1296363.htmより引用 研究時間減少・チーム間連携へ
  4. 4. データ解析の再現性とライフサイエンス 健全なライフサイエンスの発展とデータ解析の仮想化
  5. 5. 例: Single-cell RNA-seqのデータ解析ワークフロー たくさんのプログラムとデータベースの組み合わせ WFその1: FastqMcf > Bowtie2 > eXpress WFその2: FastqMcf > Sailfish 共通: 実体パスの取得 共通: カウントデータのマージテーブル作成 > edgeR > gene Symbol付加 1)RNA-seq~DEG解析WFを作成 数千細胞 x 数万遺伝子 x プロジェクト数
  6. 6. 「計算」の高速化から「研究」の高速化へ バイオインフォマティクス解析とITインフラとアプリケーション開発の一体化 計算環境構築実装 計算環境構築実装 ・これまでのHPCとバイオインフォマティクス 並列・分散・アクセラレータ 律速 ・現在のDNAシーケンス解析の需要 自然科学研究に集中したいが、データ解析環境を構築することは手間がかかる 計算機の調達や管理、保守の手間がかかる ジャンルによっては解析はたくさんのツールの組み合わせ ツールや手法、DBのアップデートが速い いつどのぐらいのデータが出るか予測しにくい。スポット利用が多い。 データ解析の再現性担保 論文のマテメソは記載が不足しており解析が再現できない 計算生命科学者を実験生命科学者のお手伝いから解放 簡単なツールや計算機の使い方やインストール、作図、仕様書書きなどのサポートに忙殺 利用登録 利用登録
  7. 7. IT インフラ アプリケーション開発・リリース ビジネスアイディア マーケット http://ja.wikipedia.org/wiki/DevOps DevOps = Development + Operations ITインフラとアプリケーション開発の一体化 ビジネスアイディアを素早くマーケットに出すための ITに関する思想とその技術
  8. 8. データ解析用PCクラスターのセットアップ データ解析ツールやパイプ ラインシステムの開発 Data analysis SciDevOps データ解析やソフト、デー タベースの品質管理 研究アイディア 実験データ 論文出版 SciDevOps = Science + Development + Operations バイオインフォマティクス解析とITインフラとアプリケーション開発の一体化 データ解析の実施 研究アイディアを素早く論文として出すための データ解析に関する思想とその技術 ※二階堂による造語
  9. 9. 事例1. データ解析用スパコンをクラウド上に自動構築 1コマンド/クリックで、欲しいときに、欲しいだけ、自分専用スパコンを 9 ・誰でもどこでもいつでも簡単に ・複雑な計算環境を再現性よく構築 ・使うぶんだけ計算機を自動的に確保 ・いつでも計算リソースを拡張可能 https://github.com/manabuishii/NGS5th/ Infrastructure as Code (プログラム化された計算機構成) 仮想計算機とクラウドを利用し、スパコンを自動構築し、計算を投入 Web上のボタンをクリック/1コマンドで計算機が手に (團野、松嶋、石井、二階堂)
  10. 10. 事例2. オンデマンドにノードを調達するHPC-クラウドのハイブリッド 自分のマシンからキューを指定してジョブを投げるとクラウドからノードを自動的に調達。NII竹房先生との共同研究。 10 Phase1: ラボのPCクラスタからクラウドノードへ計算 Phase2: ラボのLinux搭載NASからクラウドノードへ計算 $ qsub -q cloud.q command $ qsub -q cloud.q command Virtual Cloud Provider L2VPN RIKEN Cloud ProviderNII オンデマンド接続サービス(松嶋、石井、二階堂)
  11. 11. なぜSciDevOpsやHPC OPSが必要なのか? 自然科学研究とエンジニアリング 自然科学研究に集中するための科学計算環境の効率化 自然科学分野で科学計算環境を支えるエンジニアを育てる エンジニアリングを研究・商売としている方々と連携したい
  12. 12. 大田 達郎 ライフサイエンス統合データベースセンター「DBCLSでのコンテナ・クラウド活用紹介」 澤登亨彦 HiganWorks合同会社 .モビンギ株式会社「Dockerコンテナをつかったホスティングサービスと用途別コンテナイメージの話」 中田寿穂 日本マイクロソフト株式会社パブリックセクター事業本部クラウドアーキテクト「HPC on Azure」 柴田 直樹 エクストリーム-D株式会社 CEO, High Performance Cloud Architect クラウドスパコン構築運用自動化サービス「XTREME- DNA」 竹房あつ子 国立情報学研究所 アーキテクチャ科学研究系「クラウドでのアプリケーション環境構築・管理を支援するオンデマンドクラウ ド構築サービス」 松嶋明宏 国立研究開発法人理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット「科学技術計算用クラスタへの Docker導入と運用」 笠原雅弘 東京大学 大学院新領域創成科学研究科 メディカル情報生命専攻「最先端のゲノム解析で使いたい理想のコンテナ仮想化を考え る」 12

×