Cloud based NGS framework
Upcoming SlideShare
Loading in...5
×
 

Cloud based NGS framework

on

  • 1,228 views

 

Statistics

Views

Total Views
1,228
Views on SlideShare
1,223
Embed Views
5

Actions

Likes
0
Downloads
33
Comments
0

1 Embed 5

http://www.linkedin.com 5

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Cloud based NGS framework Cloud based NGS framework Presentation Transcript

  • Cloud based NGS Analysis Framework김형용 책임개발자E-mail_hygkim@insilicogen.comKM사업부Insilicogen, Inc.
  • “데이터를 얻는 능력, 즉 데이터를 이해하는능력, 처리하는 능력, 가치를 뽑아내는 능력,시각화하는 능력, 전달하는 능력이야말로앞으로 10년간 엄청나게 중요한 능력이 될것이다”Hal Varian,Chief Economist at Google 2
  • VIRTUALIZATION View slide
  • Virtualization View slide
  • Virtualization 가상화 • 컴퓨터 자원의 추상화를 일컫는 말 • 가상의 물리적 리소스를 만들어 냄. •물리적인 1대의 하드웨어 자원을 논리적으로 여러 개로 나누어 사용하거나, •여러대의 하드웨어 자원을 논리적으로 통합하여 이용하는 기술 • 하드웨어 관리, 재난에 대한 시스템 복구 등 여러 문제를 해결할 수 있는 방법으로 최근 각광 받고 있음
  • Virtualization 가상화의 장점!! • 비용절감  서버 한 대를 분할하여 여러 대의 서버를 구성할 수 있음  서버 구입비용 절감, 전기, 상면비용, 서버관리비용이 절감 • 자원의 효율적인 사용  서버의 비 활용되는 자원을 이용하여 가상머신을 만듬으로써 효율적인 자원사용이 가능 • 안정적인 운영  서버를 이미지로 백업, 손쉬운 서버 이전으로 장애에 대한 신속한 대처 가능 • SW의 지속적인 운영  서버 HW의 수명 주기가 끝나면 OS 벤더는 장치 드라이버 지원이 중단됨 -> 마이그레이션 문제가 발생  가상머신에 기존의 시스템을 가상머신에 올리기 때문에 장치 드라이버에 대한 문제 가 발생하지 않음 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 6
  • 가상화 이점 단일서버 - CPU: 2 Type A - RAM: 96G - HDD: 1T 단일서버 일반적인 Type B - CPU: 24 - RAM: 96G 서버 구성 - HDD: 500G 클러스터서버 - CPU: 2 Type C - RAM: 8G - HDD: 500G - NODE: 12EA 추가적인 하드웨어 구매필요 모든 자원이 활용되는 것은 아님 Cop 7
  • 가상화 이점 단일서버 - CPU: 2 Type A 가상머신 - RAM: 96G - HDD: 1T 단일서버 - CPU: 24 Type B 가상머신 - RAM: 96G - HDD: 500G 가상화 이용 서버 구성 클러스터서버 - CPU: 2 Type C - RAM: 8G 가상머신 - HDD: 500G - NODE: 12EA 하드웨어 비용 절감 자원의 효율적 이용 Cop 8
  • 클라우드 서비스에 기본적으로 활용 Cop 9
  • OpenNebula • Virtual Machine(VM) 관리 Tool • Xen, KVM, VMWare등의 관리 제공 • OpenNebula 의 기능들 - User Management - VM Image Management - Virtual Network Management - Virtual Machine Management - User Interfaces - Service Management - Scheduling - Infrastructure Management - Storage Management 10
  • OpenNebula - Sunstone 11
  • OpenStack IaaS cloud computing by Raskpace Cloud and NASA Open source software for building private and public clouds Deliver solutions for all types of clouds by being simple to implement, massively scalable 12
  • GRID COMPUTING
  • Grid vs Cluster 대용량 데이터에 대한 연산을 작은 소규모 연산들로 나누어 공통점 작은 여러대의 컴퓨터로 분산시켜 수행 WAN상에서 서로 다른 기종의 머신들을 연결 차이점 다양한 플랫폼을 서로 연결함 연결대수에 제한이 없음 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 14
  • Grid Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 15
  • Globus Toolkit  대표적인 계산 그리드 미들웨어  Open source toolkit for building computing grids developed and provided by Globus Alliance  Standards implementation • Open Grid Service Architecture (OGSA) • Open Grid Service Infrastructure (OGSI) • Web Services Resource Framework (WSRF) • Job Submission Description Language (JSDL) • Distributed Resource Management Application API (DRMAA) • SOAP • WSDL • Grid Security Infrastructure Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 16
  • High level Open Grid Forum API specification for submission and control of jobs to aDistributed Resource Management (DRM, Job scheduler) system, such as a Clusteror Grid computing infrastructure Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 17
  • PBS (Portable Batch System)  Computer software that performs job scheduling in Unix cluster environment  A component of the Globus Toolkit  Originally developed by NASA  Following versions • OpenPBS • TORQUE – a fork of OpenPBS • PBS Professional (PBS pro) - commercial Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 18
  • TORQUE Distributed resource manager providing control over batch jobs and distributed compute node It stands for Terascale Open Source Resource and QUEue Manager Slave 노드의 CPU개수, core 개수, RAM사이즈, 임 시저장소 등의 설정정보를 가지고 스케줄러에 의해 요청이 왔을 때 클러스터 리소스를 분배함 Slave 1 Master Slave 2 NFS Slave 3 > qsub a.sh a.sh 명령을 스케줄러에 따라 slave로 넘김 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 19
  • Virtualized Galaxy (Test-bed) Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 20
  • CLOUD COMPUTING 21 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.
  • Cloud computing  Delivery of computing and storage capacity as a service to a heterogeneous community of end- recipients. Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 22
  • Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 23
  • VPS (Virtual Private Server)  Internet hosting services to refer a virtual machine in a cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 24
  • AMAZON WEB SERVICES 25 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved.
  • Amazon EC2 (Amazon Elastic Compute Cloud) Virtualization + Grid(Cluster) computing in a Cloud 26
  • Amazon EC2 (Amazon Elastic Compute Cloud) 27
  • Amazon EC2 (Amazon Elastic Compute Cloud) 28
  • Amazon EC2 (Amazon Elastic Compute Cloud) 29
  • Amazon S3 (Amazon Simple Storage Service) 30
  • Aspera Connect Server FTP 대비 국내연결시 3x~5x, 해외연결시 5x~1000x 전송속도 향상 1000 Genome, EBI 등 해외 주요 생물정보 사이트에서도 서비스 31
  • GALAXY CLOUDMAN 32 Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
  • Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 33
  • Galaxy 구성요소 Galaxy 주요구성 요소  Datasources : 입력 데이터 지정. 별도의 지역 시스템이나, 외부 웹사이트의 데이터를 등록 가능  Tool : 기본적인 분석의 최소 단위, 지역설치시 원하는 툴을 만들어 넣을 수 있음  History : 입력데이터가 Tool의 조합을 거쳐 얻어진 중간 결과물 목록  Workflow : History 는 입력데이터 및 파라메터만 바꾸면 새로운 데이터 결과를 얻을 수 있다. 이를 별도로 프로세스 등록  Visualization : 분석결과를 가시화 도구와 연결  Page : 위 요소들을 종합한 보고서 작성 기능Eprimer3 tool 을 별도로 만들어 등록한 예제 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 34
  • Galaxy tool 은 입력 출력 Tool 포맷 포맷 입력 데이터를 (포맷에 맞게) 작업하여 (포맷에 맞게) 출력 데이터를 만드는 역할 조합하면 Workflow가 된다 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 35
  • Creating your own Galaxy Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 36
  • Primer design tool Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 37
  • Galaxy on Cloud Using Amazon EC2 + S3 Select AMIs in Community AMIs Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 38
  • Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 39
  • Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 40
  • Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 41
  • Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 42
  • Galaxy on Cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 43
  • Galaxy on Insilicogen Galaxy localization on cluster Tool development Workflow development Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 44
  • CLOUD BASED NGS ANALYSISSERVICE 45 Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
  • AWS를 활용 HPC 서비스 제공 (예, PacBio의 SMART) Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 46
  • Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 47
  • 30x Human genome 1 sample (150G) 500만원 (1년저장)Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 48
  • 구글로부터 투자받아 NCBI SRA 서비스 연동 온라인에서 실험없이 곧바로 분석 가능Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 49
  • BGI의 무료 분석서비스현재 인간데이터 분석에 초점. 6월부터 타생물종 지원예정 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 50
  • Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 51
  • Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 52
  • Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 53
  • Bina Box 라는 별도의 컴퓨터를분석장비에 장착이곳에서 기본 분석 후 데이터 용량을 줄여 Cloud로 전송 Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 54
  • Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 55
  • Genome-in-a-Day Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 56
  • 57
  • 58
  • CONCLUSION 59 Copyrightⓒ Insilicogen, Inc. 2010. All rights reserved.
  • Cloud based NGS analysis No need to purchase hardware Data acquisition and analysis and service in the same space Elastic computing power and storage But, data transfer problem (Aspera, NAS box) My Book Thunderbolt 6TB Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 60
  • Opportunity Domestic Analysis Market Expansion (PGM21, Teragen,…) For large NGS analysis, We need more server and storage AWS is more easy and cheap Customer want to easy analysis and high quality product Need to easy web application With KT? Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 61
  • What can we do?  Customized/Advanced Analysis Service Positioning  Galaxy + IncoBook on the cloud  Specialized analysis pipeline on the cloud Copyrightⓒ Insilicogen,Inc. 2011. All rights reserved. 62
  • www.insilicogen.comE-mail km@insilicogen.comTel 031-278-0061Fax 031-278-0062