Christophe Blanchet, Clément GautheyInfrastructure Distributed for BiologyIDB-IBCP CNRS FR3302 - LYON - FRANCEhttp://idee-...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Bioinformatics Today• Biological data are big data• 1512 onlin...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Sequencing Genomessource: www.politigenomics.com/next-generati...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Infrastructures in BiologyLot of toolsand web servicesto treat...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013The scene• Bioinformatics servicesproviders• Is it easy to dep...
RENABI GRISBI www.grisbio.friiGRSB- GRISBI -BioinformaticsFrench Grid© RENABI GRISBI - www.grisbio.frRENABI-GO APLIBIOPRAB...
RENABI GRISBI www.grisbio.frSatisfactions des besoinsgLite GRISBIBanques internationales ~ oui biomaj NFSEspace personnel ...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Cloud computing ?Created by Sam JohnstonLicense: Creative Comm...
9StratusLab ProjectGoal§Create comprehensive, open-source,IaaS cloud distributionEU FP7 project§1 June 2010—31 May 2012 ...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013IDB’s Cloud• Cloud workbench for Biology• 13 turnkey bioinform...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Driven throught a simple web interface
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Integrate Bioinformatics Tools in CloudBLASTGOR4FastASSearchAb...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Bioinformatics Appliances
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Select your bioinformatics tools
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Run Bioinformatics Cloud InstancesBioinformatics MarketplaceNG...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Manage your Cloud Instances
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013UNIPROTPDBEMBLPROSITEGenomesPublicData sourcesBioinformaticsCl...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Biological examples
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Common bioinformatics node• ‘Biocompute’ appliance• Use your o...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Structural Biology• TOwards StruCtural AssignmeNt Improvement•...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013IaaS deployment of ARIASharedStorageIntermediateresultsCNSCNSC...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Galaxy portal for NGS analyses• Analyse NGS data• portal Galax...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Proteomics desktop• Motivation• Collaboration with a mass spec...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Conclusion• Provide turnkey bioinformatics appliances• Standar...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Perspectives• Define good practices to provide academic communi...
Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013• Acknowledgment• IDB members: Clément Gauthey, Simon Malesys•...
Upcoming SlideShare
Loading in …5
×

IDB-Cloud Providing Bioinformatics Services on Cloud

788 views

Published on

A presentation of IDB (Infrastructure Distributed for Biology) using StratusLab technology by Christophe Blanchet and Clément Gauthey at Lille, France, May 2013.

Published in: Technology, Education
  • Be the first to comment

IDB-Cloud Providing Bioinformatics Services on Cloud

  1. 1. Christophe Blanchet, Clément GautheyInfrastructure Distributed for BiologyIDB-IBCP CNRS FR3302 - LYON - FRANCEhttp://idee-b.ibcp.frIDB acknowledges co-funding by the European Communitys Seventh Framework Programme (INFSO-RI-261552)and the French National Research Agencys Arpege Programme (ANR-10-SEGI-001)IDB-CloudProviding BioinformaticsServices on Cloud
  2. 2. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Bioinformatics Today• Biological data are big data• 1512 online databases (NAR Database Issue 2013)• Institut Sanger, UK, 5 PB• Beijing Genome Institute, China, 4 sites, 10 PB➡ Big data in lot of places• Analysing such data became difficult• Scale-up of the analyses : gene/protein to complete genome/proteome, ...• Lot of different daily-used tools• That need to be combined in workflows• Usual interfaces: portals,Web services, federation,...➡ Datacenters with ease of access/use• Distributed resources• Experimental platforms: NGS, imaging, ...• Bioinformatics platforms➡ Federation of datacentersADNBIMADNAADNBI CCBIADNADN
  3. 3. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Sequencing Genomessource: www.politigenomics.com/next-generation-sequencing-informaticsComplete genome sequencingbecome a lab commodity withNGS (cheap and efficient)source: www.genomesonline.org
  4. 4. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Infrastructures in BiologyLot of toolsand web servicesto treat and vizualizelot of data
  5. 5. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013The scene• Bioinformatics servicesproviders• Is it easy to deploy lot of(incompatible) tools ?• To make them connected topublic databases ?• To limit transfer of huge data ?• To provide users with their owncomputing resources ?• With their own isolated storage ?• Scientists• Is it easy to access/use thesetools ?• To adapt to your usage ?• To get your/other tools deployedon a datacenter ?• To combine them ?• To get my own computing/storage resources ?ADNADNBIMADNBIADNADNBI CCBIADNADNADNBioinformatics CenterScientistsComputerResourcesFrench biologistshave access toregional resources(RENABI)Availability? YesEngineersNoCompatible?Usually onecluster forall useYesNo ?toolX ?installationtime
  6. 6. RENABI GRISBI www.grisbio.friiGRSB- GRISBI -BioinformaticsFrench Grid© RENABI GRISBI - www.grisbio.frRENABI-GO APLIBIOPRABIRENABI-SOIBISAPF-2008RENABI-NERENABI GRISBI• Groupe de réflexion sur l’organisation et lestechnologies: e.g. gLite, DIET, GridWay, BioMaj,ActiveCircle, Caringo, HDFS,XtreemFS, dCache, …• Infrastructure distribuée de Bioinformatique• Soutien financier par RENABI , IBISA 2008-2011,Institut des Grilles 2009-2010• Ressources informatiques:• dans les PFs 2600 coeurs, 310 To stockage• déjà sur GRISBI 860 coeurs, 26 To stockage• 5 centres régionaux RENABI• PFs de production en Bioinformatique• Labellisées RIO / IBISA• 9 sites, 7 CNRS, 2 INRA• ~70 membres enregistrés• Collaboration avec les infrastructures informatiquesnationales: Institut des Grilles, Grid5000 GENCI,Mésocentres=> Pour structurer la communauté et proposerdes réponses aux besoins des biologistes563 c90 TB444 c62 TB376 c50 TB304 c32 TB876 c75 TBwww.grisbio.fr
  7. 7. RENABI GRISBI www.grisbio.frSatisfactions des besoinsgLite GRISBIBanques internationales ~ oui biomaj NFSEspace personnel ~ oui XtreemFS ?Espace commun ~ ouiAccès simple au stockage non XtreemFS ?Distribution des calculs WMSIntégration cluster l’existant ~ oui CE-gatewayDéploiement des logiciels SWAREA ++ temps humainWorkflow/pipeline ~ DAGGestion des identités et accès vo.renabi.fr Shibboleth/LDAPInterface facile à utiliser ~ CLI « commandes GR »Interface publique: accès anonyme sur portailet web servicesnon ? certificats robot, myproxy ?➡ Logiciel gLite répond au besoin en puissance de calcul➡ Modes d’accès et de gestion des données sont moins adaptésaux usages de la communauté
  8. 8. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Cloud computing ?Created by Sam JohnstonLicense: Creative Commons
  9. 9. 9StratusLab ProjectGoal§Create comprehensive, open-source,IaaS cloud distributionEU FP7 project§1 June 2010—31 May 2012 (2 years)§6 partners from 5 countries§Budget : 3.3 M€ (2.3 M€ EC)Contacts§Site web: http://stratuslab.eu/§Twitter: @StratusLab§Support: support@stratuslab.euCNRS (FR) UCM (ES)GRNET (GR) SIXSQ (CH)TID (ES) TCD (IE)
  10. 10. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013IDB’s Cloud• Cloud workbench for Biology• 13 turnkey bioinformatics appliances (as of Apr. 2013)• Running since Sept. 2011, opened to Biology community• Lyon, FRANCE• Powered by• StratusLab• Compute nodes, Block storage• +900 cores, +4TB RAM, 36TB vdisks• Mainly Intel SandyBridge servers with 32c 128GB• Bigmen servers with 64c 768GB• VMs from 1core-1GB to 64cores-768GB RAM• + Openstack• Object storage (Swift)• +200 TB redundant & scalable storage
  11. 11. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Driven throught a simple web interface
  12. 12. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Integrate Bioinformatics Tools in CloudBLASTGOR4FastASSearchAbyssClustalWBioinformaticsToolsRayBWAPhyML RedHat,CentOSDebian,UbuntuSuseLinuxVirtual machinesCreatenewApplianceBioinformatics MarketplaceNGSStructure Galaxy ARIA (…)Sequence• Appliances are virtual machines• small : few GB, easy to convert in most virtualization formats• Installed and pre-configured with common bioinformatics tools• e.g. BLAST, Clustalw,ARIA, MEME, HMMer, TopHat, BWA, Samtools, etc.
  13. 13. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Bioinformatics Appliances
  14. 14. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Select your bioinformatics tools
  15. 15. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Run Bioinformatics Cloud InstancesBioinformatics MarketplaceNGSStructure Galaxy ARIA (…)SequenceIBCPs CloudResourcesBLAST,Clustal,etc.PaaSWorkersVM CNSSharedFSlaunch jobssshIaaSMaster & StorageVM ARIAPortalLaunchInstances
  16. 16. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Manage your Cloud Instances
  17. 17. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013UNIPROTPDBEMBLPROSITEGenomesPublicData sourcesBioinformaticsCloudBLAST,Clustal,etc.PaaSWorkersVM CNSSharedFSlaunch jobssshIaaSMaster & StorageVM ARIAPortalshared(NFS)UserPersistent datapdisk(iSCSI)Biological Data in CloudUpload your dataGet your resultsscp http/S3scp http/S3
  18. 18. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Biological examples
  19. 19. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Common bioinformatics node• ‘Biocompute’ appliance• Use your own instance(s)• With pre-installedstandard bioinformaticstools• BLAST, FastA, SSearch,HMM,...• ClustalW2, Clustal-Omega, Muscle,..• Bowtie(2), BWA, samtools, ...• MEME, R, etc.• Connected to publicreference data• Uniprot, EMBL, genomes, PDB, etc.• Automaticaly shared to theVMs
  20. 20. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Structural Biology• TOwards StruCtural AssignmeNt Improvement• To improve the determination of protein structures based onNuclear Magnetic Resonance (NMR) information with ARIAsoftware• Large computational needs.• A NMR laboratory will not specially invest in building a cluster ofabout 100 nodes to be able to run such NMR structure calculations.• Flexibility of the cloud to deploy the different requiredbioinformatics tools can accelerate such a procedure.• Commercial interest in providing such tools to structural biologistson a “pay as you go” basis.• Endorsers:Institut Pasteur Parisand CNRS IBCP
  21. 21. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013IaaS deployment of ARIASharedStorageIntermediateresultsCNSCNSCNSCNSCNSCNSCNSCNS...(20-100)Structurepreparation(8x)ARIAFinalresultsInput data: 10s MBResults: GBReadWriteVirtualClusterWorkersVM CNSMaster & StorageVM ARIA SharedFSlaunch jobssshSignificant increase in thenumber of calculated proteinconformations improves thestatistics on the NMRconformations and can helpto overcome the ambiguitybottleneck.
  22. 22. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Galaxy portal for NGS analyses• Analyse NGS data• portal Galaxy is widely used in the community• connected to large public data: sequences and indexes• large user data (GBs)• Preserve workflows and results (persistent storage)
  23. 23. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Proteomics desktop• Motivation• Collaboration with a mass spectroscopy platform• Running out of space on their local resources• Protein identification• Mass experimental data• Reference databases : nr, Swiss-Prot• Reference screening tools:OMSSA, X!Tandem• User interface• Remote display• NX• Reference GUIs• SearchGUI• PeptidShakersource: PeptideShaker site
  24. 24. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Conclusion• Provide turnkey bioinformatics appliances• Standard tools and pipelines• Interoperability: ready to run on cloud• Easier to transfer appliances than data (GB vs TB)• Provide a cloud infrastructure tightly connected toexisting bioinformatics infrastructure• Public IDB’s bioinformatics cloud• Linked to public biological databases• In collaboration with the French Bioinformatics Institute• Ease the usage by scientists• Usual bioinformatics gateways• Persistent and large ubiquitous storage• Web interface for cloud management• Access on a registration basis and standard use
  25. 25. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013Perspectives• Define good practices to provide academic community andindustry with bioinformatics services!• French Bioinformatics Institute - IFB• Goals are to provide core bioinformatics resources to the national andinternational life science research community in key fields such as genomics,proteomics, systems biology, etc.• Aims at building a national academic cloud devoted to Bioinformatics, inspiredby the model evaluated through the IDB’s cloud.• European ELIXIR infrastructure• To build a sustainable Europeaninfrastructure for biologicalinformation, supporting life scienceresearch and itstranslation• IFB will be the Frenchrepresentative in ELIXIR.BioinformaticsCenterAppliancescatalogScientistsFrench biologistshave access toregional resources(RENABI)YesEngineersNotoolX ? CloudBioinformatics orpublic cloud.Regional, nationalor a federation.Appliancescreate newregisterAvailable ?
  26. 26. Réseau des Ingénieurs en Bioinformatique, Lille, 23 mai 2013• Acknowledgment• IDB members: Clément Gauthey, Simon Malesys• StratusLab members• co-funding by the European Communitys SeventhFramework Programme (INFSO-RI-261552) and bythe French National Research Agencys ArpegeProgramme (ANR-10-SEGI-001).Questions ?http://idee-b.ibcp.fr

×