Phylogenetic Workflows

Phylogenetic Workflows: Tree Building and Post-tree Analyses Naim Matasci The iPlant Collaborative Plant Biology 2011 August 6-10, 2011

Why is the tree of life important? “ Knowledge of evolutionary relationships is fundamental to biology, yielding new insights across the plant sciences, from comparative genomics and molecular evolution, to plant development, to the study of adaptation, speciation, community assembly, and ecosystem functioning.”

Nothing in biology makes sense except in the light of evolution. T. G. Dobzahnsky

Scalability Ackerly, 2009; J. Felsenstein, ca. 1980; Ranger Cluster at TACC

iPlant Tree of Life Grand Challenge Large phylogenetic inference Building a tree of life for up to 500,000 green plants Tree Visualization Scalable visualization for small to large trees Data Assembly and Integration Acquisition, organization and processing the data Taxonomic Intelligence Sorting out different names for the same species Tree Reconciliation Resolving discordant gene and species trees Trait Evolution Using trees to understand how traits evolved

Ancestral state of Hawaiian lobelioids Lobelia niihauensis (Image: David Eickhoff) Cyanea leptostegia (Image: Karl Magnacca)

Continuous Ancestral Character Estimation (Schulter et al. 1997, Paradis 2004) ?

Obtain sequences GetSeq Align sequences Muscle Build Tree FastTree (aML) Ninja (NJ) PHYLIP (MP, NJ, ML) RAxML (ML) Visualize Tree iPlant Tree Viewer Integrate Data Lopper TNRS Run Analysis CACE DACE Contrast OUch Picante Penalized likelihood

>gi|1835233|emb|Z83147.1| S.nepaulensis rbcL gene TTATTATACTCCTGAATAYGAAACCAAAGATACTGATATCTTGGCAGCATTCCGAGTAACTGCTCAGCCT GGAGTTCCACCCGAAGAAGCGGGGGCCGCGGTAGCTGCGGAATCTTCTACTGGTACATGGACAACTGTGT GGACCGATGGACTTACTAACCTTGATCGTTACAAAGGGCGATGCTACAACATAGAGCCCGTTGCTGGAGA AGAAAATCAATTTATTGCTTATGTAGCTTATCCTTTAGACCTTTTTGAAGAAGGTTCTGTTACTAACATG TTTACTTCCATTGTGGGTAATGTATTTGGGTTCAAAGCCCTGCGCGCTCTACGTCTGGAAGATCTGCGAA TCCCTACTGCGTATTGTAAAACTTTCCAAGGACCGCCTCATGGGATCCAAGTTGAAAGAGATAAATTGAA CAAGTATGGTCGTCCCTTGCTGGGATGTACTATTAAACCTAAATTGGGGTTATCGGCTAAAAACTACGGT AGAGCAGTTTATGAATGTCTACGCGGTGGGCTTGATTTTACCAAAGATGATGAGAACGTGAACTCCCAAC CATTTATGCGTTGGAGAGACCGTTTCGTATTTTGTGCCGAAGCAATTTTTAAAGCACAGTCTGAAACAGG TGAAATCAAAGGGCATTACTTGAATGCTACTGCAGGTACATGTGAAGAAATGATGAAAAGGGCTATATTT >gi|1835227|emb|Z83136.1| S.foetidissimum rbcL gene AAGTGTTGGATTCAAAGCGGGTGTTAAAGATTACAAATTGACTTATTATACTCCTGACTATGAAACCAAA GATACTGATATCTTGGCAGCATTCCGAGTAACTCCTCAACCTGGAGTTCCACCTGAAGAAGCAGGGGCCG CGGTAGCTGCCGAATCTTCTACTGGTACATGGACAACTGTGTGGACCGATGGACTTACTAGCCTTGATCG TTACAAAGGGCGATGCTACCACATCGAGCCCGTNGCTGGAGAAGAAAATCAATATATTGCTTATGTAGCT TATCCTTTAGACCTYTTTGAAGAAGGTTCTGTTACTAATATGTKNACTTCCATTGTGGGGAATGTATTTG GGTTCAAAGCCCTGCGTGCTTTACGTCTGGAAGATCTGCGAATCCCTCCTGCGTATTCTAAAACTTTCCA AGGACCGCCTCATGGCATCCAAGTTGAAAGAGATAAATTGAACAAGTACGGTCGTCCCCTGTTGGGATGT ACTATTAAACCTAAATTGGGGTTATCTGCTAAAAACTACGGTAGAGCGGTTTATGAATGTCTCCGCGGTG GACTTGATTTTACCAAAGATGATGAGAACGTGAACTCCCAACCATTTATGCGTTGGAGAGATCGTTTCTT ATTTTGTGCCGAAGCACTTTATAAAGCACAGGCTGAAACAGGTGAAATCAAAGGGCATTACTTGAATGCT >gi|1834456|emb|Z83132.1| G.urceolata rbcL gene AACTAAAGCGGGTGTTGGATTCAAAGCGGGTGTTAAAGATTACAAATTAACTTATTATACTCCTGACTAT GAAACCAAAGATACTGATATCTTGGCAGCATTCCGAGTAACTCCTCAACCTGGAGTTCCACCTGAAGAAG CGGGGGCCGCCGTAGCTGCCGAATCCTCCACTGGTACATGGACAACTGTGTGGACCGACGGACTTACTAG CCTTGATCGTTACAAAGGGCGATGCTACCACATCGAGCCCGTGGCTGGAGAAGAAAATCAATTTATTGCT TATGTAGCTTACCCTTTAGACCTTTTTGAAGAAGGTTCTGTTACTAACATGTTTACTTCCATTGTGGGTA ATGTATTTGGGTTCAAAGCCCTGCGCGCTCTACGTCTGGAAGATCTGCGAATCCCTGTTGCGTATGCTAA AACTTTCCAAGGGCCGCCTCATGGCATCCAAGTTGAAAGAGATAAATTGAATAAGTATGGTCGTCCCCTG

Get Sequences Retrieves nucleotide and amino acid sequences from NCBI's GenBank Automatically includes species name and taxon ID

Improved Tree Building Tools NINJA/WINDJAMMER (Travis Wheeler) Neighbor-Joining implementation that can analyze > 200K species Six day run time reduced 32-fold to 4.5 hours for 220K species data set Two/three day run time reduced 1,800-folds to 2 minutes for distance matrix calculation on 220K set RAxML-Light (Alexandros Stamatakis) Large Scale Maximum Likelihood implementation 55K Tree published (Stephen A. Smith et al., “Understanding angiosperm diversification using small and large phylogenetic trees,” American Journal of Botany 98, no. 3 (2011): 404 -414)

Tree Visualization > 500K Taxa Fast Web based, platform independent Semantic zooming Metadata driven display of information

iPlant Tree Viewer http://portnoy.iplantcollaborative.org/

Lobelia kauaensis Lobelia villosa Galeatella gloria-montis Trematolobelia kauaiensis Trematolobelia macrostachys Lobelia hypoleuca Neowimmeria yuccoides Lobelia niihauensis Brighamia insignis Brighamia rockii Delissea rhytidosperma Delissea subcordata Cyanea acuminata Cyanea hirtella Cyanea coriacea Delissea leptostegia Clermontia kakeana Clermontia parviflora Clermontia arborescens Clermontia fauriei

The TNRS: A Taxonomic Name Resolution Service for Plants Tonight from 5:30 - 7:30 in Exhibit Hall A. Poster number P21011 .

Phylogenetic Workflows

More Related Content

What's hot

Similar to Phylogenetic Workflows

More from Naim Matasci

Recently uploaded

Phylogenetic Workflows

Editor's Notes