Your SlideShare is downloading. ×
0
Python na Informática para Biodiversidade pycon brasil   2008 <ul><ul><li>Dr. Mauro J. Cavalcanti </li></ul></ul><ul><ul><...
Definições <ul><li>BIODIVERSIDADE : a diversidade biológica ou &quot;biodiversidade&quot;, é definida como a variedade das...
Bioinformática x  Informática para Biodiversidade Bioinformática Molecular Informática para Biodiversidade  A idade da bio...
Bioinformática pycon brasil   2008 informática para biodiversidade  “ bioinformática”  ecoinformática genômica proteômica
BioPython <ul><li>Ferramentas computacionais para biologia molecular em Python </li></ul><ul><li>Suporta vários formatos d...
Aplicações de Python em Informática para Biodiversidade <ul><li>Bancos de dados </li></ul><ul><ul><li>Aplicativos </li></u...
Extensão da Biodiversidade <ul><li>1,75 milhões de espécies  descritas </li></ul><ul><li>Cada espécies tem, em média,  >  ...
Estatísticas <ul><li>GenBank :  </li></ul><ul><ul><li>85.759.586.764 bases de nucleotídeos (Fevereiro, 2008)‏ </li></ul></...
Photos: Chip Clark
Tipos de Dados sobre Biodiversidade <ul><li>dados nomenclaturais </li></ul><ul><ul><li>nomes válidos, sinônimos, taxonomia...
Dados sobre Biodiversidade   pycon brasil   2008 Family:  Pyralidae Order:  Lepidoptera Class:  Insecta Genus:  Ostrinia H...
Sinônimos <ul><li>Stegomyia aegypti   16.400 </li></ul><ul><li>Aedes aegypti   1.480.000 </li></ul><ul><li>Culex aegypti 7...
Características dos  Dados Descritivos <ul><li>Caracteres de diferentes tipos </li></ul><ul><ul><li>qualitativos, quantita...
Matriz de Dados Biológicos ? = desconhecido, X = não-aplicável pycon brasil   2008
DELTA ( De scription  L anguage for  Ta xonomy )‏ <ul><li>Formato padronizado para a representação de descrições taxonômic...
Formato DELTA <ul><li>Formato aberto </li></ul><ul><li>Aceita todos os tipos de caracteres, tanto qualitativos (duplo-esta...
Lista de caracteres em DELTA <ul><li>#1. striated area on maxillary palp <presence>/ </li></ul><ul><ul><li>1. present/ </l...
Matriz de dados em DELTA <ul><li>#  V. aintabensis <Boiss. & Hausskn. ex Boiss.>/ </li></ul><ul><li>1,1 2,20-50(-80) 3,1-3...
PyDELTA pycon brasil   2008 <ul><li>Biblioteca genérica de classes Python para a leitura de arquivos no formato DELTA </li...
Bauble <ul><li>SGBD para o manejo de coleções botânicas </li></ul><ul><li>Desenvolvido no Jardm Botânico de Belize </li></...
Características dos Bancos de Dados de Biodiversidade <ul><li>Heterogêneos </li></ul><ul><li>Autônomos </li></ul><ul><li>D...
Bancos de Dados de Coleções Biológicas Distribuídos <ul><li>FishNET </li></ul><ul><ul><li>http://www.fishnet2.net </li></u...
Protocolos de Recuperação de Dados de Coleções Biológicas  <ul><li>Distribuídos :  Protocolos para a recuperação de dados ...
Análise Filogenética <ul><li>Boostscore: http://bootscore.sourceforge.net </li></ul><ul><li>Cactus-pie :  http://www.prick...
Mavric <ul><li>Aplicação para a edição e visualização de árvores filogenéticas </li></ul><ul><li>Baseada em PIL (Python Im...
Análise (Bio)Estatística <ul><li>NumPy : http://www.numpy.org </li></ul><ul><li>SciPy : http://www.scipy.org </li></ul><ul...
“ A Enciclopédia da Vida” <ul><li>Prof. Edward O. Wilson (Harvard University)‏ </li></ul><ul><li>“ Uma página na Web para ...
Extensão da biodiversidade <ul><li>1.750.000 espécies descritas </li></ul>pycon brasil   2008
Ferramentas de Busca <ul><li>iSpecies (PHP, Perl)   http://darwin.zoology.gla.ac.uk/~rpage/ispecies/ </li></ul><ul><li>iSp...
e-Species <ul><li>Aplicação Python CGI </li></ul><ul><li>Utiliza httplib, urllib, xml.dom </li></ul><ul><li>ca.  400 linha...
Anatomia do e-Species pycon brasil   2008
e-Species “API” <ul><li>Como módulo: </li></ul><ul><ul><li>import especies searchCOL = COLSearch() (name, author, status, ...
Outros Projetos <ul><li>LifeScape </li></ul><ul><ul><li>interface cliente para recuperação de informações sobre biodiversi...
ECOLOG ECOLOG  (1990-1993)‏ ECOLOG 2000 pycon brasil   2008
Croizat pycon brasil   2008 Matplotlib + Basemap Minimum Spanning Tree (Algoritmo de Prim)‏
Python in Biodiversity Informatics http://pybio.infobio.net pycon brasil   2008
Apoio <ul><li>AtivaHost Internet </li></ul><ul><ul><li>http://www.ativahost.com </li></ul></ul><ul><li>Projeto Biotupé / I...
Perguntas? pycon brasil   2008
Upcoming SlideShare
Loading in...5
×

Python Na Informática Para Biodiversidade

2,172

Published on

Mauro José Cavalcanti

Published in: Technology, Business
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,172
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
43
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • Transcript of "Python Na Informática Para Biodiversidade"

    1. 1. Python na Informática para Biodiversidade pycon brasil 2008 <ul><ul><li>Dr. Mauro J. Cavalcanti </li></ul></ul><ul><ul><li>E-mail: maurobio@gmail.com </li></ul></ul><ul><ul><li>Home page: www.maurobio.infobio.net </li></ul></ul>
    2. 2. Definições <ul><li>BIODIVERSIDADE : a diversidade biológica ou &quot;biodiversidade&quot;, é definida como a variedade das espécies vivas, os papéis ecológicos que desempenham e a diversidade genética que contém. </li></ul><ul><li>BIOINFORMÁTICA : a aplicação da tecnologia de informação ao gerenciamento de dados biológicos ao nível molecular. </li></ul><ul><li>INFORMÁTICA PARA BIODIVERSIDADE ( Biodiversity Informatics ): a aplicação da tecnologia de informação para compilar, organizar, analisar e disseminar informação acerca da diversidade biológica </li></ul><ul><li>ECOINFORMÁTICA : a aplicação da tecnologia de informação para o manejo e análise de dados ecológicos </li></ul>pycon brasil 2008
    3. 3. Bioinformática x Informática para Biodiversidade Bioinformática Molecular Informática para Biodiversidade A idade da biologia molecular é virtualmente igual a dos computadores (ca. 50 anos); > 95% dos dados estão digitalizados A base de conhecimentos é 5X mais velha do que os computadores (ca. 250 anos); < 5% estão digitalizados Linguagem comum (i.e., ATGC, aminoácidos, etc.)‏ Linguagem imensamente complexa (pouca ou nenhuma padronização)‏ No mínimo $500Mi por ano gastos em bioinformática $50Mi por ano gastos em informática para biodiversidade pycon brasil 2008
    4. 4. Bioinformática pycon brasil 2008 informática para biodiversidade “ bioinformática” ecoinformática genômica proteômica
    5. 5. BioPython <ul><li>Ferramentas computacionais para biologia molecular em Python </li></ul><ul><li>Suporta vários formatos de arquivos utilizados em bioinformática (FASTA, GenBank, etc.)‏ </li></ul><ul><li>Integrado a BioSQL, um esquema padronizado de bancos de dados para sequências biomoleculares </li></ul><ul><li>http://www.biopython.org </li></ul>pycon brasil 2008
    6. 6. Aplicações de Python em Informática para Biodiversidade <ul><li>Bancos de dados </li></ul><ul><ul><li>Aplicativos </li></ul></ul><ul><ul><li>Bibliotecas </li></ul></ul><ul><ul><li>Protocolos </li></ul></ul><ul><li>Ferramentas de busca </li></ul><ul><li>Ferramentas de análise </li></ul><ul><ul><li>Análise filogenética </li></ul></ul><ul><ul><li>Análise estatística </li></ul></ul>pycon brasil 2008
    7. 7. Extensão da Biodiversidade <ul><li>1,75 milhões de espécies descritas </li></ul><ul><li>Cada espécies tem, em média, > 3 sinônimos </li></ul><ul><li>Estimativas do número total de espécies vivas variam de 8 a 40 milhões ( ou mais!!!)‏ </li></ul><ul><li>> 2 bilhões de espécimes em coleções científicas </li></ul><ul><li>250 anos de literatura acumulada </li></ul>pycon brasil 2008
    8. 8. Estatísticas <ul><li>GenBank : </li></ul><ul><ul><li>85.759.586.764 bases de nucleotídeos (Fevereiro, 2008)‏ </li></ul></ul><ul><li>EMBL : </li></ul><ul><ul><li>213.992.734.025 bases de nucleotídeos (Agosto 2008)‏ </li></ul></ul><ul><li>Species 2000 : </li></ul><ul><ul><li>1.105.589 espécies, 86.426 táxons infraespecíficos, 720.040 sinônimos, 461.182 nomes vulgares (2008 Annual Checklist)‏ </li></ul></ul><ul><li>EOSDIS : </li></ul><ul><ul><li>ca. 284 Terabytes de dados ambientais </li></ul></ul>pycon brasil 2008
    9. 9. Photos: Chip Clark
    10. 10. Tipos de Dados sobre Biodiversidade <ul><li>dados nomenclaturais </li></ul><ul><ul><li>nomes válidos, sinônimos, taxonomia </li></ul></ul><ul><li>dados descritivos </li></ul><ul><ul><li>descritores anatômicos, morfológicos, ecológicos, etológicos, bioquímicos </li></ul></ul><ul><li>dados geográficos </li></ul><ul><ul><li>coordenadas geográficas, nomes de áreas </li></ul></ul><ul><li>dados curatoriais </li></ul><ul><ul><li>evento de coleta, determinações, curadoria, etc. </li></ul></ul><ul><li>dados genéticos </li></ul><ul><ul><li>frequências gênicas e cromossômicas, sequências moleculares </li></ul></ul><ul><li>imagens </li></ul><ul><ul><li>raster, vetores </li></ul></ul><ul><li>dados bibliográficos </li></ul>pycon brasil 2008
    11. 11. Dados sobre Biodiversidade pycon brasil 2008 Family: Pyralidae Order: Lepidoptera Class: Insecta Genus: Ostrinia Hübner, 1825 Vernacular (FR): Pyrale du maïs Vernacular (ES): Piral del maíz Vernacular (DE): Maiszünsler Vernacular (EN): European Corn-borer Collection: DGH Lepidoptera Record id: DGHEUR_003217 Country: France Coordinates: 03.047˚E 48.730˚N Date: 28 June 2003 Collector: Donald Hobern Dados sobre espécimes e observações de coleta Nomes Taxonômicos Species: Ostrinia nubilalis (Hübner, 1796)‏ Synonym: Pyralis nubilalis Hübner, 1796 Foodplant: Zea mais L. 1753 Interações Ecológicas Locus: AAL35331 Definition: acyl-CoA Z/E11 desaturase 1 mvpyattadg hpekdecfed... Dados de Seqüências Average Rainfall Location: 48.82°N 2.29°E Jan Feb Mar Apr ... 182.3 120.6 158.1 204.9 ... Dados Abióticos Diagnosis: Wingspan 26-30mm; sexually dimorphic;male: forewings ochreous to dark brown; female: forewings pale yellow; … Descrições Taxonômicas Pheromones of Ostrinia http://www.nysaes.cornell.edu/fst/faculty/acree/pheronet/phlist/ostrinia.html Literatura Digital e Recursos Web
    12. 12. Sinônimos <ul><li>Stegomyia aegypti 16.400 </li></ul><ul><li>Aedes aegypti 1.480.000 </li></ul><ul><li>Culex aegypti 715 </li></ul>pycon brasil 2008
    13. 13. Características dos Dados Descritivos <ul><li>Caracteres de diferentes tipos </li></ul><ul><ul><li>qualitativos, quantitativos </li></ul></ul><ul><li>Variabilidade </li></ul><ul><li>Hierarquia taxonômica </li></ul><ul><li>Valores ausentes </li></ul><ul><li>Dependência de caracteres </li></ul>pycon brasil 2008
    14. 14. Matriz de Dados Biológicos ? = desconhecido, X = não-aplicável pycon brasil 2008
    15. 15. DELTA ( De scription L anguage for Ta xonomy )‏ <ul><li>Formato padronizado para a representação de descrições taxonômicas </li></ul><ul><li>Pacote de programas para o processamento de descrições codificadas neste formato </li></ul><ul><li>Desenvolvido a partir de 1973 por Mike Dallwitz na CSIRO Division of Entomology, Austrália </li></ul><ul><li>Adotado em 1988 pelo TDWG / IUBS como padrão internacional para a representação e intercâmbio de dados taxonômicos </li></ul><ul><li>Disponível na Internet desde 1993 </li></ul><ul><ul><li>http://www.delta-intkey.com </li></ul></ul>pycon brasil 2008
    16. 16. Formato DELTA <ul><li>Formato aberto </li></ul><ul><li>Aceita todos os tipos de caracteres, tanto qualitativos (duplo-estado e multiestado, ordenados ou não-ordenados) quanto quantitativos (contínuos e descontínuos)‏ </li></ul><ul><li>Comentários são permitidos nos caracteres e estados </li></ul><ul><li>Suporta a dependência lógica entre caracteres </li></ul><ul><li>Inclui instruções ( diretivas ) para controlar o processamento dos dados pelos vários programas componentes do sistema </li></ul>pycon brasil 2008
    17. 17. Lista de caracteres em DELTA <ul><li>#1. striated area on maxillary palp <presence>/ </li></ul><ul><ul><li>1. present/ </li></ul></ul><ul><ul><li>2. absent/ </li></ul></ul><ul><li>#2. pronotum <colour>/ </li></ul><ul><ul><li>1. red/ </li></ul></ul><ul><ul><li>2. black/ </li></ul></ul><ul><ul><li>3. yellow/ </li></ul></ul><ul><li>#3. eyes <size>/ </li></ul><ul><ul><li>1. of normal size <i.e. less than 0.5mm in diameter>/ </li></ul></ul><ul><ul><li>2. very large <i.e. more than 0.5mm in diameter>/ </li></ul></ul><ul><li>#4. frons <setae>/ </li></ul><ul><ul><li>1. with setae on anterior middle and above eyes/ </li></ul></ul><ul><ul><li>2. with setae above eyes only/ </li></ul></ul><ul><ul><li>3. without setae/ </li></ul></ul><ul><li>#5. number of lamellae in antennal club/ </li></ul><ul><li>#6. length/ mm/ </li></ul><ul><li>#7. <comments>/ </li></ul>pycon brasil 2008
    18. 18. Matriz de dados em DELTA <ul><li># V. aintabensis <Boiss. & Hausskn. ex Boiss.>/ </li></ul><ul><li>1,1 2,20-50(-80) 3,1-3 4,1-4 5,2 6,2 7,1 8,1/2 9,3/4 10,32-60 11,2-6 12,6-26 13,1-4 14,20-39 15,2 16,2/3 17,8-14 18,1/2/3/4/5 19,1 20,1 21,2/3 22,1/2<rarely>23,1 24,1 25,U 26,2-6 27,10-24 28,2-4 29,3-6 30,2 31,2 32,1 33,1/2 34,2/3 35,9-18 36,1 37,2<or pale yellow> 38,1/2 39,2 40,1 41,8-16 42,2 43,1 44,1 45,6-11 46,4.5-9.5 47,1-2 48,1 49,1 50,4-6.5 51,2.5-4.5 52,1-2 53,3 54,3 55,4-8 56,18-26(-40) 57,7-10 58,1 59,1 60,4 61,2 62,1 63,1 64,2/3/4 65,2 66,2-667,4-5.5 68,4-5.5 69,1 70,0.07-0.1 71,2 72,3 73,1 74,2 75,2 76,1 </li></ul><ul><li># V. anatolica <Turrill>/ </li></ul><ul><li>1,1 2,12-40 3,1-3 4,0.5-2 5,1/2 6,1/2 7,1 8,1/2 9,1/3 10,32-67 11,2-6 12,5-22 13,1-3 14,15-38(-50) 15,2 16,2/3 17,8-16 18,1/2/3 19,1 20,1 21,3/4 22,1 23,2 24,1/2<rarely> 25,1-3 26,1-2 27,13-17 28,2-4 29,4-5.5 30,3 31,2/3 32,1 33,1 34,3/4 35,9-20 36,1 37,5 38,1 39,1 40,2 41,12-17 42,5 43,3 44,2 45,10.5-14 46,8.5-13 47,1-2 48,1 49,1 50,4.5-8 51,3.5-6.5 52,1.5-3.5 53,3 54,3 55,4-7 56,15-25(-30) 57,6-8 58,1 59,2 60,4 61,1/2 62,1 63,1 64,4 65,2 66,3-6 67,3.5-4.5 68,3.5-4.5 69,4.5-6 70,0.07-0.11 71,1 72,3 73,1 74,2 75,4 76,1 </li></ul>pycon brasil 2008
    19. 19. PyDELTA pycon brasil 2008 <ul><li>Biblioteca genérica de classes Python para a leitura de arquivos no formato DELTA </li></ul><ul><li>Contém 6 classes: </li></ul><ul><ul><li>Delta </li></ul></ul><ul><ul><li>DeltaCharList </li></ul></ul><ul><ul><li>CharDescr </li></ul></ul><ul><ul><li>DeltaItemList </li></ul></ul><ul><ul><li>ItemDescr </li></ul></ul><ul><ul><li>DeltaSpecs </li></ul></ul><ul><li>Distribuída como software livre, nos termos da Licença Pública GNU ( http://www.gnu.org )‏ </li></ul><ul><li>http://freedelta.sourceforge.net </li></ul>
    20. 20. Bauble <ul><li>SGBD para o manejo de coleções botânicas </li></ul><ul><li>Desenvolvido no Jardm Botânico de Belize </li></ul><ul><li>Baseado em PyGTK, SQLAlchemy, lxml </li></ul><ul><li>Suporta MySQL, PostgreSQL, SQLite </li></ul><ul><li>http://bauble.belizebotanic.org </li></ul>pycon brasil 2008
    21. 21. Características dos Bancos de Dados de Biodiversidade <ul><li>Heterogêneos </li></ul><ul><li>Autônomos </li></ul><ul><li>Distribuídos </li></ul>Interoperabilidade pycon brasil 2008
    22. 22. Bancos de Dados de Coleções Biológicas Distribuídos <ul><li>FishNET </li></ul><ul><ul><li>http://www.fishnet2.net </li></ul></ul><ul><li>HerpNET </li></ul><ul><ul><li>http://www.herpnet.org </li></ul></ul><ul><li>Mammal Networked Information System (MaNIS) ‏ </li></ul><ul><ul><li>http://manisnet.org </li></ul></ul><ul><li>ORNithological Information System (ORNIS)‏ </li></ul><ul><ul><li>http://ornisnet.org/ </li></ul></ul><ul><li>Ocean Biogeographic Information System (OBIS)‏ </li></ul><ul><ul><li>http://www.iobis.org </li></ul></ul><ul><li>speciesLink </li></ul><ul><ul><li>http://splink.cria.org.br </li></ul></ul>pycon brasil 2008
    23. 23. Protocolos de Recuperação de Dados de Coleções Biológicas <ul><li>Distribuídos : Protocolos para a recuperação de dados estruturados de múltiplos bancos de dados heterogêneos através da Internet </li></ul><ul><li>Genéricos : Protocolos independentes dos dados recuperados e do software usado para armazenamento e recuperação </li></ul><ul><ul><li>DiGIR: Darwin Core http://www.digir.net </li></ul></ul><ul><ul><li>BioCASE : ABCD Schema http://www.biocase.org </li></ul></ul><ul><li>TAPIR  DiGIR + BioCASE http://www.pywrapper.org </li></ul>pycon brasil 2008
    24. 24. Análise Filogenética <ul><li>Boostscore: http://bootscore.sourceforge.net </li></ul><ul><li>Cactus-pie : http://www.pricklysoft.org/software/cactus-pie.html </li></ul><ul><li>Mavric : http://www.bioinformatics.org/mavric </li></ul><ul><li>P4 : http://www.nhm.ac.uk/research-curation/projects/P4 </li></ul>pycon brasil 2008
    25. 25. Mavric <ul><li>Aplicação para a edição e visualização de árvores filogenéticas </li></ul><ul><li>Baseada em PIL (Python Image Library) e PyGTK </li></ul>pycon brasil 2008 http://www.bioinformatics.org/mavric
    26. 26. Análise (Bio)Estatística <ul><li>NumPy : http://www.numpy.org </li></ul><ul><li>SciPy : http://www.scipy.org </li></ul><ul><li>RPy : http://rpy.sourceforge.net </li></ul><ul><li>Matplotlib http://matplotlib.sourceforge.net/ </li></ul>pycon brasil 2008
    27. 27. “ A Enciclopédia da Vida” <ul><li>Prof. Edward O. Wilson (Harvard University)‏ </li></ul><ul><li>“ Uma página na Web para cada espécie” </li></ul>pycon brasil 2008
    28. 28. Extensão da biodiversidade <ul><li>1.750.000 espécies descritas </li></ul>pycon brasil 2008
    29. 29. Ferramentas de Busca <ul><li>iSpecies (PHP, Perl) http://darwin.zoology.gla.ac.uk/~rpage/ispecies/ </li></ul><ul><li>iSpecies Clone (JSON) http://www.canadianarachnology.org/iSpecies/ </li></ul><ul><li>e-Species (Python) http://especies.infobio.net/ </li></ul>pycon brasil 2008
    30. 30. e-Species <ul><li>Aplicação Python CGI </li></ul><ul><li>Utiliza httplib, urllib, xml.dom </li></ul><ul><li>ca. 400 linhas de código </li></ul>pycon brasil 2008 http://especies.infobio.net
    31. 31. Anatomia do e-Species pycon brasil 2008
    32. 32. e-Species “API” <ul><li>Como módulo: </li></ul><ul><ul><li>import especies searchCOL = COLSearch() (name, author, status, valid_name, valid_author, taxon) = searchCOL.search(“Vicia faba”) print taxon </li></ul></ul><ul><li>Como URL: </li></ul><ul><ul><li>http://especies.infobio.net/cgi-bin/especies.py?name=Vicia+faba </li></ul></ul>pycon brasil 2008
    33. 33. Outros Projetos <ul><li>LifeScape </li></ul><ul><ul><li>interface cliente para recuperação de informações sobre biodiversidade de bancos de dados heterogêneos distribuídos ( e-Species , wxPython )‏ </li></ul></ul><ul><li>ECOLOG </li></ul><ul><ul><li>sistema gerenciador de bancos de dados para levantamentos ecológicos de campo ( pysqlite , wxPython, NumPy, SciPy )‏ </li></ul></ul><ul><li>Croizat </li></ul><ul><ul><li>programa para análises quantitativas em biogeografia ( matplotlib , pyshapelib , wxPython, RPy )‏ </li></ul></ul>pycon brasil 2008
    34. 34. ECOLOG ECOLOG (1990-1993)‏ ECOLOG 2000 pycon brasil 2008
    35. 35. Croizat pycon brasil 2008 Matplotlib + Basemap Minimum Spanning Tree (Algoritmo de Prim)‏
    36. 36. Python in Biodiversity Informatics http://pybio.infobio.net pycon brasil 2008
    37. 37. Apoio <ul><li>AtivaHost Internet </li></ul><ul><ul><li>http://www.ativahost.com </li></ul></ul><ul><li>Projeto Biotupé / Instituto Nacional de Pesquisas da Amazônia </li></ul><ul><ul><li>http://biotupe.inpa.gov.br </li></ul></ul><ul><li>Conservation International </li></ul><ul><ul><li>http://www.conservation.org.br </li></ul></ul>pycon brasil 2008
    38. 38. Perguntas? pycon brasil 2008
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×