Construction d’un pipeline d’analyse
métatranscriptomique pour l’exploration
des insectes vecteurs en Afrique
Vanesa BOUKOUBA
86e Congrès Acfas, Chicoutimi Québec
7 Mai 2018
Écosystème singulier :
➢ Insectes hématophages
➢ Rongeurs
➢ Chauves souris
2
Les insectes des grottes
cavernicoles sont-ils réservoirs
des pathogènes circulant au
Gabon ?
Judicaël Obame-Nkoghe & Christophe Paupy.
Exploring the diversity of bloodsucking Diptera in caves
of Central Africa. Scientific Reports (Nature Publisher
Group) doi:10.1038/s41598-017-00328-z
Circulation des agents infectieux dans les grottes
cavernicoles du Gabon
Bactéries Virus, Parasites,
Champignons
Microbiome d’insectes
3
Transcrits ARNm et
ARN ribosomaux
Métatranscriptome : ensemble des ARNs
Fonctions
Exprimées
Biodiversité
ARNr 16S, 18S, 23S, 28S
Fraction
microbienne
active
Métatranscriptomique environnementale
4
Séquençage Nettoyage Assemblage de novo
ATGGCC
TATGTT
CCAGTC
ATTGCC
AAAAA
Soustraction Annotation
Contigs
Reads
visuali-
sation
Temps d’analyse :
en local
Identification des
Organismes et des
Fonctions actives
Illumina Miseq
Rapport
qualité
Serveur
MG-RAST :
4 h 2 h 10 h 1 h
1h à 5 j
17 h
1 semaine
Assemblage Spades
k21, k33, k55
Stratégie globale
48,89 Millions de reads
10,88 Go
Métatranscriptome = Mélange hétérogène
ARNs Insectes >> bactéries, parasites, fungi
Éliminer le maximum de reads d’insectes
Augmenter la sensibilité de
détection des ARNs non-insectes
Diminuer les ressources informatiques
Réduire la taille
5
Soustraction in silico
Borozan et al. 2013 : Evaluation of alignment algorithms
for discovery and identification of pathogens using
RNA-Seq. DOI: 10.1371/journal.pone.0076935
Objectif
4 866 409
827 090
827 075
5979
247 611
10 025 426
1543
2 932 134
Aedes aegypti
Aedes albopictus
Aedes spp (4)
1
Culex quinquefasciatus
Culex spp (2)3
Anopheles gambiae
Anopheles spp (25)
2
Lutzomyia longipalpis (1)
Phlebotomus papatasi (1)
4
Glossina spp (10)
Drosophila spp (25)
Simulium & Uranotaenia (6)
5
Pan troglodytes et autres
primates (3)
6
Reads initiaux
Reads non insectes 6
BWA :
K-mers k14, k19
Soustraction
Insectes
[4000-10 000] pb
Eucaryotes
[1000-4000] pb
Bactéries
[50-1000] pb
Brut_Ass_k21 Brut_Ass_k33 Brut_Ass_k55
Assemblage de novo
Qualité
*N50 : taille du plus grand contig qui couvre 50% la longueur de l’assemblage
40x
140x
120x
20x
60x
7
8
Variabilité des résultats
Bruts Reads Contigs Reads-Contigs
NombredecontigsARNr16Set18S
Stabilité des résultats
Bactéries
Eucaryotes
31-36 transcrits bactériens
17-26 transcrits eucaryotes
15 à 50 transcrits bactériens
28 à 176 transcrits eucaryotes
Double SoustractionSoustraction Soustraction
Analyse de la Biodiversité - ARNr 16S et 18S
Sans Soust.
Injection de reads ARNr 16S et 18S
- Bordetella pertussis
- Candida albicans
Bordetella
pertussis
Candida
albicans
Faux négatifs
Faux positifs à l’espèce
NbecontigsARNr16S
Spades k21
Spades k33
Spades k55
Spades k21
Spades k33
Spades k55
NbecontigsARNr16Set18S
? ?
?
Sans soustraction
17
22
14
9
Échantillons bruts (sans soustraction)
=> Instabilité des résultats
Après double soustraction
Pas de faux négatifs
Vrais positifs au genreDouble soustraction
Bordetella
pertussis
Candida
albicans
Spades k21
Spades k33
Spades k55
NbecontigsARNr16Set18S
Spades k21
Spades k33
Spades k55
10
=> Stabilité des résultats
Injection de reads ARNr 16S et 18S
- Bordetella pertussis
- Candida albicans
NbecontigsARNr16S
Bordetella
petrii
14
14
14
rep1 vs rep2
rep1
rep3
rep2
Test d’assemblage k21
Test d’assemblage k33
Test d’assemblage k55
rep1
rep3
rep2
rep1
rep3
rep2
Comparaison Intra-test :
reproductibilité ?
Comparaison Inter-test :
Assemblage ?
Différence significative
o entre les replicats
Wilcoxon p-value = 0,007
Soustraction reads
Pas de différence
significative
o entre les replicats
Différence significative
o entre les tests
Wilcoxon p-value = 0,006
Double soustraction
Soustraction contigs
Tests Statistiques
Pas de différence
significative
o entre les replicats
o entre les tests
Wilcoxon p-value = 0,808
11
k33 vs k55
rep3 vs rep3
Soustraction des Insectes Assemblage Insectes Parasites & fungi Bactéries
Méthode Para_
mètres
Para_
mètres
Nbe
Contigs
Nbe
genres
Nbe
Contigs
Nbe
genres
Nbe
Contigs
Nbe
genres
Pas de Soust. - k21 38 10 31 14 50 17
Pas de Soust. - k33 159 12 16 12 45 22
Pas de Soust. - k55 65 14 21 14 38 14
Soust. Reads k14 k21 41 13 22 9 36 11
Soust. Reads k14 k33 26 10 14 8 27 10
Soust. Reads k14 k55 19 5 12 3 15 5
Soust. Reads k19 k21 18 7 16 11 20 9
Soust. Reads k19 k33 67 10 13 10 25 10
Soust. Reads k19 k55 16 8 12 4 23 9
Soust. Contigs k19 k21 13 8 12 11 35 14
Soust. Contigs k19 k33 13 8 13 11 35 14
Soust. Contigs k19 k55 13 8 13 11 35 14
Double
Soustraction
k14 k21 12 7 12 11 35 14
Double
Soustraction
k14 k33 14 7 12 11 35 14
Double
Soustraction
k14 k55 13 8 12 11 35 14
Double
Soustraction
k19 k21 8 4 9 9 26 13
Double
Soustraction
k19 k33 11 6 11 11 31 14
Double
Soustraction
k19 k55 12 7 12 12 34 14 12
Fungi entomopathogènes
+ Isaria tenuipes
+ Ophiocordyceps
Firmicutes (53.5%), Actinobacteria (15.2%) &
Proteobacteria (31.3%)
Firmicutes
Proteobacteria
Non cultivables
PVC
13
Environnementaux :
+ Rhodococcus, Staphylococcus …
+ bactéries non-cultivables
Pathogènes de l’homme :
+ Listeria monocytogenes : listériose (chauves
souris)
Biodiversité : De nombreux pathogènes !!
Parasites
+ Onchocerca volvulus
+ Loa loa (filariose )
+ Ascaris lumbricoides
+ Brugia sp (filariose
lymphatique)
+ Leishmania sp
(Leishmaniose cutanée)
+ Trypanosoma spp :
(maladie du sommeil)
+ Schistosoma sp
(bilharziose)
+ Toxoplasma gondii
(toxoplasmose)
Bactéries
Fonctions protéiques
Fonctions glucidiques
14
Fonctions lipidiques
Fonctions exprimées
Stratégie Métatranscriptomique avec double soustraction :
1/ Diminution de taille des échantillons
=> Diminution des ressources informatiques
=> Pipeline d’analyse utilisable
sur un ordinateur en local
=> Facilement distribuable
pour la surveillance épidémiologique
des moustiques vecteurs en Afrique
2/ Résultats biologiques fiables
=> Détection de Bactéries et Parasites pathogènes portés par
les moustiques en milieu cavernicole au Gabon
Avant Après
Taille (Go) 10,88 2,76
Nombre de
séquences (Mpb)
48 2,9
Processeur 100 % 50 %
Mémoire RAM (Go) 15 6
Conclusion
15
16
Remerciements
Hélène Dauchel Elise Prieur-Gaston Catherine Dauga Sean Kennedy Thomas Cokelaer
Nicolas Berthet Eric LeroyChristophe Paupy Judicaël Obame

Construction d’un pipeline d’analyse métatranscriptomique pour l’exploration des insectes vecteurs en Afrique

  • 1.
    Construction d’un pipelined’analyse métatranscriptomique pour l’exploration des insectes vecteurs en Afrique Vanesa BOUKOUBA 86e Congrès Acfas, Chicoutimi Québec 7 Mai 2018
  • 2.
    Écosystème singulier : ➢Insectes hématophages ➢ Rongeurs ➢ Chauves souris 2 Les insectes des grottes cavernicoles sont-ils réservoirs des pathogènes circulant au Gabon ? Judicaël Obame-Nkoghe & Christophe Paupy. Exploring the diversity of bloodsucking Diptera in caves of Central Africa. Scientific Reports (Nature Publisher Group) doi:10.1038/s41598-017-00328-z Circulation des agents infectieux dans les grottes cavernicoles du Gabon
  • 3.
    Bactéries Virus, Parasites, Champignons Microbiomed’insectes 3 Transcrits ARNm et ARN ribosomaux Métatranscriptome : ensemble des ARNs Fonctions Exprimées Biodiversité ARNr 16S, 18S, 23S, 28S Fraction microbienne active Métatranscriptomique environnementale
  • 4.
    4 Séquençage Nettoyage Assemblagede novo ATGGCC TATGTT CCAGTC ATTGCC AAAAA Soustraction Annotation Contigs Reads visuali- sation Temps d’analyse : en local Identification des Organismes et des Fonctions actives Illumina Miseq Rapport qualité Serveur MG-RAST : 4 h 2 h 10 h 1 h 1h à 5 j 17 h 1 semaine Assemblage Spades k21, k33, k55 Stratégie globale 48,89 Millions de reads 10,88 Go
  • 5.
    Métatranscriptome = Mélangehétérogène ARNs Insectes >> bactéries, parasites, fungi Éliminer le maximum de reads d’insectes Augmenter la sensibilité de détection des ARNs non-insectes Diminuer les ressources informatiques Réduire la taille 5 Soustraction in silico Borozan et al. 2013 : Evaluation of alignment algorithms for discovery and identification of pathogens using RNA-Seq. DOI: 10.1371/journal.pone.0076935 Objectif
  • 6.
    4 866 409 827090 827 075 5979 247 611 10 025 426 1543 2 932 134 Aedes aegypti Aedes albopictus Aedes spp (4) 1 Culex quinquefasciatus Culex spp (2)3 Anopheles gambiae Anopheles spp (25) 2 Lutzomyia longipalpis (1) Phlebotomus papatasi (1) 4 Glossina spp (10) Drosophila spp (25) Simulium & Uranotaenia (6) 5 Pan troglodytes et autres primates (3) 6 Reads initiaux Reads non insectes 6 BWA : K-mers k14, k19 Soustraction
  • 7.
    Insectes [4000-10 000] pb Eucaryotes [1000-4000]pb Bactéries [50-1000] pb Brut_Ass_k21 Brut_Ass_k33 Brut_Ass_k55 Assemblage de novo Qualité *N50 : taille du plus grand contig qui couvre 50% la longueur de l’assemblage 40x 140x 120x 20x 60x 7
  • 8.
    8 Variabilité des résultats BrutsReads Contigs Reads-Contigs NombredecontigsARNr16Set18S Stabilité des résultats Bactéries Eucaryotes 31-36 transcrits bactériens 17-26 transcrits eucaryotes 15 à 50 transcrits bactériens 28 à 176 transcrits eucaryotes Double SoustractionSoustraction Soustraction Analyse de la Biodiversité - ARNr 16S et 18S Sans Soust.
  • 9.
    Injection de readsARNr 16S et 18S - Bordetella pertussis - Candida albicans Bordetella pertussis Candida albicans Faux négatifs Faux positifs à l’espèce NbecontigsARNr16S Spades k21 Spades k33 Spades k55 Spades k21 Spades k33 Spades k55 NbecontigsARNr16Set18S ? ? ? Sans soustraction 17 22 14 9 Échantillons bruts (sans soustraction) => Instabilité des résultats
  • 10.
    Après double soustraction Pasde faux négatifs Vrais positifs au genreDouble soustraction Bordetella pertussis Candida albicans Spades k21 Spades k33 Spades k55 NbecontigsARNr16Set18S Spades k21 Spades k33 Spades k55 10 => Stabilité des résultats Injection de reads ARNr 16S et 18S - Bordetella pertussis - Candida albicans NbecontigsARNr16S Bordetella petrii 14 14 14
  • 11.
    rep1 vs rep2 rep1 rep3 rep2 Testd’assemblage k21 Test d’assemblage k33 Test d’assemblage k55 rep1 rep3 rep2 rep1 rep3 rep2 Comparaison Intra-test : reproductibilité ? Comparaison Inter-test : Assemblage ? Différence significative o entre les replicats Wilcoxon p-value = 0,007 Soustraction reads Pas de différence significative o entre les replicats Différence significative o entre les tests Wilcoxon p-value = 0,006 Double soustraction Soustraction contigs Tests Statistiques Pas de différence significative o entre les replicats o entre les tests Wilcoxon p-value = 0,808 11 k33 vs k55 rep3 vs rep3
  • 12.
    Soustraction des InsectesAssemblage Insectes Parasites & fungi Bactéries Méthode Para_ mètres Para_ mètres Nbe Contigs Nbe genres Nbe Contigs Nbe genres Nbe Contigs Nbe genres Pas de Soust. - k21 38 10 31 14 50 17 Pas de Soust. - k33 159 12 16 12 45 22 Pas de Soust. - k55 65 14 21 14 38 14 Soust. Reads k14 k21 41 13 22 9 36 11 Soust. Reads k14 k33 26 10 14 8 27 10 Soust. Reads k14 k55 19 5 12 3 15 5 Soust. Reads k19 k21 18 7 16 11 20 9 Soust. Reads k19 k33 67 10 13 10 25 10 Soust. Reads k19 k55 16 8 12 4 23 9 Soust. Contigs k19 k21 13 8 12 11 35 14 Soust. Contigs k19 k33 13 8 13 11 35 14 Soust. Contigs k19 k55 13 8 13 11 35 14 Double Soustraction k14 k21 12 7 12 11 35 14 Double Soustraction k14 k33 14 7 12 11 35 14 Double Soustraction k14 k55 13 8 12 11 35 14 Double Soustraction k19 k21 8 4 9 9 26 13 Double Soustraction k19 k33 11 6 11 11 31 14 Double Soustraction k19 k55 12 7 12 12 34 14 12
  • 13.
    Fungi entomopathogènes + Isariatenuipes + Ophiocordyceps Firmicutes (53.5%), Actinobacteria (15.2%) & Proteobacteria (31.3%) Firmicutes Proteobacteria Non cultivables PVC 13 Environnementaux : + Rhodococcus, Staphylococcus … + bactéries non-cultivables Pathogènes de l’homme : + Listeria monocytogenes : listériose (chauves souris) Biodiversité : De nombreux pathogènes !! Parasites + Onchocerca volvulus + Loa loa (filariose ) + Ascaris lumbricoides + Brugia sp (filariose lymphatique) + Leishmania sp (Leishmaniose cutanée) + Trypanosoma spp : (maladie du sommeil) + Schistosoma sp (bilharziose) + Toxoplasma gondii (toxoplasmose) Bactéries
  • 14.
  • 15.
    Stratégie Métatranscriptomique avecdouble soustraction : 1/ Diminution de taille des échantillons => Diminution des ressources informatiques => Pipeline d’analyse utilisable sur un ordinateur en local => Facilement distribuable pour la surveillance épidémiologique des moustiques vecteurs en Afrique 2/ Résultats biologiques fiables => Détection de Bactéries et Parasites pathogènes portés par les moustiques en milieu cavernicole au Gabon Avant Après Taille (Go) 10,88 2,76 Nombre de séquences (Mpb) 48 2,9 Processeur 100 % 50 % Mémoire RAM (Go) 15 6 Conclusion 15
  • 16.
    16 Remerciements Hélène Dauchel ElisePrieur-Gaston Catherine Dauga Sean Kennedy Thomas Cokelaer Nicolas Berthet Eric LeroyChristophe Paupy Judicaël Obame