Successfully reported this slideshow.
Your SlideShare is downloading. ×

Dynamique et expression des génomes eBis actu - 202106

Ad

Dynamique et expression des
génomes
1

Ad

Dynamique et expression des génomes
 Les activités du pôle « Génomes » de l’UMT eBIS :
 Caractérisation des polymorphism...

Ad

Exploitation des données de séquence
Qu’est-ce que c’est ?
A quoi les utilise-t-on ?
3

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Upcoming SlideShare
Repères_IOC_bilan_2021.pdf
Repères_IOC_bilan_2021.pdf
Loading in …3
×

Check these out next

1 of 46 Ad
1 of 46 Ad

More Related Content

More from Institut de l'Elevage - Idele

Dynamique et expression des génomes eBis actu - 202106

  1. 1. Dynamique et expression des génomes 1
  2. 2. Dynamique et expression des génomes  Les activités du pôle « Génomes » de l’UMT eBIS :  Caractérisation des polymorphismes du génome : SNP, INDEL, variants structuraux, CNV, éléments transposables, recombinaisons, néo-mutations, chromosomes particuliers (X, Y, MT)  Annotation du génome, étude des régions régulatrices, des microARN  Travaux de génétique inverse  Déterminisme génétique de la méthylation  Focus sur l’exploitation des données de séquences qui alimentent de nombreux travaux des autres pôles de l’UMT  Perspectives avec les travaux sur les séquences « long reads » et les données de méthylation 2
  3. 3. Exploitation des données de séquence Qu’est-ce que c’est ? A quoi les utilise-t-on ? 3
  4. 4. Les données de Séquences  Séquençage « short read » : petits fragments de 100-150 bases  Séquençage « long read » : grands fragments de plusieurs dizaines de kbases 4 Fragments de séquences de l’individu : 1 - Extraction d’ADN 2 - Fragmentation du génome et séquençage Mais les fragments ne sont pas positionnés sur le génome A C T G T A A T C G T T A T C G T T C C T G A A C T T G T G A A C T T G T A T T
  5. 5. Les données de Séquences  Cela permet de positionner les différents fragments sur le génome 5 3 – Alignement sur génome de référence (actuellement référence internationale = génome d’une vache Hereford) A C T G T A A T C G T T C C T G A A C T T G T A T T A C T G T A A T C C T T A T C C T T C C T G G A C T T G T G A A C T T G T A T T Séquence de référence : T G G A C T T G T A T T
  6. 6. Les données de Séquences  Avec des séquences short reads, on va principalement identifier des variants de type SNP (mutation ponctuelle) ou des petites insertions/délétions appelées INDEL  Avec des séquences long reads, on peut identifier des variations plus complexes (ou plus longues) appelées variants structuraux 6 4 – Identification de variants en comparant la séquence de l’individu et la séquence de référence A C T G T A A T C G T T C C T G A A C T T G T A T T A C T G T A A T C C T T A T C C T T C C T G G A C T T G T G A A C T T G T A T T Séquence de référence : T G G A C T T G T A T T SNP1 SNP2 Ex : 8 G, 7 A => [AG] Ex : 12C => [CC]
  7. 7. Les données de Séquences Variant Chromosome Position Gène Allèles Type Acide Aminé Impact (de 0 à 1) SNP1 14 610814 DGAT1 G/C missense V197L 0.24 SNP2 14 610880 DGAT1 A/G missense R219G 0.02 SNP3 2 6281432 MSTN C/T stop gained Q204X 0 7 5 – Annotation des variants identifiés Type Conséquence Missense Modifie un acide aminé Perte du codon start Modifie le début de la traduction Apparition d'un codon stop Protéine tronquée Perte d'un codon stop Protéine plus longue Frameshift Modifie le cadre de lecture de la protéine Splice acceptor ou donor Affecte les sites d'épissage etc.  Construction d’un catalogue documenté des variants identifiés  L’annotation des variants consiste à préciser la position du variant et si justifié son impact sur la protéine :  De gros efforts en cours pour compléter ces annotations, en particulier hors du codant
  8. 8. Données disponibles pour l’UMT  Un investissement important depuis 2011, l’UMT avait accès en janvier 2021 aux données de séquences de 4566 bovins de plus de 40 races différentes (20% issus de nos travaux, 80% via consortium « 1000 Génomes Bovins »)  Ci-contre, la répartition dans les principales races françaises  571 taureaux (dont 308 en cours) de 14 races françaises différentes seront séquencés en short read dans le cadre du projet SeqOccIn financé par APIS-GENE et la région Occitanie,  154 de ces 571 taureaux seront également séquencés en long reads dans le cadre de ce projet  Ces données de séquences ont déjà permis d’identifier plus de 102 millions de petits variants (dont 87 millions de SNP)  Possibilité de distinguer des variants spécifiques de race  D’identifier des néo-mutations présentes chez un individu mais pas chez ses parents  Dans cette liste, on retrouve les SNP utilisés en Sélection Génomique 8 # Race​ total 1 Holstein​ 1234 2 Simmental​ 283 3 Brune 231 4 Charolais​e 153 5 Normande​ 137 6 Montbéliarde​ 132 7 Limousin​e 108 8 Blonde d'Aquitaine​ 65 9 Aubrac​ 33 10 Salers​ 28 11 Rouge des Prés 31 12 Tarentaise​ 22 13 Abondance​ 22 14 INRA95 14 15 Blanc Bleu 10 16 Froment du Léon 10 17 Vosgienne​ 8 Total 2521
  9. 9. A quoi les utilise-t-on ?  Etude de la diversité génétique (intra et entre races)  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 9
  10. 10. A quoi les utilise-t-on ?  Etude de la diversité génétique (intra et entre races)  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 10
  11. 11. Etude de la diversité génétique du chromosome Y  Construction d’un réseau phylogénétique à partir de 1200 variants du chromosome Y repérés dans les données de séquences des races françaises.  Identification de seulement 2 groupes de Y (Y1 & Y2) qui coupent l’Europe en deux : Nord/Ouest vs Sud/Est, le nombre de variants différents entre 2 points est indiqué sur chaque segment du réseau  Y1 : HOL, NMD, RDP  Y2 : BSW, MON, SIM, ABO, TAR, CHA, LIM, SAL, BAQ  Peu de diversité constatée intra groupe/race, probablement dû au fait que le chromosome Y se transmet de mâle en mâle, sans recombinaisons et avec une forte dérive 11 Escouflaire & Capitan, 2021
  12. 12. A quoi les utilise-t-on ?  Etude de la diversité génétique  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 12
  13. 13. Etude du déterminisme génétique des caractères 13 1 . Imputations Cette étape consiste à estimer les génotypes manquants des animaux typés avec performances en partant de la densité la plus faible en SNP et en allant jusqu’à la séquence 1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
  14. 14. Etude du déterminisme génétique des caractères 14 1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique Sanchez et al., 2017 2 . Cartographies de QTL sur données de séquence Pour un caractère donné, recherche des régions du génome expliquant les différences de performances entre les animaux
  15. 15. Etude du déterminisme génétique des caractères 15 3 . Mise à jour de la puce SNP Ajout des variants significatifs dans les travaux de cartographie sur la puce utilisée en Sélection Génomique • ~3000 variants issus de travaux de ce type (2 filières, tous caractères) seront bientôt accessibles à tous les utilisateurs de la puce EuroGMD 1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
  16. 16. Etude du déterminisme génétique des caractères 16 4 . Prise en compte en Sélection Génomique Ces variants peuvent ensuite participer à la prédiction du potentiel génétique des animaux Disposer des variants causaux dans la prédiction peut permettre : • de gagner en précision/efficacité surtout lorsque populations de référence de petites tailles • de mettre en place des modèles plus complexes intégrant de la dominance ou des interactions 1. Imputations 2. Cartographies 3. Puce SNP 4. Sélection Génomique
  17. 17. A quoi les utilise-t-on ?  Etude de la diversité génétique  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 17
  18. 18. Caractérisation d’anomalies 18 1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques 1 . ONAB (Obs National des Anomalies Bovines) Remontée de cas d’anomalies observés en élevage Examens cliniques https://www.onab.fr Anomalie du pelage Achondroplasie Ostéogénèse imparfaite Anomalie de coloration Photo ENVT
  19. 19. Caractérisation d’anomalies 19 1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques 2 . Cartographie Identification de la région du génome qui contient l’anomalie génétique Séquençage de deux malades et recherche du variant causal dans les données obtenues 0 200 400 600 800 0 50 100 150 Log(LRT) Position (Mb) Confidence interval Cartographie d’une anomalie de coloration (Milca) en race MON (Floriot et al., 2021)
  20. 20. Caractérisation d’anomalies 20 1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques 3 . Ajout du variant sur la puce SNP
  21. 21. Caractérisation d’anomalies 21 1. ONAB 2. Cartographie 3. Puce SNP 4. Tests génétiques 4 . Mise à disposition du test génétique Possibilité de contre-sélectionner les variants identifiés : • ~25 anomalies caractérisées en France sont disponibles sur la puce EuroGMD • proposition d’une méthode pour les intégrer dans les objectifs de sélection
  22. 22. A quoi les utilise-t-on ?  Etude de la diversité génétique  Travaux sur la mitochondrie et les chromosomes sexuels  Traces de sélection  Etude du déterminisme génétique des caractères  Caractérisation d’anomalies  Approches de génétique inverse 22
  23. 23. Exemple de travaux de génétique inverse  Génétique Inverse : on part du catalogue des variants pour aller vers le phénotypage des animaux porteurs 23 1 . Identification de variants à étudier Ex : identification d’une mutation avec une fréquence élevée dans les génomes Normands (27%) dans un gène connu chez l’Homme et la Souris conduisant à une cécité complète. Par ailleurs, des remontées au niveau de l’ONAB indiquaient des cas de vaches aveugles en race Normande 1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
  24. 24. Exemple de travaux de génétique inverse  Génétique Inverse : on part du catalogue des variants pour aller vers le phénotypage des animaux porteurs 24 2 . Ajout du variant sur la puce SNP 1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques
  25. 25. Exemple de travaux de génétique inverse  Génétique Inverse : on part du catalogue des variants pour aller vers le phénotypage des animaux porteurs 25 3 . Phénotypage d’individus homozygotes Examens oculaires de 20 vaches à la station expérimentale du Pin-au-Haras : • Perte partielle de la vascularisation de la rétine • Perte des photorécepteurs 1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques Seulement 10% à 20% des variants repérés par génétique inverse seront finalement confirmés
  26. 26. Exemple de travaux de génétique inverse  Génétique Inverse : on part du catalogue des variants pour aller vers le phénotypage des animaux porteurs 26 4 . Mise à disposition d’un test génétique Possibilité de sélectionner ou de contre- sélectionner les variants confirmés • La mutation responsable de la perte progressive de vision est disponible sur la puce EuroGMD 1. Variants 2. Puce SNP 3. Phénotypes 4. Tests génétiques (Michot et al., 2016)
  27. 27. Bilan  Depuis 2016, la majorité des travaux de l’UMT eBIS exploitent des données de séquences, des travaux très académiques en point de départ mais qui amènent progressivement à de nombreuses applications quelques années plus tard  La puce SNP utilisée en Sélection Génomique est un point clef car il est à la fois le support de nombreux travaux de recherche exploitant les données de séquences mais aussi le support des applications en élevage issues de ces travaux de recherche 27
  28. 28. Perspectives offertes par les séquences long-read
  29. 29. Rappel sur le processus de séquençage  La molécule d’ADN d’un chromosome est très longue, souvent plus de 100 millions de bases  On ne sais pas (encore…) la séquencer en une seule fois d’un bout à l’autre  On la séquence par morceaux que l’on assemble ensuite trou  En très haut débit, les fragments font aujourd’hui • 100-150 bases = short reads (Illumina) • Plusieurs dizaines de kb = long reads
  30. 30. Intérêt et limite des fragments courts  Les plus  Le moins onéreux, très haut débit, peu d’erreurs  Qualité d’ADN moyenne  Très efficace pour génotyper les variants de petite taille (SNP ou petits InDels)  Ainsi que d’autres applications (microbiote…)  Les moins  Suppose un assemblage de bonne qualité préexistant  Peu efficace (temps, précision…) pour génotyper les variants structuraux de grande taille (SV)
  31. 31. Les variants structuraux Insertion Délétion
  32. 32. Duplication (en tandem ou non) Translocation (plus ou moins éloignée) Les variants structuraux
  33. 33. Inversion Tout existe dans le génome …. Situation souvent complexe combinant plusieurs évènements élémentaires (exemple : les insertions peuvent être accompagnées d’une délétion) Les variants structuraux
  34. 34. Les éléments transposables Transposition Type de translocation Séquences d’origine virale, intégrées depuis très longtemps dans le génome et qui ont gardé la capacité de se déplacer sur le génome Taux de transposition (= de mutation) bien plus élevé que les autres types de variants
  35. 35. Les variants structuraux sont ils importants ?  OUI !  Même s’ils sont moins nombreux que les petits variants, ils couvrent une proportion du génome au moins équivalente  Ils ont une probabilité bien plus forte d’avoir un effet biologique, car les gènes peuvent être fortement altérés  Quelques exemples :  Polled (celtique et frison)  Brachyspina (FANCY)  CDH (APOB)  Dysplasie ectodermique (EDA)  Epidermolyse bulleuse jonctionnelle (ITGB4)  ….
  36. 36. Intérêt et limites des long reads  Les plus  « déjà préassemblé »  Permet de caractériser les séquences répétées  Fournit une information haplotypique  Facilite grandement la détection et le typage des variants structuraux jusqu’à quelques kb  Les moins  Encore onéreux  Nécessite une très bonne qualité d’ADN (détermine la longueur des reads)  Taux d’erreur ponctuelle élevé  Pas encore au stade industriel (mais ça va venir)
  37. 37. Séquences répétées Ces séquences courtes ne peuvent pas être positionnées et ne permettent pas de caractériser la région 10 kb Cette séquence longue de 15 kb permet de caractériser la région (détermination de la longueur réelle, du nombre de répétitions, variation de séquence intra répétition…)
  38. 38. Typage d’une insertion Insertion Génome de l’animal séquencé Lecture montrant l’allèle sauvage Lecture montrant l’insertion
  39. 39. Ce qu’on peut attendre des données • Liste des variants présents et leurs fréquences • Génotypes individuels • Ajout sur puce pour les variants les plus importants, avec un design approprié • Imputation des SV sur l’ensemble de la population • recherche des effets sur les caractères • utilisation en sélection
  40. 40. Le paradigme du génome de référence évolue  Actuellement, quand un animal est séquencé, ses lectures sont d’abord alignées sur le génome de référence, qui est le génome de la vache Hereford Dominette.  La comparaison des lectures avec la référence détecte les variations  Si le génome de Dominette ne contient pas une région, les lectures de cette région de l’animal séquencé ne s’alignent pas : elles sont éliminées  En cas de transposition ou d’inversion, l’alignement ne reflète pas la réalité  On peut donc manquer une proportion non négligeable du génome ou avoir une image erronée  D’où la proposition de constituer plusieurs génomes de référence
  41. 41. La notion de pangénome  Définition : l’ensemble de l’ADN non commun à tous les animaux Race A Race B Race C Si A = Dominette, les séquences orange et jaune ne sont jamais analysées  Analyse des spécificités de race, de populations, d’individus  Projet international de caractérisation du pangénome visant la construction d’assemblages de références par race : l’UMT en charge des races françaises, en lien avec la plateforme de Toulouse
  42. 42. Perspectives en épigénétique : Relations entre génétique et marques de méthylation
  43. 43. Méthylation de l’ADN  Les cytosines, lorsqu’elles sont voisines des guanosines (groupe CpG) peuvent être sous une forme native ou méthylée  Plus une région du génome est méthylée, plus elle est compacte, moins elle est exprimée  Les méthylations sont donc des régulateurs de l’expression du génome  Les méthylations expliquent, entre autres, la différenciation des cellules  Contrairement à la séquence qui est constante intra individu, les méthylations varient entre tissus, entre stades physiologiques…  Le niveau de méthylation a un déterminisme pour partie génétique, pour partie du milieu  Un sujet d’étude considérable
  44. 44. Comment identifier les cytosines méthylées ?  Lors d’un traitement de l’ADN au bisulfite, les cytosines non méthylées sont transformées en thymine les cytosines méthylées restent intactes  Les différences C vs T induites peuvent être mises en évidence par séquençage  Génome complet  Une fraction plus ou moins ciblée du génome => RRBS
  45. 45. Les questions posées Projets Rumigen (H2020) et PolyPheme (ApisGene – ANR?)  Certaines marques de méthylation se transmettent-elles à la descendance ?  Quel est le déterminisme génétique des marques de méthylation ?  Les marques de méthylation dans le sperme influencent-elles la fertilité du taureau ? Et les phénotypes des produits ?  Une similarité de pattern de méthylation entre individus induit-elle une ressemblance entre individus, au-delà de leur apparentement ?  Si oui, cette information peut-elle être utilisée en prédiction, en complément des SNP ? Et si oui, comment envisager un épigénotypage à haut débit peu coûteux ?  Les méthylations induisent-elles un taux de néomutation plus élevé ? Des différences de taux de recombinaison Travaux en collaboration avec l’UMR BREED de Jouy en Josas
  46. 46. 46 Vos Questions ?

×