7 resultados para SEQUENCE EVOLUTION
em Université de Montréal, Canada
Resumo:
Affiliation: Département de Biochimie, Université de Montréal
Resumo:
La phylogénie moléculaire fournit un outil complémentaire aux études paléontologiques et géologiques en permettant la construction des relations phylogénétiques entre espèces ainsi que l’estimation du temps de leur divergence. Cependant lorsqu’un arbre phylogénétique est inféré, les chercheurs se focalisent surtout sur la topologie, c'est-à-dire l’ordre de branchement relatif des différents nœuds. Les longueurs des branches de cette phylogénie sont souvent considérées comme des sous-produits, des paramètres de nuisances apportant peu d’information. Elles constituent cependant l’information primaire pour réaliser des datations moléculaires. Or la saturation, la présence de substitutions multiples à une même position, est un artefact qui conduit à une sous-estimation systématique des longueurs de branche. Nous avons décidé d’estimer l‘influence de la saturation et son impact sur l’estimation de l’âge de divergence. Nous avons choisi d’étudier le génome mitochondrial des mammifères qui est supposé avoir un niveau élevé de saturation et qui est disponible pour de nombreuses espèces. De plus, les relations phylogénétiques des mammifères sont connues, ce qui nous a permis de fixer la topologie, contrôlant ainsi un des paramètres influant la longueur des branches. Nous avons utilisé principalement deux méthodes pour améliorer la détection des substitutions multiples : (i) l’augmentation du nombre d’espèces afin de briser les plus longues branches de l’arbre et (ii) des modèles d’évolution des séquences plus ou moins réalistes. Les résultats montrèrent que la sous-estimation des longueurs de branche était très importante (jusqu'à un facteur de 3) et que l’utilisation d'un grand nombre d’espèces est un facteur qui influence beaucoup plus la détection de substitutions multiples que l’amélioration des modèles d’évolutions de séquences. Cela suggère que même les modèles d’évolution les plus complexes disponibles actuellement, (exemple: modèle CAT+Covarion, qui prend en compte l’hétérogénéité des processus de substitution entre positions et des vitesses d’évolution au cours du temps) sont encore loin de capter toute la complexité des processus biologiques. Malgré l’importance de la sous-estimation des longueurs de branche, l’impact sur les datations est apparu être relativement faible, car la sous-estimation est plus ou moins homothétique. Cela est particulièrement vrai pour les modèles d’évolution. Cependant, comme les substitutions multiples sont le plus efficacement détectées en brisant les branches en fragments les plus courts possibles via l’ajout d’espèces, se pose le problème du biais dans l’échantillonnage taxonomique, biais dû à l‘extinction pendant l’histoire de la vie sur terre. Comme ce biais entraine une sous-estimation non-homothétique, nous considérons qu’il est indispensable d’améliorer les modèles d’évolution des séquences et proposons que le protocole élaboré dans ce travail permettra d’évaluer leur efficacité vis-à-vis de la saturation.
Resumo:
L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif.
Resumo:
Bien que les champignons soient régulièrement utilisés comme modèle d'étude des systèmes eucaryotes, leurs relations phylogénétiques soulèvent encore des questions controversées. Parmi celles-ci, la classification des zygomycètes reste inconsistante. Ils sont potentiellement paraphylétiques, i.e. regroupent de lignées fongiques non directement affiliées. La position phylogénétique du genre Schizosaccharomyces est aussi controversée: appartient-il aux Taphrinomycotina (précédemment connus comme archiascomycetes) comme prédit par l'analyse de gènes nucléaires, ou est-il plutôt relié aux Saccharomycotina (levures bourgeonnantes) tel que le suggère la phylogénie mitochondriale? Une autre question concerne la position phylogénétique des nucléariides, un groupe d'eucaryotes amiboïdes que l'on suppose étroitement relié aux champignons. Des analyses multi-gènes réalisées antérieurement n'ont pu conclure, étant donné le choix d'un nombre réduit de taxons et l'utilisation de six gènes nucléaires seulement. Nous avons abordé ces questions par le biais d'inférences phylogénétiques et tests statistiques appliqués à des assemblages de données phylogénomiques nucléaires et mitochondriales. D'après nos résultats, les zygomycètes sont paraphylétiques (Chapitre 2) bien que le signal phylogénétique issu du jeu de données mitochondriales disponibles est insuffisant pour résoudre l'ordre de cet embranchement avec une confiance statistique significative. Dans le Chapitre 3, nous montrons à l'aide d'un jeu de données nucléaires important (plus de cent protéines) et avec supports statistiques concluants, que le genre Schizosaccharomyces appartient aux Taphrinomycotina. De plus, nous démontrons que le regroupement conflictuel des Schizosaccharomyces avec les Saccharomycotina, venant des données mitochondriales, est le résultat d'un type d'erreur phylogénétique connu: l'attraction des longues branches (ALB), un artéfact menant au regroupement d'espèces dont le taux d'évolution rapide n'est pas représentatif de leur véritable position dans l'arbre phylogénétique. Dans le Chapitre 4, en utilisant encore un important jeu de données nucléaires, nous démontrons avec support statistique significatif que les nucleariides constituent le groupe lié de plus près aux champignons. Nous confirmons aussi la paraphylie des zygomycètes traditionnels tel que suggéré précédemment, avec support statistique significatif, bien que ne pouvant placer tous les membres du groupe avec confiance. Nos résultats remettent en cause des aspects d'une récente reclassification taxonomique des zygomycètes et de leurs voisins, les chytridiomycètes. Contrer ou minimiser les artéfacts phylogénétiques telle l'attraction des longues branches (ALB) constitue une question récurrente majeure. Dans ce sens, nous avons développé une nouvelle méthode (Chapitre 5) qui identifie et élimine dans une séquence les sites présentant une grande variation du taux d'évolution (sites fortement hétérotaches - sites HH); ces sites sont connus comme contribuant significativement au phénomène d'ALB. Notre méthode est basée sur un test de rapport de vraisemblance (likelihood ratio test, LRT). Deux jeux de données publiés précédemment sont utilisés pour démontrer que le retrait graduel des sites HH chez les espèces à évolution accélérée (sensibles à l'ALB) augmente significativement le support pour la topologie « vraie » attendue, et ce, de façon plus efficace comparée à d'autres méthodes publiées de retrait de sites de séquences. Néanmoins, et de façon générale, la manipulation de données préalable à l'analyse est loin d’être idéale. Les développements futurs devront viser l'intégration de l'identification et la pondération des sites HH au processus d'inférence phylogénétique lui-même.
Resumo:
L’évolution des protéines est un domaine important de la recherche en bioinformatique et catalyse l'intérêt de trouver des outils d'alignement qui peuvent être utilisés de manière fiable et modéliser avec précision l'évolution d'une famille de protéines. TM-Align (Zhang and Skolnick, 2005) est considéré comme l'outil idéal pour une telle tâche, en termes de rapidité et de précision. Par conséquent, dans cette étude, TM-Align a été utilisé comme point de référence pour faciliter la détection des autres outils d'alignement qui sont en mesure de préciser l'évolution des protéines. En parallèle, nous avons élargi l'actuel outil d'exploration de structures secondaires de protéines, Helix Explorer (Marrakchi, 2006), afin qu'il puisse également être utilisé comme un outil pour la modélisation de l'évolution des protéines.
Resumo:
Contexte: Les champignons mycorhiziens à arbuscules (AMF) établissent des relations symbiotiques avec la plupart des plantes grâce à leurs réseaux d’hyphes qui s’associent avec les racines de leurs hôtes. De précédentes études ont révélé des niveaux de variation génétique extrêmes pour des loci spécifiques permettant de supposer que les AMF peuvent contenir des milliers de noyaux génétiquement divergents dans un même cytoplasme. Si aucun processus de reproduction sexuée n’a jusqu’ici été observé chez ces mycorhizes, on constate cependant que des niveaux élevés de variation génétique peuvent être maintenus à la fois par l’échange de noyaux entre hyphes et par des processus fréquents de recombinaison entre noyaux. Les AMF se propagent par l’intermédiaire de spores qui contiennent chacune un échantillon d’une population initiale de noyaux hétérogènes, directement hérités du mycélium parent. À notre connaissance les AMF sont les seuls organismes qui ne passent jamais par un stade mononucléaire, ce qui permet aux noyaux de diverger génétiquement dans un même cytoplasme. Ces aspects singuliers de la biologie des AMF rendent l’estimation de leur diversité génétique problématique. Ceci constitue un défi majeur pour les écologistes sur le terrain mais également pour les biologistes moléculaires dans leur laboratoire. Au-delà même des problématiques de diversité spécifique, l’amplitude du polymorphisme entre noyaux mycorhiziens est mal connue. Le travail proposé dans ce manuscrit de thèse explore donc les différents aspects de l’architecture génomique singulière des AMF. Résultats L’ampleur du polymorphisme intra-isolat a été déjà observée pour la grande sous-unité d’ARN ribosomal de l’isolat Glomus irregulare DAOM-197198 (précédemment identifié comme G. intraradices) et pour le gène de la polymerase1-like (PLS) de Glomus etunicatum isolat NPI. Dans un premier temps, nous avons pu confirmer ces résultats et nous avons également pu constater que ces variations étaient transcrites. Nous avons ensuite pu mettre en évidence la présence d’un goulot d’étranglement génétique au moment de la sporulation pour le locus PLS chez l’espèce G. etunicatum illustrant les importants effets d’échantillonnage qui se produisaient entre chaque génération de spore. Enfin, nous avons estimé la différentiation génétique des AMF en utilisant à la fois les réseaux de gènes appliqués aux données de séquençage haut-débit ainsi que cinq nouveaux marqueurs génomiques en copie unique. Ces analyses révèlent que la différenciation génomique est présente de manière systématique dans deux espèces (G. irregulare et G. diaphanum). Conclusions Les résultats de cette thèse fournissent des preuves supplémentaires en faveur du scénario d’une différenciation génomique entre noyaux au sein du même isolat mycorhizien. Ainsi, au moins trois membres du genre Glomus, G. irregulare, G. diaphanum and G. etunicatum, apparaissent comme des organismes dont l’organisation des génomes ne peut pas être décrit d’après un modèle Mendélien strict, ce qui corrobore l’hypothèse que les noyaux mycorhiziens génétiquement différenciés forment un pangenome.
Resumo:
Les champignons mycorhiziens arbusculaires (CMA) sont très répandus dans le sol où ils forment des associations symbiotiques avec la majorité des plantes appelées mycorhizes arbusculaires. Le développement des CMA dépend fortement de la plante hôte, de telle sorte qu'ils ne peuvent vivre à l'état saprotrophique, par conséquent ils sont considérés comme des biotrophes obligatoires. Les CMA forment une lignée évolutive basale des champignons et ils appartiennent au phylum Glomeromycota. Leurs mycélia sont formés d’un réseau d’hyphes cénocytiques dans lesquelles les noyaux et les organites cellulaires peuvent se déplacer librement d’un compartiment à l’autre. Les CMA permettent à la plante hôte de bénéficier d'une meilleure nutrition minérale, grâce au réseau d'hyphes extraradiculaires, qui s'étend au-delà de la zone du sol explorée par les racines. Ces hyphes possèdent une grande capacité d'absorption d’éléments nutritifs qui vont être transportés par ceux-ci jusqu’aux racines. De ce fait, les CMA améliorent la croissance des plantes tout en les protégeant des stresses biotiques et abiotiques. Malgré l’importance des CMA, leurs génétique et évolution demeurent peu connues. Leurs études sont ardues à cause de leur mode de vie qui empêche leur culture en absence des plantes hôtes. En plus leur diversité génétique intra-isolat des génomes nucléaires, complique d’avantage ces études, en particulier le développement des marqueurs moléculaires pour des études biologiques, écologiques ainsi que les fonctions des CMA. C’est pour ces raisons que les génomes mitochondriaux offrent des opportunités et alternatives intéressantes pour étudier les CMA. En effet, les génomes mitochondriaux (mt) publiés à date, ne montrent pas de polymorphismes génétique intra-isolats. Cependant, des exceptions peuvent exister. Pour aller de l’avant avec la génomique mitochondriale, nous avons besoin de générer beaucoup de données de séquençages de l’ADN mitochondrial (ADNmt) afin d’étudier les méchanismes évolutifs, la génétique des population, l’écologie des communautés et la fonction des CMA. Dans ce contexte, l’objectif de mon projet de doctorat consiste à: 1) étudier l’évolution des génomes mt en utilisant l’approche de la génomique comparative au niveau des espèces proches, des isolats ainsi que des espèces phylogénétiquement éloignées chez les CMA; 2) étudier l’hérédité génétique des génomes mt au sein des isolats de l’espèce modèle Rhizophagus irregularis par le biais des anastomoses ; 3) étudier l’organisation des ADNmt et les gènes mt pour le développement des marqueurs moléculaires pour des études phylogénétiques. Nous avons utilisé l’approche dite ‘whole genome shotgun’ en pyroséquençage 454 et Illumina HiSeq pour séquencer plusieurs taxons de CMA sélectionnés selon leur importance et leur disponibilité. Les assemblages de novo, le séquençage conventionnel Sanger, l’annotation et la génomique comparative ont été réalisés pour caractériser des ADNmt complets. Nous avons découvert plusieurs mécanismes évolutifs intéressant chez l’espèce Gigaspora rosea dans laquelle le génome mt est complètement remanié en comparaison avec Rhizophagus irregularis isolat DAOM 197198. En plus nous avons mis en évidence que deux gènes cox1 et rns sont fragmentés en deux morceaux. Nous avons démontré que les ARN transcrits les deux fragments de cox1 se relient entre eux par épissage en trans ‘Trans-splicing’ à l’aide de l’ARN du gene nad5 I3 qui met ensemble les deux ARN cox1.1 et cox1.2 en formant un ARN complet et fonctionnel. Nous avons aussi trouvé une organisation de l’ADNmt très particulière chez l’espèce Rhizophagus sp. Isolat DAOM 213198 dont le génome mt est constitué par deux chromosomes circulaires. En plus nous avons trouvé une quantité considérable des séquences apparentées aux plasmides ‘plasmid-related sequences’ chez les Glomeraceae par rapport aux Gigasporaceae, contribuant ainsi à une évolution rapide des ADNmt chez les Glomeromycota. Nous avons aussi séquencé plusieurs isolats de l’espèces R. irregularis et Rhizophagus sp. pour décortiquer leur position phylogénéque et inférer des relations évolutives entre celles-ci. La comparaison génomique mt nous montré l’existence de plusieurs éléments mobiles comme : des cadres de lecture ‘open reading frames (mORFs)’, des séquences courtes inversées ‘short inverted repeats (SIRs)’, et des séquences apparentées aux plasimdes ‘plasmid-related sequences (dpo)’ qui impactent l’ordre des gènes mt et permettent le remaniement chromosomiques des ADNmt. Tous ces divers mécanismes évolutifs observés au niveau des isolats, nous permettent de développer des marqueurs moléculaires spécifiques à chaque isolat ou espèce de CMA. Les données générées dans mon projet de doctorat ont permis d’avancer les connaissances fondamentales des génomes mitochondriaux non seulement chez les Glomeromycètes, mais aussi de chez le règne des Fungi et les eucaryotes en général. Les trousses moléculaires développées dans ce projet peuvent servir à des études de la génétique des populations, des échanges génétiques et l’écologie des CMA ce qui va contribuer à la compréhension du rôle primorial des CMA en agriculture et environnement.