13 resultados para phylogenetic tree
em Université de Montréal, Canada
Resumo:
Affiliation: Département de biochimie, Faculté de médecine, Université de Montréal
Resumo:
La phylogénie moléculaire fournit un outil complémentaire aux études paléontologiques et géologiques en permettant la construction des relations phylogénétiques entre espèces ainsi que l’estimation du temps de leur divergence. Cependant lorsqu’un arbre phylogénétique est inféré, les chercheurs se focalisent surtout sur la topologie, c'est-à-dire l’ordre de branchement relatif des différents nœuds. Les longueurs des branches de cette phylogénie sont souvent considérées comme des sous-produits, des paramètres de nuisances apportant peu d’information. Elles constituent cependant l’information primaire pour réaliser des datations moléculaires. Or la saturation, la présence de substitutions multiples à une même position, est un artefact qui conduit à une sous-estimation systématique des longueurs de branche. Nous avons décidé d’estimer l‘influence de la saturation et son impact sur l’estimation de l’âge de divergence. Nous avons choisi d’étudier le génome mitochondrial des mammifères qui est supposé avoir un niveau élevé de saturation et qui est disponible pour de nombreuses espèces. De plus, les relations phylogénétiques des mammifères sont connues, ce qui nous a permis de fixer la topologie, contrôlant ainsi un des paramètres influant la longueur des branches. Nous avons utilisé principalement deux méthodes pour améliorer la détection des substitutions multiples : (i) l’augmentation du nombre d’espèces afin de briser les plus longues branches de l’arbre et (ii) des modèles d’évolution des séquences plus ou moins réalistes. Les résultats montrèrent que la sous-estimation des longueurs de branche était très importante (jusqu'à un facteur de 3) et que l’utilisation d'un grand nombre d’espèces est un facteur qui influence beaucoup plus la détection de substitutions multiples que l’amélioration des modèles d’évolutions de séquences. Cela suggère que même les modèles d’évolution les plus complexes disponibles actuellement, (exemple: modèle CAT+Covarion, qui prend en compte l’hétérogénéité des processus de substitution entre positions et des vitesses d’évolution au cours du temps) sont encore loin de capter toute la complexité des processus biologiques. Malgré l’importance de la sous-estimation des longueurs de branche, l’impact sur les datations est apparu être relativement faible, car la sous-estimation est plus ou moins homothétique. Cela est particulièrement vrai pour les modèles d’évolution. Cependant, comme les substitutions multiples sont le plus efficacement détectées en brisant les branches en fragments les plus courts possibles via l’ajout d’espèces, se pose le problème du biais dans l’échantillonnage taxonomique, biais dû à l‘extinction pendant l’histoire de la vie sur terre. Comme ce biais entraine une sous-estimation non-homothétique, nous considérons qu’il est indispensable d’améliorer les modèles d’évolution des séquences et proposons que le protocole élaboré dans ce travail permettra d’évaluer leur efficacité vis-à-vis de la saturation.
Resumo:
Les gènes sont les parties du génome qui codent pour les protéines. Les gènes d’une ou plusieurs espèces peuvent être regroupés en "familles", en fonction de leur similarité de séquence. Cependant, pour connaître les relations fonctionnelles entre ces copies de gènes, la similarité de séquence ne suffit pas. Pour cela, il est important d’étudier l’évolution d’une famille par duplications et pertes afin de pouvoir distinguer entre gènes orthologues, des copies ayant évolué par spéciation et susceptibles d’avoir conservé une fonction commune, et gènes paralogues, des copies ayant évolué par duplication qui ont probablement développé des nouvelles fonctions. Étant donnée une famille de gènes présents dans n espèces différentes, un arbre de gènes (obtenu par une méthode phylogénétique classique), et un arbre phylogénétique pour les n espèces, la "réconciliation" est l’approche la plus courante permettant d’inférer une histoire d’évolution de cette famille par duplications, spéciations et pertes. Le degré de confiance accordé à l’histoire inférée est directement relié au degré de confiance accordé à l’arbre de gènes lui-même. Il est donc important de disposer d’une méthode préliminaire de correction d’arbres de gènes. Ce travail introduit une méthodologie permettant de "corriger" un arbre de gènes : supprimer le minimum de feuilles "mal placées" afin d’obtenir un arbre dont les sommets de duplications (inférés par la réconciliation) sont tous des sommets de "duplications apparentes" et obtenir ainsi un arbre de gènes en "accord" avec la phylogénie des espèces. J’introduis un algorithme exact pour des arbres d’une certaine classe, et une heuristique pour le cas général.
Resumo:
Affiliation: Département de Biochimie, Faculté de médecine, Université de Montréal
Resumo:
Affiliation: Département de Biochimie, Université de Montréal
Resumo:
Affiliation: Département de Biochimie, Université de Montréal
Resumo:
Il a été démontré que l’hétérotachie, variation du taux de substitutions au cours du temps et entre les sites, est un phénomène fréquent au sein de données réelles. Échouer à modéliser l’hétérotachie peut potentiellement causer des artéfacts phylogénétiques. Actuellement, plusieurs modèles traitent l’hétérotachie : le modèle à mélange des longueurs de branche (MLB) ainsi que diverses formes du modèle covarion. Dans ce projet, notre but est de trouver un modèle qui prenne efficacement en compte les signaux hétérotaches présents dans les données, et ainsi améliorer l’inférence phylogénétique. Pour parvenir à nos fins, deux études ont été réalisées. Dans la première, nous comparons le modèle MLB avec le modèle covarion et le modèle homogène grâce aux test AIC et BIC, ainsi que par validation croisée. A partir de nos résultats, nous pouvons conclure que le modèle MLB n’est pas nécessaire pour les sites dont les longueurs de branche diffèrent sur l’ensemble de l’arbre, car, dans les données réelles, le signaux hétérotaches qui interfèrent avec l’inférence phylogénétique sont généralement concentrés dans une zone limitée de l’arbre. Dans la seconde étude, nous relaxons l’hypothèse que le modèle covarion est homogène entre les sites, et développons un modèle à mélanges basé sur un processus de Dirichlet. Afin d’évaluer différents modèles hétérogènes, nous définissons plusieurs tests de non-conformité par échantillonnage postérieur prédictif pour étudier divers aspects de l’évolution moléculaire à partir de cartographies stochastiques. Ces tests montrent que le modèle à mélanges covarion utilisé avec une loi gamma est capable de refléter adéquatement les variations de substitutions tant à l’intérieur d’un site qu’entre les sites. Notre recherche permet de décrire de façon détaillée l’hétérotachie dans des données réelles et donne des pistes à suivre pour de futurs modèles hétérotaches. Les tests de non conformité par échantillonnage postérieur prédictif fournissent des outils de diagnostic pour évaluer les modèles en détails. De plus, nos deux études révèlent la non spécificité des modèles hétérogènes et, en conséquence, la présence d’interactions entre différents modèles hétérogènes. Nos études suggèrent fortement que les données contiennent différents caractères hétérogènes qui devraient être pris en compte simultanément dans les analyses phylogénétiques.
Resumo:
Une réconciliation entre un arbre de gènes et un arbre d’espèces décrit une histoire d’évolution des gènes homologues en termes de duplications et pertes de gènes. Pour inférer une réconciliation pour un arbre de gènes et un arbre d’espèces, la parcimonie est généralement utilisée selon le nombre de duplications et/ou de pertes. Les modèles de réconciliation sont basés sur des critères probabilistes ou combinatoires. Le premier article définit un modèle combinatoire simple et général où les duplications et les pertes sont clairement identifiées et la réconciliation parcimonieuse n’est pas la seule considérée. Une architecture de toutes les réconciliations est définie et des algorithmes efficaces (soit de dénombrement, de génération aléatoire et d’exploration) sont développés pour étudier les propriétés combinatoires de l’espace de toutes les réconciliations ou seulement les plus parcimonieuses. Basée sur le processus classique nommé naissance-et-mort, un algorithme qui calcule la vraisemblance d’une réconciliation a récemment été proposé. Le deuxième article utilise cet algorithme avec les outils combinatoires décrits ci-haut pour calculer efficacement (soit approximativement ou exactement) les probabilités postérieures des réconciliations localisées dans le sous-espace considéré. Basé sur des taux réalistes (selon un modèle probabiliste) de duplication et de perte et sur des données réelles/simulées de familles de champignons, nos résultats suggèrent que la masse probabiliste de toute l’espace des réconciliations est principalement localisée autour des réconciliations parcimonieuses. Dans un contexte d’approximation de la probabilité d’une réconciliation, notre approche est une alternative intéressante face aux méthodes MCMC et peut être meilleure qu’une approche sophistiquée, efficace et exacte pour calculer la probabilité d’une réconciliation donnée. Le problème nommé Gene Tree Parsimony (GTP) est d’inférer un arbre d’espèces qui minimise le nombre de duplications et/ou de pertes pour un ensemble d’arbres de gènes. Basé sur une approche qui explore tout l’espace des arbres d’espèces pour les génomes considérés et un calcul efficace des coûts de réconciliation, le troisième article décrit un algorithme de Branch-and-Bound pour résoudre de façon exacte le problème GTP. Lorsque le nombre de taxa est trop grand, notre algorithme peut facilement considérer des relations prédéfinies entre ensembles de taxa. Nous avons testé notre algorithme sur des familles de gènes de 29 eucaryotes.
Resumo:
Bien que les champignons soient régulièrement utilisés comme modèle d'étude des systèmes eucaryotes, leurs relations phylogénétiques soulèvent encore des questions controversées. Parmi celles-ci, la classification des zygomycètes reste inconsistante. Ils sont potentiellement paraphylétiques, i.e. regroupent de lignées fongiques non directement affiliées. La position phylogénétique du genre Schizosaccharomyces est aussi controversée: appartient-il aux Taphrinomycotina (précédemment connus comme archiascomycetes) comme prédit par l'analyse de gènes nucléaires, ou est-il plutôt relié aux Saccharomycotina (levures bourgeonnantes) tel que le suggère la phylogénie mitochondriale? Une autre question concerne la position phylogénétique des nucléariides, un groupe d'eucaryotes amiboïdes que l'on suppose étroitement relié aux champignons. Des analyses multi-gènes réalisées antérieurement n'ont pu conclure, étant donné le choix d'un nombre réduit de taxons et l'utilisation de six gènes nucléaires seulement. Nous avons abordé ces questions par le biais d'inférences phylogénétiques et tests statistiques appliqués à des assemblages de données phylogénomiques nucléaires et mitochondriales. D'après nos résultats, les zygomycètes sont paraphylétiques (Chapitre 2) bien que le signal phylogénétique issu du jeu de données mitochondriales disponibles est insuffisant pour résoudre l'ordre de cet embranchement avec une confiance statistique significative. Dans le Chapitre 3, nous montrons à l'aide d'un jeu de données nucléaires important (plus de cent protéines) et avec supports statistiques concluants, que le genre Schizosaccharomyces appartient aux Taphrinomycotina. De plus, nous démontrons que le regroupement conflictuel des Schizosaccharomyces avec les Saccharomycotina, venant des données mitochondriales, est le résultat d'un type d'erreur phylogénétique connu: l'attraction des longues branches (ALB), un artéfact menant au regroupement d'espèces dont le taux d'évolution rapide n'est pas représentatif de leur véritable position dans l'arbre phylogénétique. Dans le Chapitre 4, en utilisant encore un important jeu de données nucléaires, nous démontrons avec support statistique significatif que les nucleariides constituent le groupe lié de plus près aux champignons. Nous confirmons aussi la paraphylie des zygomycètes traditionnels tel que suggéré précédemment, avec support statistique significatif, bien que ne pouvant placer tous les membres du groupe avec confiance. Nos résultats remettent en cause des aspects d'une récente reclassification taxonomique des zygomycètes et de leurs voisins, les chytridiomycètes. Contrer ou minimiser les artéfacts phylogénétiques telle l'attraction des longues branches (ALB) constitue une question récurrente majeure. Dans ce sens, nous avons développé une nouvelle méthode (Chapitre 5) qui identifie et élimine dans une séquence les sites présentant une grande variation du taux d'évolution (sites fortement hétérotaches - sites HH); ces sites sont connus comme contribuant significativement au phénomène d'ALB. Notre méthode est basée sur un test de rapport de vraisemblance (likelihood ratio test, LRT). Deux jeux de données publiés précédemment sont utilisés pour démontrer que le retrait graduel des sites HH chez les espèces à évolution accélérée (sensibles à l'ALB) augmente significativement le support pour la topologie « vraie » attendue, et ce, de façon plus efficace comparée à d'autres méthodes publiées de retrait de sites de séquences. Néanmoins, et de façon générale, la manipulation de données préalable à l'analyse est loin d’être idéale. Les développements futurs devront viser l'intégration de l'identification et la pondération des sites HH au processus d'inférence phylogénétique lui-même.
Resumo:
Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple. Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées.
Resumo:
La culture de saules (Salix sp.) est une pratique courante en Europe et en Amérique du Nord pour produire de la biomasse végétale. Cependant, le développement d’outils moléculaires est très récent. De plus, la phylogénie des saules est incomplète. Il y a un manque d’information pour les programmes de sélection d'espèces indigènes et pour la compréhension de l’évolution du genre. Le genre Salix inclut 500 espèces réparties principalement dans les régions tempérées et boréo-arctique de l’hémisphère nord. Nous avons obtenu l’ensemble des espèces retrouvées naturellement en Amérique (121 indigènes et introduites). Dans un premier temps, nous avons développé de nouveaux outils moléculaires et méthodes : extraction d’ADN, marqueurs microsatellites et gènes nucléaires. Puis, nous avons séquencé deux gènes chloroplastiques (matK et rbcL) et la région ITS. Les analyses phylogénétiques ont été réalisées selon trois approches : parcimonie, maximum de vraisemblance et Bayésienne. L’arbre d’espèces obtenu a un fort support et divise le genre Salix en deux sous-genres, Salix et Vetrix. Seize espèces ont une position ambiguë. La diversité génétique du sous-genre Vetrix est plus faible. Une phylogénie moléculaire complète a été établie pour les espèces américaines. D’autres analyses et marqueurs sont nécessaires pour déterminer les relations phylogénétiques entre certaines espèces. Nous affirmons que le genre Salix est divisé en deux clades.
Resumo:
Parmi les lignées des Caesalpinioideae (dans la famille des Leguminosae), l’un des groupes importants au sein duquel les relations phylogénétiques demeurent nébuleuses est le « groupe Caesalpinia », un clade de plus de 205 espèces, réparties présentement entre 14 à 21 genres. La complexité taxonomique du groupe Caesalpinia provient du fait qu’on n’arrive pas à résoudre les questions de délimitations génériques de Caesalpinia sensu lato (s.l.), un regroupement de 150 espèces qui sont provisoirement classées en huit genres. Afin d’arriver à une classification générique stable, des analyses phylogénétiques de cinq loci chloroplastiques et de la région nucléaire ITS ont été effectuées sur une matrice comportant un échantillonnage taxonomique du groupe sans précédent (~84% des espèces du groupe) et couvrant la quasi-totalité de la variation morphologique et géographique du groupe Caesalpinia. Ces analyses ont permis de déterminer que plusieurs genres du groupe Caesalpinia, tels que présentement définis, sont polyphylétiques ou paraphylétiques. Nous considérons que 26 clades bien résolus représentent des genres, et une nouvelle classification générique du groupe Caesalpinia est proposée : elle inclut une clé des genres, une description des 26 genres et des espèces acceptées au sein de ces groupes. Cette nouvelle classification maintient l’inclusion de douze genres (Balsamocarpon, Cordeauxia, Guilandina, Haematoxylum, Hoffmanseggia, Lophocarpinia, Mezoneuron, Pomaria, Pterolobium, Stenodrepanum, Stuhlmannia, Zuccagnia) et en abolit deux (Stahlia et Poincianella). Elle propose aussi de réinstaurer deux genres (Biancaea et Denisophytum), de reconnaître cinq nouveaux genres (Arquita, Gelrebia, Hererolandia, Hultholia et Paubrasilia), et d’amender la description de sept genres (Caesalpinia, Cenostigma, Coulteria, Erythrostemon, Libidibia, Moullava, Tara). Les résultats indiquent qu’il y aurait possiblement aussi une 27e lignée qui correspondrait au genre Ticanto, mais un échantillonage taxonomique plus important serait nécéssaire pour éclaircir ce problème. Les espèces du groupe Caesalpinia ont une répartition pantropicale qui correspond presque parfaitement aux aires du biome succulent, mais se retrouvent aussi dans les déserts, les prairies, les savanes et les forêts tropicales humides. À l’échelle planétaire, le biome succulent consiste en une série d’habitats arides ou semi-arides hautement fragmentés et caractérisés par l’absence de feu, et abrite souvent des espèces végétales grasses, comme les Cactacées dans les néo-tropiques et les Euphorbiacées en Afrique. L’histoire biogéographique du groupe Caesalpinia a été reconstruite afin de mieux comprendre l’évolution de la flore au sein de ce biome succulent. Ce portrait biogéographique a été obtenu grâce à des analyses de datations moléculaires et des changements de taux de diversification, à une reconstruction des aires ancestrales utilisant le modèle de dispersion-extinction-cladogenèse, et à la reconstruction de l’évolution des biomes et du port des plantes sur la phylogénie du groupe Caesalpinia. Ces analyses démontrent que les disjonctions trans-continentales entre espèces sœurs qui appartiennent au même biome sont plus fréquentes que le nombre total de changements de biomes à travers la phylogénie, suggérant qu’il y a une forte conservation de niches, et qu’il est plus facile de bouger que de changer et d’évoluer au sein d’un biome différent. Par ailleurs, contrairement à nos hypothèses initiales, aucun changement de taux de diversification n’est détecté dans la phylogénie, même lorsque les espèces évoluent dans des biomes différents ou qu’il y a changement de port de la plante, et qu’elle se transforme, par exemple, en liane ou herbacée. Nous suggérons que même lorsqu’ils habitent des biomes très différents, tels que les savanes ou les forêts tropicales humides, les membres du groupe Caesalpinia se retrouvent néanmoins dans des conditions écologiques locales qui rappellent celles du biome succulent. Finalement, bien que la diversité des espèces du biome succulent ne se compare pas à celle retrouvée dans les forêts tropicales humides, ce milieu se distingue par un haut taux d’espèces endémiques, réparties dans des aires disjointes. Cette diversité spécifique est probablement sous-estimée et mérite d’être évaluée attentivement, comme en témoigne la découverte de plusieurs nouvelles espèces d’arbres et arbustes de légumineuses dans la dernière décennie. Le dernier objectif de cette thèse consiste à examiner les limites au niveau spécifique du complexe C. trichocarpa, un arbuste des Andes ayant une population disjointe au Pérou qui représente potentiellement une nouvelle espèce. Des analyses morphologiques et moléculaires sur les populations présentes à travers les Andes permettent de conclure que les populations au Pérou représentent une nouvelle espèce, qui est génétiquement distincte et comporte des caractéristiques morphologiques subtiles permettant de la distinguer des populations retrouvées en Argentine et en Bolivie. Nous décrivons cette nouvelle espèce, Arquita grandiflora, dans le cadre d’une révision taxonomique du genre Arquita, un clade de cinq espèces retrouvées exclusivement dans les vallées andines.
Resumo:
L'écologie urbaine est un nouveau champ de recherche qui cherche à comprendre les structures et les patrons des communautés et des écosystèmes situés dans des paysages urbains. Les petits plans d’eau sont connus comme des écosystèmes aquatiques qui peuvent contenir une biodiversité considérable pour plusieurs groupes taxonomiques (oiseaux, amphibiens, macroinvertébrés), ce qui en fait des écosystèmes intéressants pour les études de conservation. Cependant, la biodiversité du zooplancton, un élément central des réseaux trophiques aquatiques, n’est pas entièrement connue pour les plans d’eaux urbains et devrait être mieux décrite et comprise. Cette étude a évalué les patrons de biodiversité des communautés zooplanctoniques dans des plans d’eau urbains sur l’Ile de Montréal et leurs sources de variation. Des suggestions pour l’évaluation et la conservation de la biodiversité sont aussi discutées. La biodiversité zooplanctonique des plans d’eaux urbains s’est avérée être assez élevée, avec les cladocères et les rotifères montrant les contributions à la diversité gamma et bêta les plus élevées. Sur l’ensemble des plans d’eau, il y avait une corrélation négative entre les contributions à la bêta diversité des cladocères et des rotifères. Au niveau de chaque plan d'eau, la zone littorale colonisée par des macrophytes s'est avérée être un habitat important pour la biodiversité zooplactonique, contribuant considérablement à la richesse en taxons, souvent avec une différente composition en espèces. Les communautés zooplanctoniques répondaient aux facteurs ascendants et descendants, mais aussi aux pratiques d’entretien, car le fait de vider les plans d’eau en hiver affecte la composition des communautés zooplanctoniques. Les communautés de cladocères dans ces plans d’eau possédaient des quantités variables de diversité phylogénétique, ce qui permet de les classer afin de prioriser les sites à préserver par rapport à la diversité phylogénétique. Le choix des sites à préserver afin de maximiser la diversité phylogénétique devrait être correctement établi, afin d’eviter de faire des choix sous-optimaux. Cependant, pour des taxons tels que les cladocères, pour lesquels les relations phylogénétiques demeurent difficiles à établir, placer une confiance absolue dans un seul arbre est une procédure dangereuse. L’incorporation de l’incertitude phylogénétique a démontré que, lorsqu’elle est prise en compte, plusieurs différences potentielles entre la diversité phylogenétique ne sont plus supportées. Les patrons de composition des communautés différaient entre les plans d’eau, les mois et les zones d’échantillonnage. Etant donné les intéractions sont significatives entres ces facters; ceci indique que tous ces facteurs devraient êtres considérés. L’urbanisation ne semblait pas sélectionner pour un type unique de composition des groupes alimentaires, étant donné que les communautés pouvaient changer entres des assemblages de types alimentaires différents. Les variables environnementales, surtout la couverture du plan d’eau en macrophytes, étaient des facteurs importants pour la biodiversité zooplanctonique, affectant la richesse spécifique de divers groupes taxonomiques et alimentaires. Ces variables affectaient aussi la composition des communautés, mais dans une moindre mesure, étant des variables explicatives modestes, ce qui indiquerait le besoin de considérer d’autres processus.