931 resultados para Molecular evolution
Resumo:
Il a été démontré que l’hétérotachie, variation du taux de substitutions au cours du temps et entre les sites, est un phénomène fréquent au sein de données réelles. Échouer à modéliser l’hétérotachie peut potentiellement causer des artéfacts phylogénétiques. Actuellement, plusieurs modèles traitent l’hétérotachie : le modèle à mélange des longueurs de branche (MLB) ainsi que diverses formes du modèle covarion. Dans ce projet, notre but est de trouver un modèle qui prenne efficacement en compte les signaux hétérotaches présents dans les données, et ainsi améliorer l’inférence phylogénétique. Pour parvenir à nos fins, deux études ont été réalisées. Dans la première, nous comparons le modèle MLB avec le modèle covarion et le modèle homogène grâce aux test AIC et BIC, ainsi que par validation croisée. A partir de nos résultats, nous pouvons conclure que le modèle MLB n’est pas nécessaire pour les sites dont les longueurs de branche diffèrent sur l’ensemble de l’arbre, car, dans les données réelles, le signaux hétérotaches qui interfèrent avec l’inférence phylogénétique sont généralement concentrés dans une zone limitée de l’arbre. Dans la seconde étude, nous relaxons l’hypothèse que le modèle covarion est homogène entre les sites, et développons un modèle à mélanges basé sur un processus de Dirichlet. Afin d’évaluer différents modèles hétérogènes, nous définissons plusieurs tests de non-conformité par échantillonnage postérieur prédictif pour étudier divers aspects de l’évolution moléculaire à partir de cartographies stochastiques. Ces tests montrent que le modèle à mélanges covarion utilisé avec une loi gamma est capable de refléter adéquatement les variations de substitutions tant à l’intérieur d’un site qu’entre les sites. Notre recherche permet de décrire de façon détaillée l’hétérotachie dans des données réelles et donne des pistes à suivre pour de futurs modèles hétérotaches. Les tests de non conformité par échantillonnage postérieur prédictif fournissent des outils de diagnostic pour évaluer les modèles en détails. De plus, nos deux études révèlent la non spécificité des modèles hétérogènes et, en conséquence, la présence d’interactions entre différents modèles hétérogènes. Nos études suggèrent fortement que les données contiennent différents caractères hétérogènes qui devraient être pris en compte simultanément dans les analyses phylogénétiques.
Resumo:
Les séquences protéiques naturelles sont le résultat net de l’interaction entre les mécanismes de mutation, de sélection naturelle et de dérive stochastique au cours des temps évolutifs. Les modèles probabilistes d’évolution moléculaire qui tiennent compte de ces différents facteurs ont été substantiellement améliorés au cours des dernières années. En particulier, ont été proposés des modèles incorporant explicitement la structure des protéines et les interdépendances entre sites, ainsi que les outils statistiques pour évaluer la performance de ces modèles. Toutefois, en dépit des avancées significatives dans cette direction, seules des représentations très simplifiées de la structure protéique ont été utilisées jusqu’à présent. Dans ce contexte, le sujet général de cette thèse est la modélisation de la structure tridimensionnelle des protéines, en tenant compte des limitations pratiques imposées par l’utilisation de méthodes phylogénétiques très gourmandes en temps de calcul. Dans un premier temps, une méthode statistique générale est présentée, visant à optimiser les paramètres d’un potentiel statistique (qui est une pseudo-énergie mesurant la compatibilité séquence-structure). La forme fonctionnelle du potentiel est par la suite raffinée, en augmentant le niveau de détails dans la description structurale sans alourdir les coûts computationnels. Plusieurs éléments structuraux sont explorés : interactions entre pairs de résidus, accessibilité au solvant, conformation de la chaîne principale et flexibilité. Les potentiels sont ensuite inclus dans un modèle d’évolution et leur performance est évaluée en termes d’ajustement statistique à des données réelles, et contrastée avec des modèles d’évolution standards. Finalement, le nouveau modèle structurellement contraint ainsi obtenu est utilisé pour mieux comprendre les relations entre niveau d’expression des gènes et sélection et conservation de leur séquence protéique.
Resumo:
Les transferts horizontaux de gènes (THG) ont été démontrés pour jouer un rôle important dans l'évolution des procaryotes. Leur impact a été le sujet de débats intenses, ceux-ci allant même jusqu'à l'abandon de l'arbre des espèces. Selon certaines études, un signal historique dominant est présent chez les procaryotes, puisque les transmissions horizontales stables et fonctionnelles semblent beaucoup plus rares que les transmissions verticales (des dizaines contre des milliards). Cependant, l'effet cumulatif des THG est non-négligeable et peut potentiellement affecter l'inférence phylogénétique. Conséquemment, la plupart des chercheurs basent leurs inférences phylogénétiques sur un faible nombre de gènes rarement transférés, comme les protéines ribosomales. Ceux-ci n'accordent cependant pas autant d'importance au modèle d'évolution utilisé, même s'il a été démontré que celui-ci est important lorsqu'il est question de résoudre certaines divergences entre ancêtres d'espèces, comme pour les animaux par exemple. Dans ce mémoire, nous avons utilisé des simulations et analyser des jeux de données d'Archées afin d'étudier l'impact relatif des THG ainsi que l'impact des modèles d'évolution sur la précision phylogénétique. Nos simulations prouvent que (1) les THG ont un impact limité sur les phylogénies, considérant un taux de transferts réaliste et que (2) l'approche super-matrice est plus précise que l'approche super-arbre. Nous avons également observé que les modèles complexes expliquent non seulement mieux les données que les modèles standards, mais peuvent avoir un impact direct sur différents groupes phylogénétiques et sur la robustesse de l'arbre obtenu. Nos résultats contredisent une publication récente proposant que les Thaumarchaeota apparaissent à la base de l'arbre des Archées.
Resumo:
Depuis quelques années, l'évolution moléculaire cherche à caractériser les variations et l'intensité de la sélection grâce au rapport entre taux de substitution synonyme et taux de substitution non-synonyme (dN/dS). Cette mesure, dN/dS, a permis d'étudier l'histoire de la variation de l'intensité de la sélection au cours du temps ou de détecter des épisodes de la sélection positive. Les liens entre sélection et variation de taille efficace interfèrent cependant dans ces mesures. Les méthodes comparatives, quant a elle, permettent de mesurer les corrélations entre caractères quantitatifs le long d'une phylogénie. Elles sont également utilisées pour tester des hypothèses sur l'évolution corrélée des traits d'histoire de vie, mais pour être employées pour étudier les corrélations entre traits d'histoire de vie, masse, taux de substitution ou dN/dS. Nous proposons ici une approche combinant une méthode comparative basée sur le principe des contrastes indépendants et un modèle d'évolution moléculaire, dans un cadre probabiliste Bayésien. Intégrant, le long d'une phylogénie, sur les reconstructions ancestrales des traits et et de dN/dS nous estimons les covariances entre traits ainsi qu'entre traits et paramètres du modèle d'évolution moléculaire. Un modèle hiérarchique, a été implémenté dans le cadre du logiciel coevol, publié au cours de cette maitrise. Ce modèle permet l'analyse simultané de plusieurs gènes sans perdre la puissance donnée par l'ensemble de séquences. Un travail deparallélisation des calculs donne la liberté d'augmenter la taille du modèle jusqu'à l'échelle du génome. Nous étudions ici les placentaires, pour lesquels beaucoup de génomes complets et de mesures phénotypiques sont disponibles. À la lumière des théories sur les traits d'histoire de vie, notre méthode devrait permettre de caractériser l'implication de groupes de gènes dans les processus biologique liés aux phénotypes étudiés.
Resumo:
Les processus Markoviens continus en temps sont largement utilisés pour tenter d’expliquer l’évolution des séquences protéiques et nucléotidiques le long des phylogénies. Des modèles probabilistes reposant sur de telles hypothèses sont conçus pour satisfaire la non-homogénéité spatiale des contraintes fonctionnelles et environnementales agissant sur celles-ci. Récemment, des modèles Markov-modulés ont été introduits pour décrire les changements temporels dans les taux d’évolution site-spécifiques (hétérotachie). Des études ont d’autre part démontré que non seulement la force mais également la nature de la contrainte sélective agissant sur un site peut varier à travers le temps. Ici nous proposons de prendre en charge cette réalité évolutive avec un modèle Markov-modulé pour les protéines sous lequel les sites sont autorisés à modifier leurs préférences en acides aminés au cours du temps. L’estimation a posteriori des différents paramètres modulants du noyau stochastique avec les méthodes de Monte Carlo est un défi de taille que nous avons su relever partiellement grâce à la programmation parallèle. Des réglages computationnels sont par ailleurs envisagés pour accélérer la convergence vers l’optimum global de ce paysage multidimensionnel relativement complexe. Qualitativement, notre modèle semble être capable de saisir des signaux d’hétérogénéité temporelle à partir d’un jeu de données dont l’histoire évolutive est reconnue pour être riche en changements de régimes substitutionnels. Des tests de performance suggèrent de plus qu’il serait mieux ajusté aux données qu’un modèle équivalent homogène en temps. Néanmoins, les histoires substitutionnelles tirées de la distribution postérieure sont bruitées et restent difficilement interprétables du point de vue biologique.
Resumo:
It is known that germin, which is a marker of the onset of growth in germinating wheat, is an oxalate oxidase, and also that germins possess sequence similarity with legumin and vicilin seed storage proteins. These two pieces of information have been combined in order to generate a 3D model of germin based on the structure of vicilin and to examine the model with regard to a potential oxalate oxidase active site. A cluster of three histidine residues has been located within the conserved beta-barrel structure. While there is a relatively low level of overall sequence similarity between the model and the vicilin structures, the conservation of amino acids important in maintaining the scaffold of the beta-barrel lends confidence to the juxtaposition of the histidine residues. The cluster is similar structurally to those found in copper amine oxidase and other proteins, leading to the suggestion that it defines a metal-binding location within the oxalate oxidase active site. It is also proposed that the structural elements involved in intermolecular interactions in vicilins may play a role in oligomer formation in germin/oxalate oxidase.
Resumo:
Plant storage proteins comprise a major part of the human diet. Sequence analysis has revealed that these proteins probably share a common ancestor with a fungal oxalate decarboxylase and/or related bacterial genes. Additionally, all these proteins share a central core sequence with several other functionally diverse enzymes and binding proteins, many of which are associated with synthesis of the extracellular matrix during sporulation/encystment. A possible prokaryotic relative of this sequence is a bacterial protein (SASP) known to bind to DNA and thereby protect spores from extreme environmental conditions. This ability to maintain cell viability during periods of dehydration in spores and seeds may relate to absolute conservation of residues involved in structure determination.
Resumo:
The node-density effect is an artifact of phylogeny reconstruction that can cause branch lengths to be underestimated in areas of the tree with fewer taxa. Webster, Payne, and Pagel (2003, Science 301:478) introduced a statistical procedure (the "delta" test) to detect this artifact, and here we report the results of computer simulations that examine the test's performance. In a sample of 50,000 random data sets, we find that the delta test detects the artifact in 94.4% of cases in which it is present. When the artifact is not present (n = 10,000 simulated data sets) the test showed a type I error rate of approximately 1.69%, incorrectly reporting the artifact in 169 data sets. Three measures of tree shape or "balance" failed to predict the size of the node-density effect. This may reflect the relative homogeneity of our randomly generated topologies, but emphasizes that nearly any topology can suffer from the artifact, the effect not being confined only to highly unevenly sampled or otherwise imbalanced trees. The ability to screen phylogenies for the node-density artifact is important for phylogenetic inference and for researchers using phylogenetic trees to infer evolutionary processes, including their use in molecular clock dating. [Delta test; molecular clock; molecular evolution; node-density effect; phylogenetic reconstruction; speciation; simulation.]
Resumo:
AC microsatellites have proved particularly useful as genetic markers. For some purposes, such as in population biology, the inferences drawn depend on the quantitative values of their mutation rates. This, together with intrinsic biological interest, has led to widespread study of microsatellite mutational mechanisms. Now, however, inconsistencies are appearing in the results of marker-based versus non-marker-based studies of mutational mechanisms. The reasons for this have not been investigated, but one possibility, pursued here, is that the differences result from structural differences between markers and genomic microsatellites. Here we report a comparison between the CEPH AC marker microsatellites and the global population of AC microsatellites in the human genome. AC marker microsatellites are longer than the global average. Controlling for length, marker microsatellites contain on average fewer interruptions, and have longer segments, than their genomic counterparts. Related to this, marker microsatellites show a greater tendency to concentrate the majority of their repeats into one segment. These differences plausibly result from scientists selecting markers for their high polymorphism. In addition to the structural differences, there are differences in the base composition of flanking sequences, marker flanking regions being richer in C and G and poorer in A and T. Our results indicate that there are profound differences between marker and genomic microsatellites that almost certainly affect their mutation rates. There is a need for a unified model of mutational mechanisms that accounts for both marker-derived and genomic observations. A suggestion is made as to how this might be done.
Resumo:
Copia is a retrotransposon that appears to be distributed widely among the Drosophilidae subfamily. Evolutionary analyses of regulatory regions have indicated that the Copia retrotransposon evolved through both positive and purifying selection, and that horizontal transfer (HT) could also explain its patchy distribution of the among the subfamilies of the melanogaster subgroup. Additionally, Copia elements could also have transferred between melanogaster subgroup and other species of Drosophilidae-D. willistoni and Z. tuberculatus. In this study, we surveyed seven species of the Zaprionus genus by sequencing the LTR-ULR and reverse transcriptase regions, and by using RT-PCR in order to understand the distribution and evolutionary history of Copia in the Zaprionus genus. The Copia element was detected, and was transcriptionally active, in all species investigated. Structural and selection analysis revealed Zaprionus elements to be closely related to the most ancient subfamily of the melanogaster subgroup, and they seem to be evolving mainly under relaxed purifying selection. Taken together, these results allowed us to classify the Zaprionus sequences as a new subfamily-ZapCopia, a member of the Copia retrotransposon family of the melanogaster subgroup. These findings indicate that the Copia retrotransposon is an ancient component of the genomes of the Zaprionus species and broaden our understanding of the diversity of retrotransposons in the Zaprionus genus.
Resumo:
Dengue virus type 4 (DENV-4) circulates in tropical and subtropical countries from Asia and the Americas. Despite the importance of dengue virus distribution, little is known about the worldwide viral spread. Following a Bayesian phylogenetic approach we inferred the evolutionary history of 310 isolates sampled from 37 countries during the time period 1956-2008 and the spreading dynamics for genotypes I and II. The region (tropical rainforest biome) comprised by Malaysia-Thailand was the most likely ancestral area from which the serotype has originated and spread. Interestingly, cross-correlation analysis on demographic time series with the Asian sequences showed a statistically significant negative correlation that could be suggestive of competition among genotypes within the same serotype. (C) 2011 Elsevier B.V. All rights reserved.
Resumo:
The role of lateral gene transfer (LGT) in prokaryotes has been shown to rapidly change the genome content, providing new gene tools for environmental adaptation. Features related to pathogenesis and resistance to strong selective conditions have been widely shown to be products of gene transfer between bacteria. The genomes of the gamma-proteobacteria from the genus Xanthomonas, composed mainly of phytopathogens, have potential genomic islands that may represent imprints of such evolutionary processes. In this work, the evolution of genes involved in the pathway responsible for arginine biosynthesis in Xanthomonadales was investigated, and several lines of evidence point to the foreign origin of the arg genes clustered within a potential operon. Their presence inside a potential genomic island, bordered by a tRNA gene, the unusual ranking of sequence similarity, and the atypical phylogenies indicate that the metabolic pathway for arginine biosynthesis was acquired through LGT in the Xanthomonadales group. Moreover, although homologues were also found in Bacteroidetes (Flavobacteria group), for many of the genes analyzed close homologues are detected in different life domains (Eukarya and Archaea), indicating that the source of these arg genes may have been outside the Bacteria clade. The possibility of replacement of a complete primary metabolic pathway by LGT events supports the selfish operon hypothesis and may occur only under very special environmental conditions. Such rare events reveal part of the history of these interesting mosaic Xanthomonadales genomes, disclosing the importance of gene transfer modifying primary metabolism pathways and extending the scenario for bacterial genome evolution.
Resumo:
We characterized four eEF1A genes in the alternative rhabditid nematode model organism Oscheius tipulae. This is twice the copy number of eEF1A genes in C. elegans, C. briggsae, and, probably, many other free-living and parasitic nematodes. The introns show features remarkably different from those of other metazoan eEF1A genes. Most of the introns in the eEF1A genes are specific to O. tipulae and are not shared with any of the other genes described in metazoans. Most of the introns are phase 0 (inserted between two codons), and few are inserted in protosplice sites (introns inserted between the nucleotide sequence A/CAG and G/A). Two of these phase 0 introns are conserved in sequence in two or more of the four eEF1A gene copies, and are inserted in the same position in the genes. Neither of these characteristics has been detected in any of the nematode eEF1A genes characterized to date. The coding sequences were also compared with other eEF1A cDNAs from 11 different nematodes to determine the variability of these genes within the phylum Nematoda. Parsimony and distance trees yielded similar topologies, which were similar to those created using other molecular markers. The presence of more than one copy of the eEF1A gene with nearly identical coding regions makes it difficult to define the orthologous cDNAs. As shown by our data on O. tipulae, careful and extensive examination of intron positions in the eEF1A gene across the phylum is necessary to define their potential for use as valid phylogenetic markers.
Resumo:
In this study, using a combined data set of SSU rDNA and gGAPDH gene sequences, we provide phylogenetic evidence that supports Clustering of crocodilian trypanosomes from the Brazilian Caiman yacare (Alligatoridae) and Trypanosoma grayi, a species that Circulates between African crocodiles (Crocodilydae) and tsetse flies. In a survey of trypanosomes in Caiman yacare from the Brazilian Pantanal, the prevalence of trypanosome infection was 35% as determined by microhaematocrit and haemoculture, and 9 cultures were obtained. The morphology of trypomastigotes from caiman blood and tissue imprints was compared with those described for other crocodilian trypanosomes. Differences in morphology and growth behaviour of caiman trypanosomes were corroborated by molecular polymorphism that revealed 2 genotypes. Eight isolates were ascribed to genotype Cay01 and 1 to genotype Cay02. Phylogenetic inferences based on concatenated SSU rDNA and gGAPDII sequences showed that caiman isolates are closely related to T. grayi, constituting a well-supported monophyletic assemblage (clade T. grayi). Divergence time estimates based on clade composition, and biogeographical and geological events were used to discuss the relationships between the evolutionary histories of crocodilian trypanosomes and their hosts.
Resumo:
One of the main components of snake venoms are the Asp49-phospholipases A(2), also known as svPLA(2)s. The study of these toxins is a matter of great scientific interest due to their wide variety of biological effects. In this work we present strong evidences found in literature and other aspects which strengthen the importance of quaternary assembly for understanding the activities and molecular evolution of svPLA(2)s.